位置: IT常识 - 正文

Linux下socket实现网页抓取 Unicorn 博客频道 CSDN.NET

编辑:rootadmin
Linux下socket实现网页抓取 - Unicorn - 博客频道 - CSDN.NET Linux下socket实现网页抓取 分类: C/C++学习点滴 DO spiders DO linux编 Linux下socket实现网页抓取 分类: C/C++学习点滴 DO spiders DO linux编程 2007-10-06 21:33 951人阅读 评论(0) 收藏 举报

推荐整理分享Linux下socket实现网页抓取 Unicorn 博客频道 CSDN.NET,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

主要用来和WinSock进行下比较:

--WinSock--

需要初始化:

if( (Ret = WSAStartup(MAKEWORD(1,1), &wsaData) ) != 0 )

{

printf("WSAStartup failed with error %d/n", Ret);

return FALSE;

}

头文件:

--WinSock--

#include <winsock2.h> //header

#pragma comment (lib, "ws2_32.lib") //lib

--Linux--

#include <sys/socket.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <netdb.h>

各个头文件的作用还需要进一步研究

gethostbyname(host)://从主机名返回地址

这个都是一样的,返回一个struct hostent *的指针。

地址结构:

--WinSock--

SOCKADDR_IN

--Linux--

sockaddr_in

实际上是一样的都是

struct sockaddr_in{

shortsin_family;

unsigned short sin_port;

struct in_addr sin_addr;

charsin_zero[8];

};

(

这个结构是sockaddr的等价结构

struct sockaddr

{

unsigned short sa_family; // address family, AF_XXX

char sa_data[14]; //14 bytes of protocol address

};

)

其中IP地址结构struct in_addr定义如下:

struct in_addr {

union {

struct{

unsigned char s_b1,

s_b2,

s_b3,

s_b4;

} S_un_b;

struct {

unsigned short s_w1,

s_w2;

} S_un_w;

unsigned long S_addr;

} S_un;

};

Socket:

--WinSock--

返回句柄SOCKET,就是socket描述符

--Linux--

比较直接返回int型socket描述符

函数接口都一样

函数例子:

socket (AF_INET, SOCK_STREAM, 0); //TCP

connect(sock, (const sockaddr * )&tcpaddr, sizeof(tcpaddr)); //返回值有不同

--WinSock--

If no error occurs, connect returns zero. Otherwise, it returns SOCKET_ERROR, and a specific error code can be retrieved by calling

WSAGetLastError.

--Linux--

错误返回-1

send(sock_description, message, strlen(message), 0); //返回值不同

--WinSock--

If no error occurs, send returns the total number of bytes sent, which can be less than the number indicated by len. Otherwise, a value of

SOCKET_ERROR is returned, and a specific error code can be retrieved by calling WSAGetLastError.

--Linux--

错误返回-1

recv(sock_description, buffer, sizeof(buffer), 0);//返回值不同

--WinSock--

If no error occurs, recv returns the number of bytes received. If the connection has been gracefully closed, the return value is zero. Otherwise, a

value of SOCKET_ERROR is returned, and a specific error code can be retrieved by calling WSAGetLastError.

--Linux--

错误返回-1

结束:

--WinSock--

closesocket(sock);

Linux下socket实现网页抓取  Unicorn  博客频道  CSDN.NET

if( WSACleanup() == SOCKET_ERROR )

{

printf("WSACleanup failed with error %d /n", WSAGetLastError() );

}

--Linux--

close(sock);

下面是一个Linux下socket一个HTTP协议GET方法的应用:

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

#include <sys/socket.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <netdb.h>

char*host = "www.hao123.com";

intport = 80;

int main(void)

{

char buffer[512];

int isock;

struct sockaddr_in pin;

struct hostent * remoteHost;

char message[512];

int done = 0;

int chars = 0;

int l = 0;

if( (remoteHost = gethostbyname(host)) == 0 )

{

printf("Error resolving host/n");

exit(1);

}

bzero(message,sizeof(message));

bzero(&pin,sizeof(pin));

pin.sin_family = AF_INET;

pin.sin_port = htons(port);

pin.sin_addr.s_addr = ( (struct in_addr *)(remoteHost->h_addr) )->s_addr;

if( (isock = socket(AF_INET, SOCK_STREAM, 0)) == -1)

{

printf("Error opening socket!/n");

exit(1);

}

sprintf(message, "GET / HTTP/1.1/r/n");

strcat(message, "Host:www.hao123.com/r/n");

strcat(message, "Accept: */*/r/n");

strcat(message, "User-Agent: Mozilla/4.0(compatible)/r/n");

strcat(message, "connection:Keep-Alive/r/n");

strcat(message, "/r/n/r/n");

printf("%s",message);

if( connect(isock, (void *)&pin, sizeof(pin)) == -1 )

{

printf("Error connecting to socket/n");

exit(1);

}

if( send(isock, message, strlen(message), 0) == -1)

{

printf("Error in send/n");

exit(1);

}

while(done == 0)

{

l = recv(isock, buffer, 1, 0);

if( l < 0 )

done = 1;

switch(*buffer)

{

case '/r':

break;

case '/n':

if(chars == 0)

done = 1;

chars = 0;

break;

default:

chars++;

break;

}

printf("%c",*buffer);

}

do

{

l = recv(isock, buffer, sizeof(buffer) - 1, 0);

if( l < 0 )

break;

*(buffer + l) = 0;

fputs(buffer, stdout);

}while( l > 0 );

close(isock);

return 0;

}

本文链接地址:https://www.jiuchutong.com/zhishi/304077.html 转载请保留说明!

上一篇:帝国cms附表如何分表(帝国cms使用手册)

下一篇:帝国cms怎么多条件搜索(帝国cms界面)

  • 小规模增值税会计处理流程
  • 社保工伤保险可以交两家公司吗
  • 以前年度影响利润吗
  • 小规模开票软件怎么下载
  • 个人到税务局开发票要带什么东西
  • 劳动保护费通过什么确认
  • 结转入库材料计划成本的会计分录例题
  • 税务登记后怎么领发票
  • 天然气安装工程施工劳务协议
  • 承兑多付了退现金网银备注什么
  • 增值税扣完税款还能更改吗
  • 交通费汇算清缴怎么做账
  • 计提和缴纳税会计分录
  • 适用简易计税方法的企业提供适用零税率的应税服务
  • 金税盘不交年费可以正常使用吗
  • 固定资产清理账面价值怎么算
  • 成本费用分配的原则方法
  • 销售折扣账务怎么处理
  • 到银行开公司账户需要多少手续费
  • 所得税费用属于损失吗
  • 分公司应收款转总公司会计分录?
  • 公司购买五金用交税吗
  • 交易性金融资产公允价值变动计入
  • 新版edge浏览器文字不显示
  • 赠送的商品怎么入库 企业会计准则
  • 金融工具中股利是什么
  • 发票金额大于报销金额可以吗
  • dns进程
  • 电脑文件删除怎么恢复找回
  • 主营业务收入会计分录例题
  • nyu数据集
  • layui 日期控件赋值
  • .php是什么
  • 公司挂靠社保的人员需要申报个人所得税吗?
  • php使用自定义函数编程求半径r的圆的周长和面积
  • 多模态特征融合pytorch
  • 进项税额转出在申报的时候怎么填
  • python闭包主要解决什么问题
  • 待抵扣进项税额的账务处理
  • 公司股东利润分配方案范本
  • 收到承兑汇票在什么科目
  • 工伤保险退费了是什么意思
  • 预付账款借贷方余额
  • 如何填制费用报销单
  • 用友部门核算项目核算
  • 企业所得税退还账务处理
  • 提取备用金如何填写现金日记账
  • 注册资本认缴制度
  • 计提工会经费如何做账
  • 教育局给幼儿园的补贴
  • 常用的加速折旧方法
  • 装修费没发票怎么记账
  • 支付银行贷款利息的会计处理
  • 用友t3月末转账流程图
  • 特定担保债权
  • 滞纳金的收取范围是什么
  • 管理会计与核算会计的区别
  • MySQL:Unsafe statement written to the binary log using statement format since BINLOG_FORMAT = STATEM
  • 一个简单的微笑说说
  • mac虚拟机安装教程win10正版
  • 设置自动清理缓存电脑
  • freebsd重启命令
  • 苹果电脑bim
  • centos 6.5安装教程
  • hmies.exe是什么
  • win10更新中途怎么取消
  • win10飞行模式开关是灰色的
  • Win10 Mobile Redstone预览版14291上手体验评测
  • opengl oes纹理
  • 批处理自动登录有密码的程序
  • 快速备份mysql数据库
  • javascript data
  • python制作爬虫教程
  • JavaScript入门教程
  • 基于jquery实现小说
  • python中的description
  • 江宁市民之家上班时间?
  • 云南税务查询系统
  • 地税和国税是什么关系
  • 车船税为什么有时候不用交
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设