位置: IT常识 - 正文

Linux下socket实现网页抓取 Unicorn 博客频道 CSDN.NET

编辑:rootadmin
Linux下socket实现网页抓取 - Unicorn - 博客频道 - CSDN.NET Linux下socket实现网页抓取 分类: C/C++学习点滴 DO spiders DO linux编 Linux下socket实现网页抓取 分类: C/C++学习点滴 DO spiders DO linux编程 2007-10-06 21:33 951人阅读 评论(0) 收藏 举报

推荐整理分享Linux下socket实现网页抓取 Unicorn 博客频道 CSDN.NET,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

主要用来和WinSock进行下比较:

--WinSock--

需要初始化:

if( (Ret = WSAStartup(MAKEWORD(1,1), &wsaData) ) != 0 )

{

printf("WSAStartup failed with error %d/n", Ret);

return FALSE;

}

头文件:

--WinSock--

#include <winsock2.h> //header

#pragma comment (lib, "ws2_32.lib") //lib

--Linux--

#include <sys/socket.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <netdb.h>

各个头文件的作用还需要进一步研究

gethostbyname(host)://从主机名返回地址

这个都是一样的,返回一个struct hostent *的指针。

地址结构:

--WinSock--

SOCKADDR_IN

--Linux--

sockaddr_in

实际上是一样的都是

struct sockaddr_in{

shortsin_family;

unsigned short sin_port;

struct in_addr sin_addr;

charsin_zero[8];

};

(

这个结构是sockaddr的等价结构

struct sockaddr

{

unsigned short sa_family; // address family, AF_XXX

char sa_data[14]; //14 bytes of protocol address

};

)

其中IP地址结构struct in_addr定义如下:

struct in_addr {

union {

struct{

unsigned char s_b1,

s_b2,

s_b3,

s_b4;

} S_un_b;

struct {

unsigned short s_w1,

s_w2;

} S_un_w;

unsigned long S_addr;

} S_un;

};

Socket:

--WinSock--

返回句柄SOCKET,就是socket描述符

--Linux--

比较直接返回int型socket描述符

函数接口都一样

函数例子:

socket (AF_INET, SOCK_STREAM, 0); //TCP

connect(sock, (const sockaddr * )&tcpaddr, sizeof(tcpaddr)); //返回值有不同

--WinSock--

If no error occurs, connect returns zero. Otherwise, it returns SOCKET_ERROR, and a specific error code can be retrieved by calling

WSAGetLastError.

--Linux--

错误返回-1

send(sock_description, message, strlen(message), 0); //返回值不同

--WinSock--

If no error occurs, send returns the total number of bytes sent, which can be less than the number indicated by len. Otherwise, a value of

SOCKET_ERROR is returned, and a specific error code can be retrieved by calling WSAGetLastError.

--Linux--

错误返回-1

recv(sock_description, buffer, sizeof(buffer), 0);//返回值不同

--WinSock--

If no error occurs, recv returns the number of bytes received. If the connection has been gracefully closed, the return value is zero. Otherwise, a

value of SOCKET_ERROR is returned, and a specific error code can be retrieved by calling WSAGetLastError.

--Linux--

错误返回-1

结束:

--WinSock--

closesocket(sock);

Linux下socket实现网页抓取  Unicorn  博客频道  CSDN.NET

if( WSACleanup() == SOCKET_ERROR )

{

printf("WSACleanup failed with error %d /n", WSAGetLastError() );

}

--Linux--

close(sock);

下面是一个Linux下socket一个HTTP协议GET方法的应用:

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

#include <sys/socket.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <netdb.h>

char*host = "www.hao123.com";

intport = 80;

int main(void)

{

char buffer[512];

int isock;

struct sockaddr_in pin;

struct hostent * remoteHost;

char message[512];

int done = 0;

int chars = 0;

int l = 0;

if( (remoteHost = gethostbyname(host)) == 0 )

{

printf("Error resolving host/n");

exit(1);

}

bzero(message,sizeof(message));

bzero(&pin,sizeof(pin));

pin.sin_family = AF_INET;

pin.sin_port = htons(port);

pin.sin_addr.s_addr = ( (struct in_addr *)(remoteHost->h_addr) )->s_addr;

if( (isock = socket(AF_INET, SOCK_STREAM, 0)) == -1)

{

printf("Error opening socket!/n");

exit(1);

}

sprintf(message, "GET / HTTP/1.1/r/n");

strcat(message, "Host:www.hao123.com/r/n");

strcat(message, "Accept: */*/r/n");

strcat(message, "User-Agent: Mozilla/4.0(compatible)/r/n");

strcat(message, "connection:Keep-Alive/r/n");

strcat(message, "/r/n/r/n");

printf("%s",message);

if( connect(isock, (void *)&pin, sizeof(pin)) == -1 )

{

printf("Error connecting to socket/n");

exit(1);

}

if( send(isock, message, strlen(message), 0) == -1)

{

printf("Error in send/n");

exit(1);

}

while(done == 0)

{

l = recv(isock, buffer, 1, 0);

if( l < 0 )

done = 1;

switch(*buffer)

{

case '/r':

break;

case '/n':

if(chars == 0)

done = 1;

chars = 0;

break;

default:

chars++;

break;

}

printf("%c",*buffer);

}

do

{

l = recv(isock, buffer, sizeof(buffer) - 1, 0);

if( l < 0 )

break;

*(buffer + l) = 0;

fputs(buffer, stdout);

}while( l > 0 );

close(isock);

return 0;

}

本文链接地址:https://www.jiuchutong.com/zhishi/304077.html 转载请保留说明!

上一篇:帝国cms附表如何分表(帝国cms使用手册)

下一篇:帝国cms怎么多条件搜索(帝国cms界面)

  • 1080p是多少像素(手机1080p是多少像素)

    1080p是多少像素(手机1080p是多少像素)

  • 荣耀怎么开启性能模式(荣耀如何开性能模式)

    荣耀怎么开启性能模式(荣耀如何开性能模式)

  • 没有互关怎么看好友圈(没有互关怎么看对方直播)

    没有互关怎么看好友圈(没有互关怎么看对方直播)

  • 安装etc显示订单不存在

    安装etc显示订单不存在

  • 微信怎么查看把谁免打扰了(微信怎么查看把我删除的人)

    微信怎么查看把谁免打扰了(微信怎么查看把我删除的人)

  • 路由器四核和双核有什么不同(路由器双核和四核哪个网速快)

    路由器四核和双核有什么不同(路由器双核和四核哪个网速快)

  • 微信收款音箱s1和s3区别(微信收款音箱s1怎么重置)

    微信收款音箱s1和s3区别(微信收款音箱s1怎么重置)

  • 荣耀9x刷新率(荣耀9x刷新率怎么看)

    荣耀9x刷新率(荣耀9x刷新率怎么看)

  • 怎么关闭指纹解锁功能(怎么关闭指纹解锁功能华为手机)

    怎么关闭指纹解锁功能(怎么关闭指纹解锁功能华为手机)

  • 快手发作品怎么艾特自己(快手发作品怎么保存到相册)

    快手发作品怎么艾特自己(快手发作品怎么保存到相册)

  • 华为手机怎样把旧手机里的内容移到新手机(华为手机怎样把两张图片拼在一起)

    华为手机怎样把旧手机里的内容移到新手机(华为手机怎样把两张图片拼在一起)

  • 微信对方已删除账号是什么意思(微信对方已删除好友)

    微信对方已删除账号是什么意思(微信对方已删除好友)

  • 手机个人热点费流量吗(手机热点费用怎么算的)

    手机个人热点费流量吗(手机热点费用怎么算的)

  • 手机左上角显示HD是开启什么功能(手机左上角显示时间怎么关闭)

    手机左上角显示HD是开启什么功能(手机左上角显示时间怎么关闭)

  • 抖音作品怎么设置私密相册(抖音作品怎么设置仅自己可见)

    抖音作品怎么设置私密相册(抖音作品怎么设置仅自己可见)

  • 华为荣耀5手环的功能(华为荣耀5手环表带怎么更换)

    华为荣耀5手环的功能(华为荣耀5手环表带怎么更换)

  • ppt如何设置导航窗口(ppt如何设置导航目录)

    ppt如何设置导航窗口(ppt如何设置导航目录)

  • ios12怎么关闭相机声音(苹果12怎么关闭相机快门声)

    ios12怎么关闭相机声音(苹果12怎么关闭相机快门声)

  • iphone屏幕防偷窥设置(苹果屏幕防止偷窥怎么启动)

    iphone屏幕防偷窥设置(苹果屏幕防止偷窥怎么启动)

  • Win11如何查看系统是否激活?Windows11检查激活状态三种方法(win11怎么看电脑配置)

    Win11如何查看系统是否激活?Windows11检查激活状态三种方法(win11怎么看电脑配置)

  • 在线网速测试网速比较快,用起来比较慢的原因?(在线网速测试网站测速工具)

    在线网速测试网速比较快,用起来比较慢的原因?(在线网速测试网站测速工具)

  • HBuilder X的下载与使用(详细步骤)(hbuilder怎么下载)

    HBuilder X的下载与使用(详细步骤)(hbuilder怎么下载)

  • 哪些发票可以抵扣增值税
  • 资产负债表应交税金负数是什么意思
  • 合作社需要办什么证件
  • 价外费用的判断标准
  • 固定资产出售损失属于广义费用吗
  • 出口货物退回需交税吗
  • 认缴制下实缴资本流程
  • pe市盈率法
  • 红冲的普票要给对方单位吗
  • 开票不走公户
  • 应税服务计入什么科目
  • 增值税征收比例和征收方式
  • 低值易耗品进项税额转出账务处理
  • 租车租赁费税率是多少
  • 专票密码区出来了一点有关系吗
  • 金税四期什么时候结束
  • 三证合一后纳税人识别号和信用代码一样吗
  • 上年多计提附加税调整了,今年怎么调整
  • 在途物资期末借方
  • 审计费可以抵扣进项吗
  • 不交社保是否可以马上辞职
  • win7改win10详细教程
  • windows 11怎么样
  • 收到办公室桶装水开的普票怎样入账?
  • 生产型企业原材料运费入库单怎么填
  • php fork
  • php 静态
  • win7怎么删除windows.old
  • bass boost system
  • 企业财务会计
  • 购买商品房交税流程
  • 农产品加计扣除1%怎么计算和会计分录
  • 从零开始打造神级文明
  • php实现当前页面的快捷键
  • 检测命令
  • 报关单在哪里打出来
  • js闭包示例
  • 公司出现质量问题员工怎么处理
  • mysql group by实现原理
  • 娱乐服务计费销售额包括
  • 公司缴纳社保会计分录怎么做
  • 收到银行手续费已做后期收到发票怎么做
  • 一般纳税人退税条件
  • 增值税专用发票怎么开
  • 进口关税减免政策
  • 开办费企业所得税处理
  • 合同资产科目设置
  • 委托代销确认销售收入
  • 小微企业免征的增值税属于政府补助吗
  • 非盈利社会团体可以开发票吗
  • 如果我们交了房租,对方不给我们开发票
  • 股权关系怎么描述
  • 出租办公楼收入属于收入吗
  • 商业企业固定资产一次性扣除
  • 安装mysql失败原因
  • 安装完成后如何检验安装的部分是否符合安装工艺
  • windows7禁用usb
  • Windows 2003 SP2 简体中文版下载地址
  • windows xp安装win32程序
  • windows2003密码破解
  • ghost安装器怎么用
  • Win10 Mobile/PC build 10586.589曝光:老机型有份
  • 电脑没有声音怎么恢复按哪个键
  • windows8启动项在哪里
  • Mtdacq.exe - Mtdacq是什么进程 有什么用
  • linux计划任务执行脚本
  • shell 函数 return
  • 微信小程序实现人脸识别
  • 第三章之一、使用二手设备降低生产成本读后感
  • dos批命令
  • vue_api_server
  • 使用vs code开发Django
  • python的argparse用法
  • jquery滚动事件
  • 收到虚开的增值税专用发票
  • 2022年安徽城镇非私营单位平均工资
  • 广东税务app申报不小心点到了不再提示
  • 棚户区改造的回迁房可以交易吗?
  • 税务社保费是什么意思
  • 煤矸石占地需要哪些手续
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设