位置: IT常识 - 正文

Linux下socket实现网页抓取 Unicorn 博客频道 CSDN.NET

编辑:rootadmin
Linux下socket实现网页抓取 - Unicorn - 博客频道 - CSDN.NET Linux下socket实现网页抓取 分类: C/C++学习点滴 DO spiders DO linux编 Linux下socket实现网页抓取 分类: C/C++学习点滴 DO spiders DO linux编程 2007-10-06 21:33 951人阅读 评论(0) 收藏 举报

推荐整理分享Linux下socket实现网页抓取 Unicorn 博客频道 CSDN.NET,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

主要用来和WinSock进行下比较:

--WinSock--

需要初始化:

if( (Ret = WSAStartup(MAKEWORD(1,1), &wsaData) ) != 0 )

{

printf("WSAStartup failed with error %d/n", Ret);

return FALSE;

}

头文件:

--WinSock--

#include <winsock2.h> //header

#pragma comment (lib, "ws2_32.lib") //lib

--Linux--

#include <sys/socket.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <netdb.h>

各个头文件的作用还需要进一步研究

gethostbyname(host)://从主机名返回地址

这个都是一样的,返回一个struct hostent *的指针。

地址结构:

--WinSock--

SOCKADDR_IN

--Linux--

sockaddr_in

实际上是一样的都是

struct sockaddr_in{

shortsin_family;

unsigned short sin_port;

struct in_addr sin_addr;

charsin_zero[8];

};

(

这个结构是sockaddr的等价结构

struct sockaddr

{

unsigned short sa_family; // address family, AF_XXX

char sa_data[14]; //14 bytes of protocol address

};

)

其中IP地址结构struct in_addr定义如下:

struct in_addr {

union {

struct{

unsigned char s_b1,

s_b2,

s_b3,

s_b4;

} S_un_b;

struct {

unsigned short s_w1,

s_w2;

} S_un_w;

unsigned long S_addr;

} S_un;

};

Socket:

--WinSock--

返回句柄SOCKET,就是socket描述符

--Linux--

比较直接返回int型socket描述符

函数接口都一样

函数例子:

socket (AF_INET, SOCK_STREAM, 0); //TCP

connect(sock, (const sockaddr * )&tcpaddr, sizeof(tcpaddr)); //返回值有不同

--WinSock--

If no error occurs, connect returns zero. Otherwise, it returns SOCKET_ERROR, and a specific error code can be retrieved by calling

WSAGetLastError.

--Linux--

错误返回-1

send(sock_description, message, strlen(message), 0); //返回值不同

--WinSock--

If no error occurs, send returns the total number of bytes sent, which can be less than the number indicated by len. Otherwise, a value of

SOCKET_ERROR is returned, and a specific error code can be retrieved by calling WSAGetLastError.

--Linux--

错误返回-1

recv(sock_description, buffer, sizeof(buffer), 0);//返回值不同

--WinSock--

If no error occurs, recv returns the number of bytes received. If the connection has been gracefully closed, the return value is zero. Otherwise, a

value of SOCKET_ERROR is returned, and a specific error code can be retrieved by calling WSAGetLastError.

--Linux--

错误返回-1

结束:

--WinSock--

closesocket(sock);

Linux下socket实现网页抓取  Unicorn  博客频道  CSDN.NET

if( WSACleanup() == SOCKET_ERROR )

{

printf("WSACleanup failed with error %d /n", WSAGetLastError() );

}

--Linux--

close(sock);

下面是一个Linux下socket一个HTTP协议GET方法的应用:

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

#include <sys/socket.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <netdb.h>

char*host = "www.hao123.com";

intport = 80;

int main(void)

{

char buffer[512];

int isock;

struct sockaddr_in pin;

struct hostent * remoteHost;

char message[512];

int done = 0;

int chars = 0;

int l = 0;

if( (remoteHost = gethostbyname(host)) == 0 )

{

printf("Error resolving host/n");

exit(1);

}

bzero(message,sizeof(message));

bzero(&pin,sizeof(pin));

pin.sin_family = AF_INET;

pin.sin_port = htons(port);

pin.sin_addr.s_addr = ( (struct in_addr *)(remoteHost->h_addr) )->s_addr;

if( (isock = socket(AF_INET, SOCK_STREAM, 0)) == -1)

{

printf("Error opening socket!/n");

exit(1);

}

sprintf(message, "GET / HTTP/1.1/r/n");

strcat(message, "Host:www.hao123.com/r/n");

strcat(message, "Accept: */*/r/n");

strcat(message, "User-Agent: Mozilla/4.0(compatible)/r/n");

strcat(message, "connection:Keep-Alive/r/n");

strcat(message, "/r/n/r/n");

printf("%s",message);

if( connect(isock, (void *)&pin, sizeof(pin)) == -1 )

{

printf("Error connecting to socket/n");

exit(1);

}

if( send(isock, message, strlen(message), 0) == -1)

{

printf("Error in send/n");

exit(1);

}

while(done == 0)

{

l = recv(isock, buffer, 1, 0);

if( l < 0 )

done = 1;

switch(*buffer)

{

case '/r':

break;

case '/n':

if(chars == 0)

done = 1;

chars = 0;

break;

default:

chars++;

break;

}

printf("%c",*buffer);

}

do

{

l = recv(isock, buffer, sizeof(buffer) - 1, 0);

if( l < 0 )

break;

*(buffer + l) = 0;

fputs(buffer, stdout);

}while( l > 0 );

close(isock);

return 0;

}

本文链接地址:https://www.jiuchutong.com/zhishi/304077.html 转载请保留说明!

上一篇:帝国cms附表如何分表(帝国cms使用手册)

下一篇:帝国cms怎么多条件搜索(帝国cms界面)

  • win10智能卡服务未启动(win10智能卡服务怎么开启)

    win10智能卡服务未启动(win10智能卡服务怎么开启)

  • 华为mate30后面4个摄像头怎么不一样(华为mate30后面的玻璃碎了要多少钱)

    华为mate30后面4个摄像头怎么不一样(华为mate30后面的玻璃碎了要多少钱)

  • 只读存储器和随机存储器的区别是什么(只读存储器和随机存储器的联系)

    只读存储器和随机存储器的区别是什么(只读存储器和随机存储器的联系)

  • oppo手机在哪里关掉耳机模式(oppo手机在哪里录音)

    oppo手机在哪里关掉耳机模式(oppo手机在哪里录音)

  • p30录制屏幕怎么没有声音(屏幕录制华为p30怎么设置)

    p30录制屏幕怎么没有声音(屏幕录制华为p30怎么设置)

  • oppoa91微信视频怎么美颜(oppoa72手机微信视频怎么样)

    oppoa91微信视频怎么美颜(oppoa72手机微信视频怎么样)

  • iqooz1是什么屏幕(iqooz1屏幕是什么屏)

    iqooz1是什么屏幕(iqooz1屏幕是什么屏)

  • 苹果笔记本电脑删除键是哪一个(苹果笔记本电脑怎么恢复出厂设置)

    苹果笔记本电脑删除键是哪一个(苹果笔记本电脑怎么恢复出厂设置)

  • 苹果7plus手电筒在哪

    苹果7plus手电筒在哪

  • cadml是什么命令(cadml怎么用)

    cadml是什么命令(cadml怎么用)

  • 大数据的来源粗略的分为(大数据的来源粗略分为哪几类)

    大数据的来源粗略的分为(大数据的来源粗略分为哪几类)

  • ipad2018怎么扩展内存(ipad air扩展)

    ipad2018怎么扩展内存(ipad air扩展)

  • 钉钉直播怎么看观看时长(钉钉直播怎么看评论区)

    钉钉直播怎么看观看时长(钉钉直播怎么看评论区)

  • 如何批量设置朋友圈权限(如何批量设置朋友标签)

    如何批量设置朋友圈权限(如何批量设置朋友标签)

  • 卡西欧太阳能充电多久可充满(卡西欧太阳能充不满)

    卡西欧太阳能充电多久可充满(卡西欧太阳能充不满)

  • 手机积分清零吗(手机积分清0)

    手机积分清零吗(手机积分清0)

  • 手机qq音乐怎么关闭(手机qq音乐怎么投屏到电视上)

    手机qq音乐怎么关闭(手机qq音乐怎么投屏到电视上)

  • 嘀嗒出行怎么申请发票(嘀嗒出行怎么申请注册司机)

    嘀嗒出行怎么申请发票(嘀嗒出行怎么申请注册司机)

  • qq会员铭牌怎么更换(qq会员铭牌怎么隐藏)

    qq会员铭牌怎么更换(qq会员铭牌怎么隐藏)

  • 网易考拉怎么修改个人资料(网易考拉怎么切换账号)

    网易考拉怎么修改个人资料(网易考拉怎么切换账号)

  • 华为手机怎么截取长图(华为手机怎么截图长屏幕截图)

    华为手机怎么截取长图(华为手机怎么截图长屏幕截图)

  • 陌陌附近人距离乱了怎么回事(陌陌附近人距离乱了怎么解决)

    陌陌附近人距离乱了怎么回事(陌陌附近人距离乱了怎么解决)

  • 火狐浏览器如何截图(火狐浏览器如何翻译网页)

    火狐浏览器如何截图(火狐浏览器如何翻译网页)

  • 支付宝手机网站H5支付(支付宝手机网站支付不风控)

    支付宝手机网站H5支付(支付宝手机网站支付不风控)

  • 【注意力机制集锦】Channel Attention通道注意力网络结构、源码解读系列一(注意力机制cbam)

    【注意力机制集锦】Channel Attention通道注意力网络结构、源码解读系列一(注意力机制cbam)

  • 委托加工物资的成本包括哪些内容
  • 滞纳税款和滞纳金比例
  • 提成过高
  • 公司房产税怎么做分录
  • 增值税纳税申报表附列资料(三)
  • 运输公司轮胎如何做会计分录
  • 当前企业不存在是怎么回事
  • 公司注册住所要求
  • 土地转让的税费怎么算
  • 客户减免费用邮件怎么写
  • 花卉租赁发票税率是多少
  • 果蔬免征增值税有哪些
  • 打印机第一行未赋码
  • 企业咨询费可以抵扣吗
  • 多计提的费用怎么调整
  • 两年利润都为负数,如何计算完成率
  • 工资本月计提下月发放,个税如何计算做账
  • 应付职工薪酬调到其他应付款
  • win10系统出现蓝屏恢复
  • 资产处置损益是什么科目
  • linux运行后出现乱码
  • 股东借钱给公司怎么写借条
  • php是面向过程还是面向对象
  • 咨询服务费需要什么附件
  • 加班车费报销计入什么科目
  • mssvr.exe - mssvr是什么进程 什么用
  • PHP:curl_version()的用法_cURL函数
  • 交易性金融资产属于什么科目
  • pgptray.exe - pgptray是什么进程 有什么用
  • info是什么软件
  • php stl
  • CodeIgniter针对数据库的连接、配置及使用方法
  • 财政预算单位可以既是省级又是中央
  • 企业安全生产费用不得出现赤字
  • 使用电子计算机生成的会计凭证
  • 房产契税滞纳金如何减免
  • 水利建设基金计税依据
  • thinkphp saveall
  • uniapp前端面试题
  • php如何获取当前时间
  • vue 响应式自适应布局
  • 银行存放中央银行准备金的会计处理
  • 公司交社保国家承担吗
  • 电子口岸报关单在哪下载
  • 对公账户和私人账户怎么区分
  • 其他综合收益 综合收益
  • 员工加班打车费进项可以抵扣吗
  • 小规模公司注销时账务要如何处理
  • 委外加工怎么盘点
  • 企业所得税资产总额季初季末怎么填
  • 固定资产处置净收入转入什么账户核算
  • 损益类科目全部科目
  • 国有土地使用权是什么意思
  • 物业公司预收的物业费怎么做账
  • 如何填写会计凭证内容
  • 客户重复付款了怎么礼貌回复
  • 营改增后,小规模纳税人广联达
  • 工程未完工,费用怎么处理
  • 完美解决英语怎么说
  • android x86 4.0 iso
  • 开机后cpu占用高
  • win7总是弹出广告怎么办
  • notify.exe - notify是什么进程 有什么用
  • win7文件和打印机共享
  • linux 网页
  • cocos creator js教程
  • unity如何避免碰撞穿透
  • android中的短信联系人管理,浏览器属于
  • xcopy 批处理
  • javascript HTML+CSS实现经典橙色导航菜单
  • js处理时间
  • python3.9爬取网页教程
  • javascript面向对象精要pdf
  • android root 原理
  • 广东省税务登记网
  • 企业年报通怎么注销
  • 医院等级怎么查询系统
  • 自然人扣缴端怎么申报个税
  • 个体工商户如何注销
  • 增值税专用发票注明的金额是含税还是不含税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设