位置: IT常识 - 正文

Linux下socket实现网页抓取 Unicorn 博客频道 CSDN.NET

编辑:rootadmin
Linux下socket实现网页抓取 - Unicorn - 博客频道 - CSDN.NET Linux下socket实现网页抓取 分类: C/C++学习点滴 DO spiders DO linux编 Linux下socket实现网页抓取 分类: C/C++学习点滴 DO spiders DO linux编程 2007-10-06 21:33 951人阅读 评论(0) 收藏 举报

推荐整理分享Linux下socket实现网页抓取 Unicorn 博客频道 CSDN.NET,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

主要用来和WinSock进行下比较:

--WinSock--

需要初始化:

if( (Ret = WSAStartup(MAKEWORD(1,1), &wsaData) ) != 0 )

{

printf("WSAStartup failed with error %d/n", Ret);

return FALSE;

}

头文件:

--WinSock--

#include <winsock2.h> //header

#pragma comment (lib, "ws2_32.lib") //lib

--Linux--

#include <sys/socket.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <netdb.h>

各个头文件的作用还需要进一步研究

gethostbyname(host)://从主机名返回地址

这个都是一样的,返回一个struct hostent *的指针。

地址结构:

--WinSock--

SOCKADDR_IN

--Linux--

sockaddr_in

实际上是一样的都是

struct sockaddr_in{

shortsin_family;

unsigned short sin_port;

struct in_addr sin_addr;

charsin_zero[8];

};

(

这个结构是sockaddr的等价结构

struct sockaddr

{

unsigned short sa_family; // address family, AF_XXX

char sa_data[14]; //14 bytes of protocol address

};

)

其中IP地址结构struct in_addr定义如下:

struct in_addr {

union {

struct{

unsigned char s_b1,

s_b2,

s_b3,

s_b4;

} S_un_b;

struct {

unsigned short s_w1,

s_w2;

} S_un_w;

unsigned long S_addr;

} S_un;

};

Socket:

--WinSock--

返回句柄SOCKET,就是socket描述符

--Linux--

比较直接返回int型socket描述符

函数接口都一样

函数例子:

socket (AF_INET, SOCK_STREAM, 0); //TCP

connect(sock, (const sockaddr * )&tcpaddr, sizeof(tcpaddr)); //返回值有不同

--WinSock--

If no error occurs, connect returns zero. Otherwise, it returns SOCKET_ERROR, and a specific error code can be retrieved by calling

WSAGetLastError.

--Linux--

错误返回-1

send(sock_description, message, strlen(message), 0); //返回值不同

--WinSock--

If no error occurs, send returns the total number of bytes sent, which can be less than the number indicated by len. Otherwise, a value of

SOCKET_ERROR is returned, and a specific error code can be retrieved by calling WSAGetLastError.

--Linux--

错误返回-1

recv(sock_description, buffer, sizeof(buffer), 0);//返回值不同

--WinSock--

If no error occurs, recv returns the number of bytes received. If the connection has been gracefully closed, the return value is zero. Otherwise, a

value of SOCKET_ERROR is returned, and a specific error code can be retrieved by calling WSAGetLastError.

--Linux--

错误返回-1

结束:

--WinSock--

closesocket(sock);

Linux下socket实现网页抓取  Unicorn  博客频道  CSDN.NET

if( WSACleanup() == SOCKET_ERROR )

{

printf("WSACleanup failed with error %d /n", WSAGetLastError() );

}

--Linux--

close(sock);

下面是一个Linux下socket一个HTTP协议GET方法的应用:

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

#include <sys/socket.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <netdb.h>

char*host = "www.hao123.com";

intport = 80;

int main(void)

{

char buffer[512];

int isock;

struct sockaddr_in pin;

struct hostent * remoteHost;

char message[512];

int done = 0;

int chars = 0;

int l = 0;

if( (remoteHost = gethostbyname(host)) == 0 )

{

printf("Error resolving host/n");

exit(1);

}

bzero(message,sizeof(message));

bzero(&pin,sizeof(pin));

pin.sin_family = AF_INET;

pin.sin_port = htons(port);

pin.sin_addr.s_addr = ( (struct in_addr *)(remoteHost->h_addr) )->s_addr;

if( (isock = socket(AF_INET, SOCK_STREAM, 0)) == -1)

{

printf("Error opening socket!/n");

exit(1);

}

sprintf(message, "GET / HTTP/1.1/r/n");

strcat(message, "Host:www.hao123.com/r/n");

strcat(message, "Accept: */*/r/n");

strcat(message, "User-Agent: Mozilla/4.0(compatible)/r/n");

strcat(message, "connection:Keep-Alive/r/n");

strcat(message, "/r/n/r/n");

printf("%s",message);

if( connect(isock, (void *)&pin, sizeof(pin)) == -1 )

{

printf("Error connecting to socket/n");

exit(1);

}

if( send(isock, message, strlen(message), 0) == -1)

{

printf("Error in send/n");

exit(1);

}

while(done == 0)

{

l = recv(isock, buffer, 1, 0);

if( l < 0 )

done = 1;

switch(*buffer)

{

case '/r':

break;

case '/n':

if(chars == 0)

done = 1;

chars = 0;

break;

default:

chars++;

break;

}

printf("%c",*buffer);

}

do

{

l = recv(isock, buffer, sizeof(buffer) - 1, 0);

if( l < 0 )

break;

*(buffer + l) = 0;

fputs(buffer, stdout);

}while( l > 0 );

close(isock);

return 0;

}

本文链接地址:https://www.jiuchutong.com/zhishi/304077.html 转载请保留说明!

上一篇:帝国cms附表如何分表(帝国cms使用手册)

下一篇:帝国cms怎么多条件搜索(帝国cms界面)

  • 大疆无人机跟随模式怎么设置(大疆无人机跟随模式高度)

    大疆无人机跟随模式怎么设置(大疆无人机跟随模式高度)

  • 电脑pin码忘记了怎么解锁(电脑pin码忘记了怎么修改)

    电脑pin码忘记了怎么解锁(电脑pin码忘记了怎么修改)

  • 荣耀v30pro是曲屏还是直面屏呢(荣耀v30pro曲屏度数)

    荣耀v30pro是曲屏还是直面屏呢(荣耀v30pro曲屏度数)

  • 苹果手机短信图标不见了在哪里可以找回(苹果手机短信图标有个感叹号)

    苹果手机短信图标不见了在哪里可以找回(苹果手机短信图标有个感叹号)

  • iphone低数据模式有什么用(iphone低数据模式影响网速吗)

    iphone低数据模式有什么用(iphone低数据模式影响网速吗)

  • opporeno4防水吗(oppo reno 4se防水吗)

    opporeno4防水吗(oppo reno 4se防水吗)

  • 华为取消屏保设置方法是什么(华为手机取消屏幕保护设置)

    华为取消屏保设置方法是什么(华为手机取消屏幕保护设置)

  • 抖音直播放电影可以吗(抖音直播放电影怎么赚钱)

    抖音直播放电影可以吗(抖音直播放电影怎么赚钱)

  • 剪映能做多长的视频(剪映能做多长的视频放微信)

    剪映能做多长的视频(剪映能做多长的视频放微信)

  • 苹果一体机开机键在哪(苹果一体机开机没反应)

    苹果一体机开机键在哪(苹果一体机开机没反应)

  • 没有主机的电脑怎么开(没有主机的电脑好用吗)

    没有主机的电脑怎么开(没有主机的电脑好用吗)

  • realme X支持语音唤醒吗(realmeq语音助手可以语音唤醒吗)

    realme X支持语音唤醒吗(realmeq语音助手可以语音唤醒吗)

  • 抖音要审核多久(抖音审核多久上热门)

    抖音要审核多久(抖音审核多久上热门)

  • 京东无货怎么退款申请(京东无货怎么退货申请)

    京东无货怎么退款申请(京东无货怎么退货申请)

  • 电脑系统设置在哪打开(电脑安装系统后重启进不了系统)

    电脑系统设置在哪打开(电脑安装系统后重启进不了系统)

  • 双4g有啥用(双4g会不会影响信号)

    双4g有啥用(双4g会不会影响信号)

  • pd双向快充是什么意思(pd快充和双向快充)

    pd双向快充是什么意思(pd快充和双向快充)

  • 苹果手机能用5g网络吗(苹果手机能用5g流量吗)

    苹果手机能用5g网络吗(苹果手机能用5g流量吗)

  • 苹果手机闪付怎么使用(苹果手机闪付怎么付款)

    苹果手机闪付怎么使用(苹果手机闪付怎么付款)

  • 怎么定位别人的手机位置(怎么定位别人的位置)

    怎么定位别人的手机位置(怎么定位别人的位置)

  • 微信能付公交车费吗(微信付公交车费怎么付钱)

    微信能付公交车费吗(微信付公交车费怎么付钱)

  • 行高快捷键(最适合行高快捷键)

    行高快捷键(最适合行高快捷键)

  • 服务器时间与电脑时间不能同步(服务器时间总是不对)

    服务器时间与电脑时间不能同步(服务器时间总是不对)

  • GPT-4 免费体验方法

    GPT-4 免费体验方法

  • 增值税有哪些二类税种
  • 农产品进项税额转出怎么算
  • 企业所得税的会计处理
  • 人工费用的核算例题
  • 印花税按照开票金额缴纳可以吗
  • 应纳税所得额为什么要减去国债利息收入
  • 运输发票抵扣税怎么算
  • 单位结算卡和公账是一张卡吗
  • 一般纳税人劳务税率是多少2023
  • 土地政策补贴
  • 存货计提跌价准备什么意思
  • 员工集体旅游费会计分录
  • 劳务公司购买设备怎么做账
  • 关于开票时纳税的规定
  • 非货币性资产交换准则
  • 未抵扣进项税额可以退税吗
  • 农机公司也要缴残保金吗
  • 进口商品关税调整
  • 苹果手机id被锁定什么意思
  • 公司购买一辆车
  • window10今天更新
  • phpwind教程
  • mac屏幕横过来了
  • 微软 Windows10
  • win10右键个性化显示该文件
  • 会计差错及账项调整
  • 计提短期借款利息资产增加还是减少
  • PHP:imagealphablending()的用法_GD库图像处理函数
  • 阿尔比恩洞的级别
  • 纽格尔官网
  • 微信小程序开发完整项目
  • php机试题
  • 建筑工程增值税怎么算
  • php获取文件类型
  • php curl_init
  • thinkphp框架入门
  • vue3 element ui
  • 基建账并账规定
  • testdisk安装方法
  • 完美怎么用
  • python的顺序
  • 确认收入与结转成本会计分录怎么写
  • 年终奖要计入工资吗
  • 什么是累积优先股
  • 发票商品分类
  • 企业所得税季度申报表怎么填
  • 预收账款可以用吗
  • 进项票可以抵扣企业所得税吗
  • 资产减值准备的计提影响递延所得税资产吗
  • 9个点的税是多少
  • 员工的交通费发票可以报销嘛
  • 应付账款调整科目余额分录
  • 补缴上年度所得税的会计分录
  • 企业计提什么意思
  • 原材料可以不设明细吗?
  • xp字体无法安装
  • 电脑如何安装Anaconda
  • 华硕主板进入bios怎么设置u盘启动
  • win7命令提示符怎么打开
  • win7怎么禁止系统自动更新
  • ubuntu20开机自启动
  • mac怎么连接校园网wifi
  • centos下netconfig 的安装方法
  • centos 6.6安装教程
  • linux中的挂载命令
  • win7系统咋样
  • win8正版系统自带
  • Win7系统如何清除流氓屏保
  • js简单实现点击按钮商品加入购物车
  • nodejs爬虫框架crawler
  • 微信开发微信开发
  • 欢迎使用来电提醒业务是什么意思
  • android安卓应用程序窗口化
  • python自动化部署oracle csdn
  • jquery单选框
  • 全国税务查询
  • 国税备案的作用是什么
  • 企业没有经营怎么写原因
  • 南通工伤网上申请流程
  • 车辆购置税查询官网
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设