位置: IT常识 - 正文

Linux下socket实现网页抓取 Unicorn 博客频道 CSDN.NET

编辑:rootadmin
Linux下socket实现网页抓取 - Unicorn - 博客频道 - CSDN.NET Linux下socket实现网页抓取 分类: C/C++学习点滴 DO spiders DO linux编 Linux下socket实现网页抓取 分类: C/C++学习点滴 DO spiders DO linux编程 2007-10-06 21:33 951人阅读 评论(0) 收藏 举报

推荐整理分享Linux下socket实现网页抓取 Unicorn 博客频道 CSDN.NET,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

主要用来和WinSock进行下比较:

--WinSock--

需要初始化:

if( (Ret = WSAStartup(MAKEWORD(1,1), &wsaData) ) != 0 )

{

printf("WSAStartup failed with error %d/n", Ret);

return FALSE;

}

头文件:

--WinSock--

#include <winsock2.h> //header

#pragma comment (lib, "ws2_32.lib") //lib

--Linux--

#include <sys/socket.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <netdb.h>

各个头文件的作用还需要进一步研究

gethostbyname(host)://从主机名返回地址

这个都是一样的,返回一个struct hostent *的指针。

地址结构:

--WinSock--

SOCKADDR_IN

--Linux--

sockaddr_in

实际上是一样的都是

struct sockaddr_in{

shortsin_family;

unsigned short sin_port;

struct in_addr sin_addr;

charsin_zero[8];

};

(

这个结构是sockaddr的等价结构

struct sockaddr

{

unsigned short sa_family; // address family, AF_XXX

char sa_data[14]; //14 bytes of protocol address

};

)

其中IP地址结构struct in_addr定义如下:

struct in_addr {

union {

struct{

unsigned char s_b1,

s_b2,

s_b3,

s_b4;

} S_un_b;

struct {

unsigned short s_w1,

s_w2;

} S_un_w;

unsigned long S_addr;

} S_un;

};

Socket:

--WinSock--

返回句柄SOCKET,就是socket描述符

--Linux--

比较直接返回int型socket描述符

函数接口都一样

函数例子:

socket (AF_INET, SOCK_STREAM, 0); //TCP

connect(sock, (const sockaddr * )&tcpaddr, sizeof(tcpaddr)); //返回值有不同

--WinSock--

If no error occurs, connect returns zero. Otherwise, it returns SOCKET_ERROR, and a specific error code can be retrieved by calling

WSAGetLastError.

--Linux--

错误返回-1

send(sock_description, message, strlen(message), 0); //返回值不同

--WinSock--

If no error occurs, send returns the total number of bytes sent, which can be less than the number indicated by len. Otherwise, a value of

SOCKET_ERROR is returned, and a specific error code can be retrieved by calling WSAGetLastError.

--Linux--

错误返回-1

recv(sock_description, buffer, sizeof(buffer), 0);//返回值不同

--WinSock--

If no error occurs, recv returns the number of bytes received. If the connection has been gracefully closed, the return value is zero. Otherwise, a

value of SOCKET_ERROR is returned, and a specific error code can be retrieved by calling WSAGetLastError.

--Linux--

错误返回-1

结束:

--WinSock--

closesocket(sock);

Linux下socket实现网页抓取  Unicorn  博客频道  CSDN.NET

if( WSACleanup() == SOCKET_ERROR )

{

printf("WSACleanup failed with error %d /n", WSAGetLastError() );

}

--Linux--

close(sock);

下面是一个Linux下socket一个HTTP协议GET方法的应用:

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

#include <sys/socket.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <netdb.h>

char*host = "www.hao123.com";

intport = 80;

int main(void)

{

char buffer[512];

int isock;

struct sockaddr_in pin;

struct hostent * remoteHost;

char message[512];

int done = 0;

int chars = 0;

int l = 0;

if( (remoteHost = gethostbyname(host)) == 0 )

{

printf("Error resolving host/n");

exit(1);

}

bzero(message,sizeof(message));

bzero(&pin,sizeof(pin));

pin.sin_family = AF_INET;

pin.sin_port = htons(port);

pin.sin_addr.s_addr = ( (struct in_addr *)(remoteHost->h_addr) )->s_addr;

if( (isock = socket(AF_INET, SOCK_STREAM, 0)) == -1)

{

printf("Error opening socket!/n");

exit(1);

}

sprintf(message, "GET / HTTP/1.1/r/n");

strcat(message, "Host:www.hao123.com/r/n");

strcat(message, "Accept: */*/r/n");

strcat(message, "User-Agent: Mozilla/4.0(compatible)/r/n");

strcat(message, "connection:Keep-Alive/r/n");

strcat(message, "/r/n/r/n");

printf("%s",message);

if( connect(isock, (void *)&pin, sizeof(pin)) == -1 )

{

printf("Error connecting to socket/n");

exit(1);

}

if( send(isock, message, strlen(message), 0) == -1)

{

printf("Error in send/n");

exit(1);

}

while(done == 0)

{

l = recv(isock, buffer, 1, 0);

if( l < 0 )

done = 1;

switch(*buffer)

{

case '/r':

break;

case '/n':

if(chars == 0)

done = 1;

chars = 0;

break;

default:

chars++;

break;

}

printf("%c",*buffer);

}

do

{

l = recv(isock, buffer, sizeof(buffer) - 1, 0);

if( l < 0 )

break;

*(buffer + l) = 0;

fputs(buffer, stdout);

}while( l > 0 );

close(isock);

return 0;

}

本文链接地址:https://www.jiuchutong.com/zhishi/304077.html 转载请保留说明!

上一篇:帝国cms附表如何分表(帝国cms使用手册)

下一篇:帝国cms怎么多条件搜索(帝国cms界面)

  • 邮件群发必须懂得的5个过程(群发邮件对方知道吗)

    邮件群发必须懂得的5个过程(群发邮件对方知道吗)

  • QQ如何显示火花(qq怎么显示火花图标)

    QQ如何显示火花(qq怎么显示火花图标)

  • 微信运动数据是一天更新一次吗(微信运动数据是实时的吗)

    微信运动数据是一天更新一次吗(微信运动数据是实时的吗)

  • 快手入团券是什么(快手里的入团卷怎么送)

    快手入团券是什么(快手里的入团卷怎么送)

  • 视频siri声音怎么弄啊(视频里的siri声音)

    视频siri声音怎么弄啊(视频里的siri声音)

  • 手机内存6g和8g的区别有多大(手机内存6g和8g哪个好)

    手机内存6g和8g的区别有多大(手机内存6g和8g哪个好)

  • 什么是mp4视频格式(mp4视频的格式)

    什么是mp4视频格式(mp4视频的格式)

  • 闲鱼永久封禁影响支付宝么(闲鱼永久封禁影响回收话费充值吗)

    闲鱼永久封禁影响支付宝么(闲鱼永久封禁影响回收话费充值吗)

  • 苹果8卡顿是什么情况(苹果八手机卡顿)

    苹果8卡顿是什么情况(苹果八手机卡顿)

  • 华为麦芒4忘记密码锁了怎么解锁(华为麦芒4忘记密码怎么开)

    华为麦芒4忘记密码锁了怎么解锁(华为麦芒4忘记密码怎么开)

  • 三星s系列和a系列区别(三星s系列和a系列的区别)

    三星s系列和a系列区别(三星s系列和a系列的区别)

  • qq群课堂的排麦是什么(qq群课堂排麦功能)

    qq群课堂的排麦是什么(qq群课堂排麦功能)

  • 微机硬件系统中最核心的部件是什么(微机硬件系统中地址总线的宽度)

    微机硬件系统中最核心的部件是什么(微机硬件系统中地址总线的宽度)

  •  微信我把对方删了怎么知道他删了我没有(微信我把对方删了朋友圈还有他的评论)

    微信我把对方删了怎么知道他删了我没有(微信我把对方删了朋友圈还有他的评论)

  • 携程优享预定10元怎么取消(携程优享预定是啥意思)

    携程优享预定10元怎么取消(携程优享预定是啥意思)

  • 如何获得七天网络授权(七天网怎么登录进入)

    如何获得七天网络授权(七天网怎么登录进入)

  • 探探解除匹配能找到么(探探解除匹配能再刷到对方)

    探探解除匹配能找到么(探探解除匹配能再刷到对方)

  • iphone xr的录屏功能在什么地方(xr的录屏功能在哪)

    iphone xr的录屏功能在什么地方(xr的录屏功能在哪)

  • 移动经纪人怎么换头像(移动经纪人怎么发布房源)

    移动经纪人怎么换头像(移动经纪人怎么发布房源)

  • 闲鱼怎么看拍卖宝贝(闲鱼怎么看拍卖记录)

    闲鱼怎么看拍卖宝贝(闲鱼怎么看拍卖记录)

  • 电脑管家如何开启wifi(电脑管家如何开热点)

    电脑管家如何开启wifi(电脑管家如何开热点)

  • 京东换购是什么(京东换购是什么?)

    京东换购是什么(京东换购是什么?)

  • 帝国CMS列表页中怎么获取当前信息所属专题名称(帝国cms简介标签)

    帝国CMS列表页中怎么获取当前信息所属专题名称(帝国cms简介标签)

  • 金税四期怎么查账
  • 支付境外劳务费需要缴纳哪些税费
  • 设备计提的折旧为什么要交所得税
  • 支付货款的会计凭证怎么做
  • 个税系统异常怎么申报
  • 个税累计免征额
  • 成本会计实训要求
  • 过渡期损益会计分录
  • 发票领购带什么
  • 计算企业所得税不得扣除的项目
  • 原材料计划成本和实际成本的区别
  • 建筑工程类发票
  • 土地补偿款收入要交什么税
  • 现金日记账年结图片
  • 房产证没有可以补办吗
  • 公账发工资是即时到账吗
  • 普票6个点怎么算
  • 劳务派遣公司是干嘛的
  • 办公低值易耗品的账务处理
  • 处置打包债权如何缴纳个人所得税?
  • 公司注销后款未收完怎么办
  • 合作社未按时报税怎么处理?
  • 税费是哪个会计科目?
  • 工会经费的银行怎么入账
  • mac系统的桌面
  • 股东分红怎么处理
  • win11任务管理器在哪里打开
  • php处理图片需要什么扩展
  • 以经营租赁方式租入的设备要折旧吗
  • 键盘突然打不出来字
  • 跨年度发票的发票要报销应该怎么办
  • 建筑安装收入会计分录
  • 房屋权属登记撤销申请书
  • vue3使用ref获取元素
  • 利息收入做红字
  • 常见反爬策略
  • web前端期末大作业旅游页面
  • postman密码
  • php网站用什么软件修改
  • 装修费摊销费计算公式
  • 已经红冲的发票显示正常
  • 赔偿客户款应该怎么记账
  • 其他收益在利润表填在哪里
  • 小规模纳税人增值税专用发票税率
  • 自定义转账计算所得税费用
  • 如何判断有无运费险
  • 小规模纳税人会自动转为一般纳税人
  • 营业外支出的会计要素
  • 资产负债表可以反映的具体信息有
  • 公司购买股东的东西
  • 利润分配科目是所有者权益科目吗
  • 职工辞退福利是否要申报个税
  • 长期待摊费用科目怎么使用
  • 自查时发现以前的事情
  • 非营利性组织和营利性组织的区别
  • 小微企业即征即退
  • sql server常规错误
  • windows2008关闭ie增强
  • windows7软件运行没反应
  • win10搜索功能不好用
  • linux安全性从何而来
  • 解决出现的问题下一句,欢迎的语气
  • 哪些游戏是c#开发的
  • andengine学习,《android游戏开发实践指南》详解
  • opengl三维场景
  • js去除特殊字符
  • JavaScript的strict模式与with关键字介绍
  • 如何搭建node服务器
  • 虚拟现实国内做的最好的
  • jquery+ajax实现注册实时验证实例详解
  • angular.min.js
  • javascript entries
  • js打开浏览器新的tab页
  • python xlim
  • js获取节点值
  • [置顶]电影名字《收件人不详》
  • 内蒙古国家税务
  • 地方税务局网上申报
  • 湖南省株洲市税务局
  • 贵州省税务局193项业务
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设