位置: IT常识 - 正文

爬虫基本原理(爬虫基本原理有哪些)

编辑:rootadmin
爬虫基本原理 爬虫基本原理1.1获取网页1.1.1提取信息1.1.2保存数据1.2请求1.2.1 请求方法1.2.2 请求网址1.2.3 请求头1.2.4请求体1.3响应1.1获取网页

推荐整理分享爬虫基本原理(爬虫基本原理有哪些),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:爬虫基本原理是什么,爬虫基本原理有哪些,爬虫基本原理有哪些,爬虫基本原理图,爬虫原理的简单介绍,爬虫的基本原理,爬虫基本原理实验报告,爬虫基本原理实验报告,内容如对您有帮助,希望把文章链接给更多的朋友!

爬虫首先要做的工作就是获取网页,这里就是获取网页的源代码。源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息了。

1.1.1提取信息

获取网页源代码后,接下来就是分析网页源代码,从中提取我们想要的数据。 另外,由于网页的结构有一定的规则,所以还有一些根据网页节点属性、cSS 选择器或 XPath 来提取网页信息的库,如 Beautifulsoup、pyquery、lxml等。使用这些库,我们可以高效快速地从中提取网页信息,如节点的属性、文本值等。 提取信息是爬虫非常重要的部分,它可以使杂乱的数据变得条理清晰,以便我们后续处理和分析数据。

1.1.2保存数据

提取信息后,我们一般会将提取到的数据保存到某处以便后续使用。这里保存形式有多种多样,如可以简单保存为TXT文本或了SON文本,也可以保存到数据库,如 MysQL和 MongoDB等,也可保存至远程服务器,如借助 SFTP进行操作等。

向起始url发送请求,并获取响应对响应进行提取如果提取url,则继续发送请求获取响应如果提取数据,则将数据进行保存1.2请求爬虫基本原理(爬虫基本原理有哪些)

请求由客户端向服务端发出,可以分为四个内容:请求方法、请求的网址、请求头、请求体。

1.2.1 请求方法

GET:请求页面,并返回页面内容 HEAD:类似于GET请求,只不过返回的响应中没有具体的内容,用于获取报头 POST:大多用于提交表单或上传文件,数据包含在请求体中 PUT:从客户端向服务器传送的数据取代指定文档中的内容 DELETE:请求服务器删除指定的页面 CONNECT:把服务器当作跳板,让服务器代替客户端访问其他网页 OPTIONS:允许客户端查看服务器的性能 TRACE:回显服务器收到的请求,主要用于测试或诊断

1.2.2 请求网址

请求的网址,即统一资源定位符URL,它可以唯一确定我们想请求的资源。 https://www.baidu.com/s?wd=python https表示协议 www.baidu.com表示域名 s表示路径 wd=python表示查询参数

1.2.3 请求头

右键页面,检查,网络,然后点XHR,刷新页面,然后点击“headers”,找到请求标头。 接下来解释每一行都代表什么: :Authority::请求的目标服务器的主机名或IP地址,这里是api.bilibili.com。 :Method::HTTP请求方法。这里是GET,表示获取资源。 :Path::请求的路径。这里是/x/web-interface/cdn/report?from=report。 :Scheme::请求的协议方案。这里是https,表示使用HTTPS协议进行通信。 Accept::客户端可接受的响应内容类型。这里是*/*,表示接受任意类型的响应。 Accept-Encoding::客户端可接受的响应内容编码方式。这里是gzip, deflate, br,表示支持gzip、deflate和br(Brotli)压缩方式。 Accept-Language::客户端可接受的语言类型。这里是zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7,表示首选中文(中国大陆), 其次中文, 最后英文(美国)。 Cache-Control::控制缓存行为的指令,这里是no-cache,表示不使用缓存。 Origin::指定请求的来源,这里是https://www.bilibili.com。 Pragma::与缓存相关的指令,这里是no-cache,表示不使用缓存。 Referer::指定请求的来源页面或链接地址,这里是https://www.bilibili.com/。 Sec-Ch-Ua::指定浏览器的User-Agent字符串,表示浏览器及其版本信息。 Sec-Ch-Ua-Mobile::指定浏览器是否是移动版。 Sec-Ch-Ua-Platform::指定浏览器运行的平台,这里是Windows。 Sec-Fetch-Dest::指定请求的资源类型,这里是empty,表示空资源。 Sec-Fetch-Mode::指定请求的模式,这里是cors,表示使用CORS(跨源资源共享)请求。 Sec-Fetch-Site::指定请求的站点类型,这里是same-site,表示同源站点。 User-Agent::浏览器或客户端的用户代理标识,用于标识客户端的软件和版本信息。这里是Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36,表示使用的是Windows操作系统下的Chrome浏览器。

1.2.4请求体

请求体一般承载的内容是POST请求中的表单数据,但是对于GET请求,请求体为空。 先找到请求方法为POST的页面: 然后在载荷中找到相应的表单数据: 表单数据代表了每次进行访问所需要带的请求参数。

如果是GET请求带了载荷的话,那都会在URL中进行体现,比如:

可以发现,Payload中的report参数在请求的URL中体现了出来。

1.3响应

响应的状态码在头部就可以看到,以下是相应状态码及其解释:

1xx(信息性状态码):表示请求已被接收,需要进一步处理。 100 Continue:服务器已接收到请求的起始部分,客户端应继续发送剩余的请求。 101 Switching Protocols:服务器将按照客户端请求的协议切换。2xx(成功状态码):表示请求已成功处理并得到响应。 200 OK:请求成功,正常返回结果。 201 Created:请求成功,并在服务器上创建了新的资源。 204 No Content:请求成功,但响应中不包含实体的主体部分。3xx(重定向状态码):表示需要进一步操作以完成请求。 301 Moved Permanently:请求的资源已永久移动到新位置。 302 Found:请求的资源临时移动到不同的位置。 304 Not Modified:客户端的缓存资源是最新的,不需要重新传输。4xx(客户端错误状态码):表示请求包含错误或无法完成请求。 400 Bad Request:请求无效,服务器无法理解。 401 Unauthorized:请求需要身份验证。 403 Forbidden:服务器拒绝访问请求的资源。5xx(服务器错误状态码):表示服务器无法完成请求。 500 Internal Server Error:服务器遇到了意外错误,无法完成请求。 502 Bad Gateway:作为代理或网关的服务器收到无效响应。 503 Service Unavailable:服务器暂时无法处理请求,通常是由于过载或维护。
本文链接地址:https://www.jiuchutong.com/zhishi/299011.html 转载请保留说明!

上一篇:ChatGPT全面升级,GPT4支持多模态数据。

下一篇:微信小程序--》小程序—全局数据共享和分包(微信小程序开发一个多少钱)

  • 小天才z6a怎么设置密码(小天才z6a怎么设置字体)

    小天才z6a怎么设置密码(小天才z6a怎么设置字体)

  • 电脑处理器i5和i7哪个好(电脑处理器i5和i3哪个好)

    电脑处理器i5和i7哪个好(电脑处理器i5和i3哪个好)

  • 电脑裁剪快捷键(电脑裁剪快捷键怎么弄不了)

    电脑裁剪快捷键(电脑裁剪快捷键怎么弄不了)

  • 戴尔开机后bios setup(戴尔开机后bios setup怎么关闭)

    戴尔开机后bios setup(戴尔开机后bios setup怎么关闭)

  • 抖音没登录点赞算吗(抖音没登录点赞了怎么取消)

    抖音没登录点赞算吗(抖音没登录点赞了怎么取消)

  • 腾讯会议私聊主持人可以看见吗(腾讯会议私聊主持人能看到记录吗)

    腾讯会议私聊主持人可以看见吗(腾讯会议私聊主持人能看到记录吗)

  • win10无限重启进不了桌面(win10无限重启进不了Pe)

    win10无限重启进不了桌面(win10无限重启进不了Pe)

  • 华为手机定位显示等待锁定(华为手机定位显示未找到位置是什么原因)

    华为手机定位显示等待锁定(华为手机定位显示未找到位置是什么原因)

  • 手机可以测量长度吗(手机可以测量长度和宽度吗)

    手机可以测量长度吗(手机可以测量长度和宽度吗)

  • 腾讯会议要开摄像头吗(腾讯会议要开摄像头怎么办)

    腾讯会议要开摄像头吗(腾讯会议要开摄像头怎么办)

  • 复制按什么键(复制按什么键粘贴按什么键)

    复制按什么键(复制按什么键粘贴按什么键)

  • 淘宝限制登录状态什么意思(淘宝限制登录是什么原因?)

    淘宝限制登录状态什么意思(淘宝限制登录是什么原因?)

  • 小米8有没有耳机插口(小米8有没有耳机孔怎么听歌)

    小米8有没有耳机插口(小米8有没有耳机孔怎么听歌)

  • 电脑磁盘错误开不了机怎么办(电脑报磁盘错误)

    电脑磁盘错误开不了机怎么办(电脑报磁盘错误)

  • 什么是ie8浏览器(ie8浏览器是啥意思)

    什么是ie8浏览器(ie8浏览器是啥意思)

  • 天猫精灵cch和ccl区别(天猫精灵cch和cc7哪个好)

    天猫精灵cch和ccl区别(天猫精灵cch和cc7哪个好)

  • iphone x是不是双卡(iPhone X是不是双扬声器)

    iphone x是不是双卡(iPhone X是不是双扬声器)

  • 饿了么账户异常怎么解除(饿了么账户异常多久能恢复)

    饿了么账户异常怎么解除(饿了么账户异常多久能恢复)

  • wps怎么设置全文段落(wps怎么设置全文页眉)

    wps怎么设置全文段落(wps怎么设置全文页眉)

  • 滴滴热力图不显示热区(滴滴热力图不显示热点)

    滴滴热力图不显示热区(滴滴热力图不显示热点)

  • 用pr怎么添加字幕特效(用pr怎么添加字幕)

    用pr怎么添加字幕特效(用pr怎么添加字幕)

  • 钉钉接收消息没声音的原因(钉钉没有收到消息)

    钉钉接收消息没声音的原因(钉钉没有收到消息)

  • ppt全是图片怎么排版(ppt里的图片)

    ppt全是图片怎么排版(ppt里的图片)

  • 一加7支持5g吗(一加7手机支持5g吗)

    一加7支持5g吗(一加7手机支持5g吗)

  • 淘宝支付宝如何解绑(淘宝支付宝如何实名认证)

    淘宝支付宝如何解绑(淘宝支付宝如何实名认证)

  • alp一al00是什么型号(alp-al00是华为什么型号)

    alp一al00是什么型号(alp-al00是华为什么型号)

  • R数据分析:临床预测模型中校准曲线和DCA曲线的意义与做法(r在数据分析中表示什么意思)

    R数据分析:临床预测模型中校准曲线和DCA曲线的意义与做法(r在数据分析中表示什么意思)

  • 个税申报的收入扣除社保吗
  • 纳税人进口货物应当自海关填发税款
  • 增值税小规模纳税人认定标准
  • 消费税的计算方法有哪三种
  • 增值税纳税义务确认时间
  • 休产假个人部分社保公司怎么做账
  • 企业为个人承担的个人部分社保
  • 流动资产增幅
  • 会计工作的基本认识
  • 如何区别文化体育业和娱乐业
  • 装修费能否一次性支付
  • 企业租赁集体土地种植经济林如何补偿
  • 个人独资交什么税?
  • 个人转租房屋需交税吗
  • 现金抵用券购买怎么用
  • 以物易物差价印花税
  • 企业清算时未抵扣的进项税账务处理
  • 工会经费有关的增值税能否抵扣?
  • 科目编码首位与分类编号不符,接受此编码吗
  • 销售库存商品结转的相关存货跌价准备冲减资产减值损失
  • 网络销售平台优势有哪些
  • 增值税留抵税额会计科目
  • windows10不会自动锁屏
  • mac电脑怎么转移到另一个电脑
  • ubuntu系统u盘安装
  • 允许企业所得税税前扣除的公益性捐赠的条件包括
  • 公司购买预付卡送礼怎么入账
  • win10如何添加网络适配器
  • php的数组函数
  • 酒店没有营业执照可以举报吗?
  • 固定资产清理如何计算增值税
  • 有利润但不交企业所得税
  • 劳保用品会计科目进什么科目
  • 软件企业享受增值服务
  • uniapp下拉
  • java web项目部署
  • 勘察设计费怎么入账
  • 公司股东利润分配方案范本
  • 预缴所得税可以调减吗
  • 专票不认证有什么风险
  • 在线客服系统登录
  • 搜索站内内容
  • 存货跌价准备的结转会计分录
  • 对c++的认识与体会
  • 农产品增值税免税备案资料
  • 支付运输费计入
  • 公司的货款直接转给股东个人了,该怎么转到公司
  • 金税四期能监控到公户吗
  • 盈利能力还有什么能力
  • 金税盘发票二维码怎么生成
  • 施工企业的成本核算
  • 预收款收入确认
  • 购买车辆的进项税怎么勾选
  • 购买税控盘的账务处理
  • 期末余额和期初余额
  • 应交税费其他收入会计分录
  • 生育津贴申请流程
  • 如何在境外银行开户
  • 安装好sql2000后安装sp4
  • windows10显示
  • surfacepro3的笔
  • winxp修改ip地址方法
  • 在xp系统中设置u盘启动
  • ControlSet001、ControlSet002以及CurrentControlSet之间有什么区别
  • Win10打开或关闭系统图标里开怎么灰色的
  • node.js怎么搭建服务器
  • python读json文件和写json文件
  • 用python写多线性模型
  • [置顶]电影名字《收件人不详》
  • vue拦截器使用场景
  • enum枚举类型
  • 如何分析源码
  • 如何设置python
  • javascript面向对象吗
  • javascript教程chm
  • 供电局发票是什么样子的
  • 江苏国税申报
  • 中国税务干部
  • 交完车船税后地税局都给什么
  • 双公开双反馈什么意思
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设