位置: 编程技术 - 正文

Python抓取框架 Scrapy的架构(python抓取整站链接)

编辑:rootadmin

推荐整理分享Python抓取框架 Scrapy的架构(python抓取整站链接),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python抓包库,python抓包库,python抓包库,python抓取软件界面数据,python frame框架抓取,python frame框架抓取,python 采集框架,python抓取软件界面数据,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具。

一、概述

下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。

二、组件

1、Scrapy Engine(Scrapy引擎)

Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

2、Scheduler(调度)

调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。

3、Downloader(下载器)

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

4、Spiders(蜘蛛)

蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。

Python抓取框架 Scrapy的架构(python抓取整站链接)

蜘蛛的整个抓取流程(周期)是这样的:

1).首先获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求,并执行解析来调用回调函数。2).在回调函数中,你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。3).在回调函数中,你解析网站的内容,同程使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序),并生成解析的数据项。4).最后,从蜘蛛返回的项目通常会进驻到项目管道。

5、Item Pipeline(项目管道)

项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

项目管道通常执行的过程有:

1).清洗HTML数据2).验证解析到的数据(检查项目是否包含必要的字段)3).检查是否是重复数据(如果重复就删除)4).将解析到的数据存储到数据库中

6、Downloader middlewares(下载器中间件)

下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。

7、Spider middlewares(蜘蛛中间件)

蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

8、Scheduler middlewares(调度中间件)

调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。

三、数据处理流程

Scrapy的整个数据处理流程有Scrapy引擎进行控制,其主要的运行方式为:

引擎打开一个域名,时蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL。引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。引擎从调度那获取接下来进行爬取的页面。调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。蜘蛛处理响应并返回爬取到的项目,然后给引擎发送新的请求。引擎将抓取到的项目项目管道,并向调度发送请求。系统重复第二部后面的操作,直到调度中没有请求,然后断开引擎与域之间的联系。

四、驱动器

Scrapy是由Twisted写的一个受欢迎的Python事件驱动网络框架,它使用的是非堵塞的异步处理。

标签: python抓取整站链接

本文链接地址:https://www.jiuchutong.com/biancheng/386262.html 转载请保留说明!

上一篇:判断网页编码的方法python版(怎么看网页的编码格式)

下一篇:详解Python如何获取列表(List)的中位数(python 获取uuid)

  • 期初未缴税额是什么意思
  • 广交会展务
  • 计提应收的增值税返还
  • 已报废的固定资产
  • 总包抵扣分包企业所得税
  • 国有企业业务招待费管理办法
  • 由收款人签发,经付款人承兑
  • 预收电费结转成本怎么办
  • 企业咨询评估
  • 税前计提工资福利费用如何做会计核算?
  • 契税的发票开错了还可以作废吗?
  • 企业对无法收回的应收账款应借记的会计科目是
  • 设备安装增值税适用税率
  • 残疾人收到房租租赁发票收入还要缴纳个税吗
  • 增值税普通发票有什么用
  • 小规模纳税人月销售额不超过10万免征
  • 印花税计税金额怎么算
  • 上市公司非限售股股票转让收入
  • 确认递延收益纳税调整吗
  • 增值税完税凭证怎么做账
  • 在同一预缴地有多个项目的建筑业纳税人总销售额以什么为标准确定?
  • 研发费用税前加计扣除
  • 债券返售
  • 微软输入法打不出汉字只有拼音
  • 应收账款的账面余额公式
  • 怎样获取
  • 电脑管家游戏加速怎么卸载
  • 计提工资时怎么做账
  • 公司专柜样品如何做
  • linux不能联网怎么解决
  • bigfile是什么意思
  • 机器学习,看这一篇就够了:回归算法,特征工程,分类算法,聚类算法,神经网络,深度学习入门
  • 会计分录由什么要素组成
  • 手把手教你暴力破解wifi密码
  • php判断字符串是否存在
  • framework怎么用
  • 七月份收入
  • 固定资产已提完折旧后丢失怎么处理
  • 出口退税款的账务怎么做
  • 房屋租赁费属于什么税收分类编码
  • 企业确认坏账损失领导如何回复
  • 企业购买的土地出买后无法收回资金属国有资产流失吗?
  • 建筑行业预交增值税怎么结转
  • 预缴税款从哪里查
  • 假发票如何举报
  • 劳务费800以上扣税标准
  • 个体户开普票有没有完税证明
  • cms采集网站
  • 企业支付股利属于由( )引起的财务活
  • 小型微利企业所得税优惠政策
  • sql2008用ip连接不了
  • 纳税人有
  • 广告设计要交文化事业建设
  • 开承兑需要多少手续费
  • 建筑业增值税税负率
  • 不交社保的职业
  • 机票电子行程单查询
  • 三年期定期存款利率怎么算
  • 员工报销工伤险怎么报销
  • 制造费用是借还是贷
  • 存货明细账余额合计与存货总账余额相同
  • sqlserver数据库显示单个用户
  • sql server m1
  • “incorrect super block” FreeBSD挂载CDROM时报错误的解决方法
  • xp系统1
  • 苹果电脑怎么打开u盘
  • win7系统如何添加虚拟网卡
  • nodejs获取ip
  • 编程python怎么学
  • jQuery的Ajax用户认证和注册技术实例教程(附demo源码)
  • javascript面向对象编程
  • python中的print语句
  • 王军调研地税局的职务
  • 江苏省国家税务局官网
  • 代理记账管理办法2023
  • 土地增值税按什么价格
  • 暂停资本化期间,一般借款的借款利息不允许资本化
  • 2008土地管理办法
  • 工会经费支出审批制度
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设