位置: 编程技术 - 正文

Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据)

编辑:rootadmin

推荐整理分享Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:scheme抓取,python scapy 抓包,python抓取软件界面数据,python 抓取框架,python抓取软件界面数据,python 采集框架,python抓取软件界面数据,python 抓取框架,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

Scrapy是一个非常好的抓取框架,它不仅提供了一些开箱可用的基础组建,还能够根据自己的需求,进行强大的自定义。本文主要给大家介绍了关于Python抓取框架Scrapy之页面提取的相关内容,分享出来供大家参考学习,下面随着小编来一起学习学习吧。

在开始之前,关于scrapy框架的入门大家可以参考这篇文章: 图虫网,顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的链接为: xpath 选取应该是://div[@class="widget-gallery"]/ul/li,按照一般页面的逻辑,在li.gallery-item下面找到对应的链接地址,再往下深入一层页面抓取图片。

但是如果用类似 Postman 的HTTP调试工具请求该页面,得到的内容是:

也就是并没有实际的图集内容,因此可以断定页面使用了Ajax请求,只有在浏览器载入页面时才会请求图集内容并加入div.widget-gallery中,通过开发者工具查看XHR请求地址为:

参数很简单,page是页码,count是每页图集数量,order是排序,before_timestamp为空,图虫因为是推送内容式的网站,因此before_timestamp应该是一个时间值,不同的时间会显示不同的内容,这里我们把它丢弃,不考虑时间直接从最新的页面向前抓取。

请求结果为JSON格式内容,降低了抓取难度,结果如下:

根据属性名称很容易知道对应的内容含义,这里我们只需关心 postlist 这个属性,它对应的一个数组元素便是一个图集,图集元素中有几项属性我们需要用到:

url:单个图集浏览的页面地址 post_id:图集编号,在网站中应该是唯一的,可以用来判断是否已经抓取过该内容 site_id:作者站点编号 ,构建图片来源链接要用到 title:标题 excerpt:摘要文字 type:图集类型,目前发现两种,一种multi-photo是纯照片,一种text是文字与图片混合的文章式页面,两种内容结构不同,需要不同的抓取方式,本例中只抓取纯照片类型,text类型直接丢弃 tags:图集标签,有多个 image_count:图片数量 images:图片列表,它是一个对象数组,每个对象中包含一个img_id属性需要用到

根据图片浏览页面分析,基本上图片的地址都是这种格式: ,很容易通过上面的信息合成。

二、创建项目

进入cmder命令行工具,输入workon scrapy 进入之前建立的虚拟环境,此时命令行提示符前会出现(Scrapy) 标识,标识处于该虚拟环境中,相关的路径都会添加到PATH环境变量中便于开发及使用。 输入 scrapy startproject tuchong 创建项目 tuchong 进入项目主目录,输入 scrapy genspider photo tuchong.com 创建一个爬虫名称叫 photo (不能与项目同名),爬取 tuchong.com 域名(这个需要修改,此处先输个大概地址),的一个项目内可以包含多个爬虫

经过以上步骤,项目自动建立了一些文件及设置,目录结构如下:

scrapy.cfg:基础设置 items.py:抓取条目的结构定义 middlewares.py:中间件定义,此例中无需改动 pipelines.py:管道定义,用于抓取数据后的处理 settings.py:全局设置 spidersphoto.py:爬虫主体,定义如何抓取需要的数据

三、主要代码

items.py 中创建一个TuchongItem类并定义需要的属性,属性继承自 scrapy.Field 值可以是字符、数字或者列表或字典等等:

这些属性的值将在爬虫主体中赋予。

Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据)

spidersphoto.py 这个文件是通过命令 scrapy genspider photo tuchong.com 自动创建的,里面的初始内容如下:

爬虫名 name,允许的域名 allowed_domains(如果链接不属于此域名将丢弃,允许多个) ,起始地址 start_urls 将从这里定义的地址抓取(允许多个)

函数 parse 是处理请求内容的默认回调函数,参数 response 为请求内容,页面内容文本保存在 response.body 中,我们需要对默认代码稍加修改,让其满足多页面循环发送请求,这需要重载 start_requests 函数,通过循环语句构建多页的链接请求,修改后代码如下:

经过这些步骤,抓取的数据将被保存在 TuchongItem 类中,作为结构化的数据便于处理及保存。

前面说过,并不是所有抓取的条目都需要,例如本例中我们只需要 type="multi_photo 类型的图集,并且图片太少的也不需要,这些抓取条目的筛选操作以及如何保存需要在pipelines.py中处理,该文件中默认已创建类 TuchongPipeline 并重载了 process_item 函数,通过修改该函数只返回那些符合条件的 item,代码如下:

当然如果不用管道直接在 parse 中处理也是一样的,只不过这样结构更清晰一些,而且还有功能更多的FilePipelines和ImagePipelines可供使用,process_item将在每一个条目抓取后触发,同时还有 open_spider 及 close_spider 函数可以重载,用于处理爬虫打开及关闭时的动作。

注意:管道需要在项目中注册才能使用,在 settings.py 中添加:

另外,大多数网站都有反爬虫的 Robots.txt 排除协议,设置 ROBOTSTXT_OBEY = True 可以忽略这些协议,是的,这好像只是个君子协定。如果网站设置了浏览器User Agent或者IP地址检测来反爬虫,那就需要更高级的Scrapy功能,本文不做讲解。

四、运行

返回 cmder 命令行进入项目目录,输入命令:

终端会输出所有的爬行结果及调试信息,并在最后列出爬虫运行的统计信息,例如:

主要关注ERROR及WARNING两项,这里的 Warning 其实是不符合条件而触发的 DropItem 异常。

五、保存结果

大多数情况下都需要对抓取的结果进行保存,默认情况下 item.py 中定义的属性可以保存到文件中,只需要命令行加参数 -o {filename} 即可:

注意:输出至文件中的项目是未经过 TuchongPipeline 筛选的项目,只要在 parse 函数中返回的 Item 都会输出,因此也可以在 parse 中过滤只返回需要的项目如果需要保存至数据库,则需要添加额外代码处理,比如可以在 pipelines.py 中 process_item 后添加:

为了在插入数据库操作中排除重复的内容,可以使用 item['post_id'] 进行判断,如果存在则跳过。本项目中的抓取内容只涉及了文本及图片链接,并未下载图片文件,如需下载图片,可以通过两种方式:

安装 Requests 模块,在 process_item 函数中下载图片内容,同时在保存数据库时替换为本地图片路径。使用 ImagePipelines 管道下载图片,具体使用方法下回讲解。

总结

标签: python抓取软件界面数据

本文链接地址:https://www.jiuchutong.com/biancheng/377038.html 转载请保留说明!

上一篇:Python实现调度算法代码详解(python任务调度之schedule)

下一篇:Python中类的初始化特殊方法(python中类怎么用)

  • 留抵税额做进项转出怎么做分录
  • 过路费抵扣进项税填在申报表哪里
  • 啥叫总分类账
  • 企业所得税的减免税额和抵免税额区别
  • 委托收款和托收承付结算方式,都受结算金额起点的限制
  • 在建工程和预付款项调整
  • 春节补贴是加还是减
  • 服务业按什么结算收入
  • 开的税票必须过期怎么办
  • 消防公司支付劳务费会计处理
  • 对方只能开普票怎么办
  • 滴滴的发票能不能作废
  • 进项税额已认证未抵扣会计分录
  • 冲减产品成本会计分录
  • 迟延履行利息记什么科目?
  • 企业如何认定
  • 图文解析定期定额小规模纳税人怎么申报?
  • 往年的企业所得税季报可以更正吗
  • 个人所得税返还奖励财务人员做账
  • 农产品收购发票使用范围
  • 如何界定广告
  • 企业之间承兑汇票贴现违法吗知乎
  • 工商年报股东变更申请
  • win7上网提速
  • php+mysql+apache
  • php知识总结
  • 前端几种下载文件
  • 美国大峡谷在哪儿
  • 大自然水族馆怎么样
  • react 路由参数
  • 微信小程序云开发控制台
  • 魔改apk
  • Pytorch深度学习实战3-5:详解计算图与自动微分机(附实例)
  • 外贸企业出口免税政策
  • 增资扩股税务处罚标准
  • 企业处置固定资产发生的净损失应计入
  • 不同情况不同处理的句子
  • 生产成本结转库存商品,怎么算知道数量以及单价
  • 预缴增值税附加税
  • 高新技术企业研发人员比例要求
  • 园林绿化企业属于什么行业
  • 母子公司资产划转税收政策
  • 在建工程核算的内容有哪些
  • 增值税专用发票和普通发票的区别
  • 完税凭证是
  • 企业购买的理财产品 亏损了,是否可以税前扣除
  • 营业外收入交企业所得税吗
  • 所得税申报报表
  • 一般纳税人企业所得税税率
  • 库存商品盘点制度
  • 出口转内销补交进口增值税时间
  • 财政补助资金是什么意思
  • 印花税需要计提吗2023
  • 金蝶软件采购订单
  • 电汇凭证有效期
  • 财税2009年87号文废止
  • 加盟创业成功案例分析
  • 培训费发票必须开吗
  • 企业是否必须建立巡察制度
  • forval命令
  • 根据索引名称查字段
  • sql函数使用
  • skydrive pro
  • windows10预览版安装
  • win8打开运行窗口
  • WIN10如何设置字体大小
  • 如何查看ubuntu系统版本
  • ps到底怎么用
  • linux命令行在哪
  • win7 windows检测到ip地址冲突怎么解决
  • windows应用图标
  • node.js入门
  • 利用css样式控制文本的字体属性是什么
  • jquery 案例
  • unityapi解析
  • 关于jquery的描述错误的是
  • 安卓自定义acl文件
  • 已申报的纳税申报表怎么修改
  • 河南省地方税务局公告2011年第10号
  • 如何理解财税一体化
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设