位置: 编程技术 - 正文

Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据)

编辑:rootadmin

推荐整理分享Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:scheme抓取,python scapy 抓包,python抓取软件界面数据,python 抓取框架,python抓取软件界面数据,python 采集框架,python抓取软件界面数据,python 抓取框架,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

Scrapy是一个非常好的抓取框架,它不仅提供了一些开箱可用的基础组建,还能够根据自己的需求,进行强大的自定义。本文主要给大家介绍了关于Python抓取框架Scrapy之页面提取的相关内容,分享出来供大家参考学习,下面随着小编来一起学习学习吧。

在开始之前,关于scrapy框架的入门大家可以参考这篇文章: 图虫网,顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的链接为: xpath 选取应该是://div[@class="widget-gallery"]/ul/li,按照一般页面的逻辑,在li.gallery-item下面找到对应的链接地址,再往下深入一层页面抓取图片。

但是如果用类似 Postman 的HTTP调试工具请求该页面,得到的内容是:

也就是并没有实际的图集内容,因此可以断定页面使用了Ajax请求,只有在浏览器载入页面时才会请求图集内容并加入div.widget-gallery中,通过开发者工具查看XHR请求地址为:

参数很简单,page是页码,count是每页图集数量,order是排序,before_timestamp为空,图虫因为是推送内容式的网站,因此before_timestamp应该是一个时间值,不同的时间会显示不同的内容,这里我们把它丢弃,不考虑时间直接从最新的页面向前抓取。

请求结果为JSON格式内容,降低了抓取难度,结果如下:

根据属性名称很容易知道对应的内容含义,这里我们只需关心 postlist 这个属性,它对应的一个数组元素便是一个图集,图集元素中有几项属性我们需要用到:

url:单个图集浏览的页面地址 post_id:图集编号,在网站中应该是唯一的,可以用来判断是否已经抓取过该内容 site_id:作者站点编号 ,构建图片来源链接要用到 title:标题 excerpt:摘要文字 type:图集类型,目前发现两种,一种multi-photo是纯照片,一种text是文字与图片混合的文章式页面,两种内容结构不同,需要不同的抓取方式,本例中只抓取纯照片类型,text类型直接丢弃 tags:图集标签,有多个 image_count:图片数量 images:图片列表,它是一个对象数组,每个对象中包含一个img_id属性需要用到

根据图片浏览页面分析,基本上图片的地址都是这种格式: ,很容易通过上面的信息合成。

二、创建项目

进入cmder命令行工具,输入workon scrapy 进入之前建立的虚拟环境,此时命令行提示符前会出现(Scrapy) 标识,标识处于该虚拟环境中,相关的路径都会添加到PATH环境变量中便于开发及使用。 输入 scrapy startproject tuchong 创建项目 tuchong 进入项目主目录,输入 scrapy genspider photo tuchong.com 创建一个爬虫名称叫 photo (不能与项目同名),爬取 tuchong.com 域名(这个需要修改,此处先输个大概地址),的一个项目内可以包含多个爬虫

经过以上步骤,项目自动建立了一些文件及设置,目录结构如下:

scrapy.cfg:基础设置 items.py:抓取条目的结构定义 middlewares.py:中间件定义,此例中无需改动 pipelines.py:管道定义,用于抓取数据后的处理 settings.py:全局设置 spidersphoto.py:爬虫主体,定义如何抓取需要的数据

三、主要代码

items.py 中创建一个TuchongItem类并定义需要的属性,属性继承自 scrapy.Field 值可以是字符、数字或者列表或字典等等:

这些属性的值将在爬虫主体中赋予。

Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据)

spidersphoto.py 这个文件是通过命令 scrapy genspider photo tuchong.com 自动创建的,里面的初始内容如下:

爬虫名 name,允许的域名 allowed_domains(如果链接不属于此域名将丢弃,允许多个) ,起始地址 start_urls 将从这里定义的地址抓取(允许多个)

函数 parse 是处理请求内容的默认回调函数,参数 response 为请求内容,页面内容文本保存在 response.body 中,我们需要对默认代码稍加修改,让其满足多页面循环发送请求,这需要重载 start_requests 函数,通过循环语句构建多页的链接请求,修改后代码如下:

经过这些步骤,抓取的数据将被保存在 TuchongItem 类中,作为结构化的数据便于处理及保存。

前面说过,并不是所有抓取的条目都需要,例如本例中我们只需要 type="multi_photo 类型的图集,并且图片太少的也不需要,这些抓取条目的筛选操作以及如何保存需要在pipelines.py中处理,该文件中默认已创建类 TuchongPipeline 并重载了 process_item 函数,通过修改该函数只返回那些符合条件的 item,代码如下:

当然如果不用管道直接在 parse 中处理也是一样的,只不过这样结构更清晰一些,而且还有功能更多的FilePipelines和ImagePipelines可供使用,process_item将在每一个条目抓取后触发,同时还有 open_spider 及 close_spider 函数可以重载,用于处理爬虫打开及关闭时的动作。

注意:管道需要在项目中注册才能使用,在 settings.py 中添加:

另外,大多数网站都有反爬虫的 Robots.txt 排除协议,设置 ROBOTSTXT_OBEY = True 可以忽略这些协议,是的,这好像只是个君子协定。如果网站设置了浏览器User Agent或者IP地址检测来反爬虫,那就需要更高级的Scrapy功能,本文不做讲解。

四、运行

返回 cmder 命令行进入项目目录,输入命令:

终端会输出所有的爬行结果及调试信息,并在最后列出爬虫运行的统计信息,例如:

主要关注ERROR及WARNING两项,这里的 Warning 其实是不符合条件而触发的 DropItem 异常。

五、保存结果

大多数情况下都需要对抓取的结果进行保存,默认情况下 item.py 中定义的属性可以保存到文件中,只需要命令行加参数 -o {filename} 即可:

注意:输出至文件中的项目是未经过 TuchongPipeline 筛选的项目,只要在 parse 函数中返回的 Item 都会输出,因此也可以在 parse 中过滤只返回需要的项目如果需要保存至数据库,则需要添加额外代码处理,比如可以在 pipelines.py 中 process_item 后添加:

为了在插入数据库操作中排除重复的内容,可以使用 item['post_id'] 进行判断,如果存在则跳过。本项目中的抓取内容只涉及了文本及图片链接,并未下载图片文件,如需下载图片,可以通过两种方式:

安装 Requests 模块,在 process_item 函数中下载图片内容,同时在保存数据库时替换为本地图片路径。使用 ImagePipelines 管道下载图片,具体使用方法下回讲解。

总结

标签: python抓取软件界面数据

本文链接地址:https://www.jiuchutong.com/biancheng/377038.html 转载请保留说明!

上一篇:Python实现调度算法代码详解(python任务调度之schedule)

下一篇:Python中类的初始化特殊方法(python中类怎么用)

  • 中外合资企业要交什么税
  • 要交多少增值税
  • 老板的报销分录怎么写
  • 银行收取的账户管理费是什么费用
  • 采购砂石料无发票对税务有影响
  • 用友取消操作在哪里
  • 农业生产成本二级科目有福利费支出吗
  • 购买电脑的折旧怎么计算
  • 国家规定先打五联还是麻腮风
  • 错账更正分录
  • 实收资本需要计提印花税吗
  • 卖下脚料怎么做分录
  • 免费的产品
  • 工程款为什么要扣税
  • 房产税税率2023税率表
  • 如何区分境内所有银行卡
  • 增值税发票抵扣进项税什么意思
  • 工商年报纳税总额是应缴还是实缴
  • 购入资产当月开始计提折旧
  • 外汇的收入
  • vmware10虚拟机安装
  • 关联企业需要计提坏账
  • eclipse 4.19
  • 坏狼变身记简介
  • 产品销售账务处理办法
  • koeids.dll
  • 资产减值损失如何录入
  • codeigniter3中文手册
  • PHP:imagecolorexactalpha()的用法_GD库图像处理函数
  • 社保缴费基数如何调整
  • python编程爱心形状
  • vue3安装配置
  • 反向选择命令
  • 国际运输代理费属于什么科目
  • 差额征税的扣除额是填什么钱
  • sqlserver无法打开备份设备
  • sql死锁的简单例子
  • 定额备用金与非备用金
  • 增值税专用发票查询系统官方网站
  • 电商平台收入何时到账
  • 结汇时和月底结转汇兑损益
  • 残保金申报常见问题
  • 销售产品的软件平台
  • 已计提教育费附加但是未扣除个税
  • 公司车辆做账交增值税吗
  • 财务费用在贷方负数表示什么
  • 印花税退回计入什么科目
  • 商贸企业的销售成本怎么算
  • 什么是固定资产的后续支出
  • 小微企业要交残疾证吗
  • 固定资产盘亏计入固定资产清理吗
  • 建立备查账簿登记的有哪些
  • 工业营业收入含税吗
  • Centos7下MySQL安装教程
  • 详解十二建星择日方法
  • cool file viewer pro是什么软件
  • windows7壁纸怎么恢复
  • centos安装vim命令
  • linux w
  • drivemgr.exe 病毒介绍
  • win7小键盘怎么调出
  • mac安全设置在哪里
  • win8安全和维护在哪
  • Aero glass for Win8.1黑屏/不兼容弹窗的解决方法介绍
  • raid磁盘阵列教程
  • javascript冒泡排序代码
  • excel嵌入图片变成代码怎么办
  • css布局的经典网站
  • unity ulua
  • python 命令
  • android app测试
  • easyui-dialog
  • js 类的继承
  • comparable接口怎么用
  • Python第三方库的常见安装方法有
  • 2020年陕西省国税局局长
  • 七创社开放时间
  • 消费税组成计税价格为什么要除以1-消费税率
  • 税务稽查检查笔录范文
  • 税务会计业务处理流程
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设