位置: 编程技术 - 正文

Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据)

编辑:rootadmin

推荐整理分享Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:scheme抓取,python scapy 抓包,python抓取软件界面数据,python 抓取框架,python抓取软件界面数据,python 采集框架,python抓取软件界面数据,python 抓取框架,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

Scrapy是一个非常好的抓取框架,它不仅提供了一些开箱可用的基础组建,还能够根据自己的需求,进行强大的自定义。本文主要给大家介绍了关于Python抓取框架Scrapy之页面提取的相关内容,分享出来供大家参考学习,下面随着小编来一起学习学习吧。

在开始之前,关于scrapy框架的入门大家可以参考这篇文章: 图虫网,顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的链接为: xpath 选取应该是://div[@class="widget-gallery"]/ul/li,按照一般页面的逻辑,在li.gallery-item下面找到对应的链接地址,再往下深入一层页面抓取图片。

但是如果用类似 Postman 的HTTP调试工具请求该页面,得到的内容是:

也就是并没有实际的图集内容,因此可以断定页面使用了Ajax请求,只有在浏览器载入页面时才会请求图集内容并加入div.widget-gallery中,通过开发者工具查看XHR请求地址为:

参数很简单,page是页码,count是每页图集数量,order是排序,before_timestamp为空,图虫因为是推送内容式的网站,因此before_timestamp应该是一个时间值,不同的时间会显示不同的内容,这里我们把它丢弃,不考虑时间直接从最新的页面向前抓取。

请求结果为JSON格式内容,降低了抓取难度,结果如下:

根据属性名称很容易知道对应的内容含义,这里我们只需关心 postlist 这个属性,它对应的一个数组元素便是一个图集,图集元素中有几项属性我们需要用到:

url:单个图集浏览的页面地址 post_id:图集编号,在网站中应该是唯一的,可以用来判断是否已经抓取过该内容 site_id:作者站点编号 ,构建图片来源链接要用到 title:标题 excerpt:摘要文字 type:图集类型,目前发现两种,一种multi-photo是纯照片,一种text是文字与图片混合的文章式页面,两种内容结构不同,需要不同的抓取方式,本例中只抓取纯照片类型,text类型直接丢弃 tags:图集标签,有多个 image_count:图片数量 images:图片列表,它是一个对象数组,每个对象中包含一个img_id属性需要用到

根据图片浏览页面分析,基本上图片的地址都是这种格式: ,很容易通过上面的信息合成。

二、创建项目

进入cmder命令行工具,输入workon scrapy 进入之前建立的虚拟环境,此时命令行提示符前会出现(Scrapy) 标识,标识处于该虚拟环境中,相关的路径都会添加到PATH环境变量中便于开发及使用。 输入 scrapy startproject tuchong 创建项目 tuchong 进入项目主目录,输入 scrapy genspider photo tuchong.com 创建一个爬虫名称叫 photo (不能与项目同名),爬取 tuchong.com 域名(这个需要修改,此处先输个大概地址),的一个项目内可以包含多个爬虫

经过以上步骤,项目自动建立了一些文件及设置,目录结构如下:

scrapy.cfg:基础设置 items.py:抓取条目的结构定义 middlewares.py:中间件定义,此例中无需改动 pipelines.py:管道定义,用于抓取数据后的处理 settings.py:全局设置 spidersphoto.py:爬虫主体,定义如何抓取需要的数据

三、主要代码

items.py 中创建一个TuchongItem类并定义需要的属性,属性继承自 scrapy.Field 值可以是字符、数字或者列表或字典等等:

这些属性的值将在爬虫主体中赋予。

Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据)

spidersphoto.py 这个文件是通过命令 scrapy genspider photo tuchong.com 自动创建的,里面的初始内容如下:

爬虫名 name,允许的域名 allowed_domains(如果链接不属于此域名将丢弃,允许多个) ,起始地址 start_urls 将从这里定义的地址抓取(允许多个)

函数 parse 是处理请求内容的默认回调函数,参数 response 为请求内容,页面内容文本保存在 response.body 中,我们需要对默认代码稍加修改,让其满足多页面循环发送请求,这需要重载 start_requests 函数,通过循环语句构建多页的链接请求,修改后代码如下:

经过这些步骤,抓取的数据将被保存在 TuchongItem 类中,作为结构化的数据便于处理及保存。

前面说过,并不是所有抓取的条目都需要,例如本例中我们只需要 type="multi_photo 类型的图集,并且图片太少的也不需要,这些抓取条目的筛选操作以及如何保存需要在pipelines.py中处理,该文件中默认已创建类 TuchongPipeline 并重载了 process_item 函数,通过修改该函数只返回那些符合条件的 item,代码如下:

当然如果不用管道直接在 parse 中处理也是一样的,只不过这样结构更清晰一些,而且还有功能更多的FilePipelines和ImagePipelines可供使用,process_item将在每一个条目抓取后触发,同时还有 open_spider 及 close_spider 函数可以重载,用于处理爬虫打开及关闭时的动作。

注意:管道需要在项目中注册才能使用,在 settings.py 中添加:

另外,大多数网站都有反爬虫的 Robots.txt 排除协议,设置 ROBOTSTXT_OBEY = True 可以忽略这些协议,是的,这好像只是个君子协定。如果网站设置了浏览器User Agent或者IP地址检测来反爬虫,那就需要更高级的Scrapy功能,本文不做讲解。

四、运行

返回 cmder 命令行进入项目目录,输入命令:

终端会输出所有的爬行结果及调试信息,并在最后列出爬虫运行的统计信息,例如:

主要关注ERROR及WARNING两项,这里的 Warning 其实是不符合条件而触发的 DropItem 异常。

五、保存结果

大多数情况下都需要对抓取的结果进行保存,默认情况下 item.py 中定义的属性可以保存到文件中,只需要命令行加参数 -o {filename} 即可:

注意:输出至文件中的项目是未经过 TuchongPipeline 筛选的项目,只要在 parse 函数中返回的 Item 都会输出,因此也可以在 parse 中过滤只返回需要的项目如果需要保存至数据库,则需要添加额外代码处理,比如可以在 pipelines.py 中 process_item 后添加:

为了在插入数据库操作中排除重复的内容,可以使用 item['post_id'] 进行判断,如果存在则跳过。本项目中的抓取内容只涉及了文本及图片链接,并未下载图片文件,如需下载图片,可以通过两种方式:

安装 Requests 模块,在 process_item 函数中下载图片内容,同时在保存数据库时替换为本地图片路径。使用 ImagePipelines 管道下载图片,具体使用方法下回讲解。

总结

标签: python抓取软件界面数据

本文链接地址:https://www.jiuchutong.com/biancheng/377038.html 转载请保留说明!

上一篇:Python实现调度算法代码详解(python任务调度之schedule)

下一篇:Python中类的初始化特殊方法(python中类怎么用)

  • 股权转让的相关文件有哪些
  • 生产企业出口退税的计算方法
  • 递延收益与递延所得税负债的区别
  • 采用现金支付
  • 小规模纳税季收入怎么算
  • 电子税务局怎么登录
  • 人力资源公司开办条件
  • 对公账户是不是实时到账
  • 叉车上牌流程需要多少时间
  • 出纳取备用金需要交税吗
  • 单位之间调动
  • 社会保险申报表中工资总额累计金额是什么意思
  • 单据核销不了
  • 抵债资产账务处理2021年
  • 个人房屋租金收入怎么交税
  • 进项转出再差额征收待抵扣
  • 出口退税进项税额转出是什么意思
  • 增值税专用发票可以开电子发票吗
  • 小规模和一般纳税人的区别
  • 递延收益可以是负数吗
  • 增值税专用发票可以开电子发票吗
  • 物业代收自来水水费
  • 国家税务总局关于取消增值税扣税凭证
  • 企业所得税季度预缴纳税申报表
  • 税收筹划要注意哪些问题
  • 医院会计制度准则
  • 地方教育附加可以在企业所得税前扣除吗
  • 企业私募股权投资
  • 转口贸易需要申报什么税
  • 社保基数如何计算单位和个人承担多少
  • 斐讯p.to路由器管理员密码
  • 采用赊销方式销售货物的纳税义务发生时间
  • 电脑硬件检修
  • 实收资本属于哪类
  • 电脑重装系统怎么激活
  • wordpress优化seo
  • 安博塞利国家公园简介
  • 税前扣除项目什么意思
  • 税金及附加在哪里申报
  • vue项目如何启动运行
  • 第十七届全国大学生智能车
  • vue笔记大全
  • 预收物业费纳税义务发生时间
  • 支付宝商户服务电话
  • 城建税退税流程
  • 劳务公司给包工头转账交税吗
  • 个人所得税手续费返还账务处理
  • 小规模纳税人涉嫌虚开发票
  • 银行金融手续费收费标准
  • 开具增值税专用发票含税吗
  • 工商营业执照变更网上怎么操作
  • 资产处置损失抵税
  • 银行打对公回单
  • 预收租金可以记入成本吗
  • 分公司做账报税
  • 编程经验点滴怎么写
  • 老生常谈啥意思
  • mac系统自带的杀毒软件
  • macbook macos
  • Win10 RedStone 2预览版14936快速版开始推送
  • hyper-v搭建
  • linux启动u盘制作
  • centos 7安装教程(图文详解)
  • 怎么隐藏不让别人发现
  • windows8使用教程
  • win8应用商店无法使用
  • ssh登录后自动执行命令
  • “android”
  • 基于javascript的毕业设计
  • linux命令行怎么用
  • javascript基础笔记
  • jquery示例
  • android错误报告
  • 什么叫开源库
  • 季度税额怎么算
  • 福建省地方amc
  • 8倍社会平均工资 北京
  • 保定市国税局车管所所长
  • 小规模纳税人的开票
  • 河南省纳税服务平台
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设