位置: 编程技术 - 正文

Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据)

编辑:rootadmin

推荐整理分享Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:scheme抓取,python scapy 抓包,python抓取软件界面数据,python 抓取框架,python抓取软件界面数据,python 采集框架,python抓取软件界面数据,python 抓取框架,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

Scrapy是一个非常好的抓取框架,它不仅提供了一些开箱可用的基础组建,还能够根据自己的需求,进行强大的自定义。本文主要给大家介绍了关于Python抓取框架Scrapy之页面提取的相关内容,分享出来供大家参考学习,下面随着小编来一起学习学习吧。

在开始之前,关于scrapy框架的入门大家可以参考这篇文章: 图虫网,顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的链接为: xpath 选取应该是://div[@class="widget-gallery"]/ul/li,按照一般页面的逻辑,在li.gallery-item下面找到对应的链接地址,再往下深入一层页面抓取图片。

但是如果用类似 Postman 的HTTP调试工具请求该页面,得到的内容是:

也就是并没有实际的图集内容,因此可以断定页面使用了Ajax请求,只有在浏览器载入页面时才会请求图集内容并加入div.widget-gallery中,通过开发者工具查看XHR请求地址为:

参数很简单,page是页码,count是每页图集数量,order是排序,before_timestamp为空,图虫因为是推送内容式的网站,因此before_timestamp应该是一个时间值,不同的时间会显示不同的内容,这里我们把它丢弃,不考虑时间直接从最新的页面向前抓取。

请求结果为JSON格式内容,降低了抓取难度,结果如下:

根据属性名称很容易知道对应的内容含义,这里我们只需关心 postlist 这个属性,它对应的一个数组元素便是一个图集,图集元素中有几项属性我们需要用到:

url:单个图集浏览的页面地址 post_id:图集编号,在网站中应该是唯一的,可以用来判断是否已经抓取过该内容 site_id:作者站点编号 ,构建图片来源链接要用到 title:标题 excerpt:摘要文字 type:图集类型,目前发现两种,一种multi-photo是纯照片,一种text是文字与图片混合的文章式页面,两种内容结构不同,需要不同的抓取方式,本例中只抓取纯照片类型,text类型直接丢弃 tags:图集标签,有多个 image_count:图片数量 images:图片列表,它是一个对象数组,每个对象中包含一个img_id属性需要用到

根据图片浏览页面分析,基本上图片的地址都是这种格式: ,很容易通过上面的信息合成。

二、创建项目

进入cmder命令行工具,输入workon scrapy 进入之前建立的虚拟环境,此时命令行提示符前会出现(Scrapy) 标识,标识处于该虚拟环境中,相关的路径都会添加到PATH环境变量中便于开发及使用。 输入 scrapy startproject tuchong 创建项目 tuchong 进入项目主目录,输入 scrapy genspider photo tuchong.com 创建一个爬虫名称叫 photo (不能与项目同名),爬取 tuchong.com 域名(这个需要修改,此处先输个大概地址),的一个项目内可以包含多个爬虫

经过以上步骤,项目自动建立了一些文件及设置,目录结构如下:

scrapy.cfg:基础设置 items.py:抓取条目的结构定义 middlewares.py:中间件定义,此例中无需改动 pipelines.py:管道定义,用于抓取数据后的处理 settings.py:全局设置 spidersphoto.py:爬虫主体,定义如何抓取需要的数据

三、主要代码

items.py 中创建一个TuchongItem类并定义需要的属性,属性继承自 scrapy.Field 值可以是字符、数字或者列表或字典等等:

这些属性的值将在爬虫主体中赋予。

Python抓取框架Scrapy爬虫入门:页面提取(python抓取软件界面数据)

spidersphoto.py 这个文件是通过命令 scrapy genspider photo tuchong.com 自动创建的,里面的初始内容如下:

爬虫名 name,允许的域名 allowed_domains(如果链接不属于此域名将丢弃,允许多个) ,起始地址 start_urls 将从这里定义的地址抓取(允许多个)

函数 parse 是处理请求内容的默认回调函数,参数 response 为请求内容,页面内容文本保存在 response.body 中,我们需要对默认代码稍加修改,让其满足多页面循环发送请求,这需要重载 start_requests 函数,通过循环语句构建多页的链接请求,修改后代码如下:

经过这些步骤,抓取的数据将被保存在 TuchongItem 类中,作为结构化的数据便于处理及保存。

前面说过,并不是所有抓取的条目都需要,例如本例中我们只需要 type="multi_photo 类型的图集,并且图片太少的也不需要,这些抓取条目的筛选操作以及如何保存需要在pipelines.py中处理,该文件中默认已创建类 TuchongPipeline 并重载了 process_item 函数,通过修改该函数只返回那些符合条件的 item,代码如下:

当然如果不用管道直接在 parse 中处理也是一样的,只不过这样结构更清晰一些,而且还有功能更多的FilePipelines和ImagePipelines可供使用,process_item将在每一个条目抓取后触发,同时还有 open_spider 及 close_spider 函数可以重载,用于处理爬虫打开及关闭时的动作。

注意:管道需要在项目中注册才能使用,在 settings.py 中添加:

另外,大多数网站都有反爬虫的 Robots.txt 排除协议,设置 ROBOTSTXT_OBEY = True 可以忽略这些协议,是的,这好像只是个君子协定。如果网站设置了浏览器User Agent或者IP地址检测来反爬虫,那就需要更高级的Scrapy功能,本文不做讲解。

四、运行

返回 cmder 命令行进入项目目录,输入命令:

终端会输出所有的爬行结果及调试信息,并在最后列出爬虫运行的统计信息,例如:

主要关注ERROR及WARNING两项,这里的 Warning 其实是不符合条件而触发的 DropItem 异常。

五、保存结果

大多数情况下都需要对抓取的结果进行保存,默认情况下 item.py 中定义的属性可以保存到文件中,只需要命令行加参数 -o {filename} 即可:

注意:输出至文件中的项目是未经过 TuchongPipeline 筛选的项目,只要在 parse 函数中返回的 Item 都会输出,因此也可以在 parse 中过滤只返回需要的项目如果需要保存至数据库,则需要添加额外代码处理,比如可以在 pipelines.py 中 process_item 后添加:

为了在插入数据库操作中排除重复的内容,可以使用 item['post_id'] 进行判断,如果存在则跳过。本项目中的抓取内容只涉及了文本及图片链接,并未下载图片文件,如需下载图片,可以通过两种方式:

安装 Requests 模块,在 process_item 函数中下载图片内容,同时在保存数据库时替换为本地图片路径。使用 ImagePipelines 管道下载图片,具体使用方法下回讲解。

总结

标签: python抓取软件界面数据

本文链接地址:https://www.jiuchutong.com/biancheng/377038.html 转载请保留说明!

上一篇:Python实现调度算法代码详解(python任务调度之schedule)

下一篇:Python中类的初始化特殊方法(python中类怎么用)

  • 个税汇算清缴为啥要补交
  • 收购票怎么做会计分录
  • 2019年新政府会计制度
  • 其他综合收益税后净额影响净利润吗
  • 个人厂房租赁税率是多少
  • 现金折扣税务筹划
  • 公司举办的活动
  • 出现销项负数
  • 收到美元货款兑换人民币流程
  • 利息收入交税会计分录怎么做
  • 业务员出差借款,用途写什么
  • 2014年税收征管体制改革
  • 企业认缴出资怎么做账
  • 转让无形资产收入属于销售收入吗
  • 销售企业需要交的营业税
  • 销售机械设备的税率是多少
  • 个人出租住房缴纳个税可以扣除房产税吗
  • 积分抵扣所开的发票,也能在税前扣除吗?
  • 企业可以同时按一般纳税和按小规模纳税吗?
  • 大中小微企业划分标准2023年
  • 进项税额加计抵减如何申报
  • 个人在杂志上发表散文取得的所得
  • 包工包料装修
  • 库存商品转结
  • 科研机构进口直接用于科学研究的仪器免征增值税吗
  • 存货跌价准备是备抵科目吗
  • 会计分录是怎么样的
  • 我想测试一下网速
  • rundll.exe是什么程序
  • 餐饮发票可以计入研发费用吗
  • win10待机唤醒黑屏死机
  • 发代扣代缴手续费个税免
  • php字符串操作函数
  • 开发票时,一张发票上不同税率要符合哪些要求?
  • 减值测试的资产有哪些
  • vue中如何使用axios
  • 资产负债表申报怎么填
  • vue中的proxy代理
  • 出口发票的开具时间问题
  • Web Spider Fiddler - JS Hook 基本使用
  • 修改公司章程注意事项
  • 我国营改增后,一般纳税人适用的增值税基本税率
  • 逐步结转分步法的步骤
  • 存货盘亏计入什么收入
  • python中的thread
  • Mysql创建通用设备管理信息系统数据库
  • 教育培训行业税目分类
  • 应付账款暂估款的账务处理
  • 对账结算流程
  • 接收商业承兑汇票有风险吗
  • 待抵扣进项税额分录
  • 预付卡充值入什么科目
  • 持有至到期投资是债权投资吗
  • 《实施条例》第二十七条
  • 一般纳税人10万元以下附加税
  • 工程施工借贷方向
  • 期初与年初有什么区别
  • 电子支付支付是什么意思
  • 公司网站维护费用计哪个科目
  • 公司购买手表入什么科目
  • 坏账准备的会计核算
  • mysql查询语句优先级
  • sql中的视图提高了数据库的
  • centos 离线安装git
  • ubuntu下安装deb文件
  • winpsd.exe - winpsd是什么进程
  • windows怎么更改网络状态
  • /proc目录造成linux根目录爆满
  • 数字小键盘不管用
  • 一、Unity3D 5.0.1-示例项目“汽车游戏”的展示及开发准备
  • bootstrap怎么用
  • perl后门,正向和反向!实例代码
  • koa2 koa
  • unity3d手机怎么打开
  • android刷新activity
  • html仿淘宝
  • 湖南国家电子税务局手机版
  • 广州地税预约网官网
  • 绿本补办需要本人去吗
  • 金融商品转让是什么意思
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设