位置: 编程技术 - 正文

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

编辑:rootadmin

推荐整理分享python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫框架哪个好,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架有哪些,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧。

代码详解

1、首先应该构造请求,这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般是用yield返回。

代码如下:

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

下面就是解析网页了,从上面看出这里的解析回调函数是parse_url,因此在此函数中解析网页。这里还是和上面说的一样,这个url得到的仅仅是前一半的信息,如果想要得到后一半的信息还有再次请求,这里还有注意的就是一个技巧:一般先解析出一个数据的数组,不急着取出第一个数,先要用if语句判断,因为如果得到的是[],那么直接取出[0]是会报错的,这只是一个避免报错的方法吧。

代码如下:

2、从上面代码的最后可以看出最后就是解析ajax加载的网页了,这里调用的next_half_parse函数,和解析前面一个网页一样,这里需要的注意的是,如果前面定义的数据没有搜索完毕是不能使用yield items的,必须将items通过meta传入下一个回调函数继续完善后才能yield items,这里就不需要了。

代码如下:

3、当然这里还用到了设置请求池,mysql存储,没有使用到ip代理,这个在我前面的博客中又讲到,这里就不再赘述了。

想看源代码的朋友请

点击这里 或者 本地下载

小技巧

人们会抱怨为什么自己的爬虫在中途断开就要重头开始爬,为什么不能从断开那里开始爬呢,这里提供一个方法:在配置文件settings.py中加入JOBDIR=file_name,这里的file_name是一个文件的名字 设置下载延迟防止被ban:DOWNLOAD_DELAY = 2:设置每一次的间隔时间 RANDOMIZE_DOWNLOAD_DELAY = True:这个是随机设置延迟时间 在设置的时间的0.5-1.5倍之间,这样可以更有效的防止被ban,一般是配套使用的 ROBOTSTXT_OBEY = False :这里是表示不遵循robots.txt文件,默认是True表示遵循,这里将之改成False CONCURRENT_REQUESTS :设置最大请求数,这里默认的时,我们可以根据自己电脑的配置改的大一点来加快请求的速度

总结

标签: python爬虫框架怎么画

本文链接地址:https://www.jiuchutong.com/biancheng/375557.html 转载请保留说明!

上一篇:python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

下一篇:Python处理PDF及生成多层PDF实例代码(python 数据处理 pdf)

  • 一般纳税人的现金收入
  • 购买软件费用
  • 运输企业印花税按什么缴纳
  • 小规模收到房租专票进项做账分录
  • 商贸企业印花税税率
  • 企业财产损失审批前后的账务处理
  • 记账凭证摘要的重要性
  • 公司厨房用品专用发票怎么处理?
  • 销项负数发票用勾选吗
  • 多交税费退税会计处理
  • 可供出售金融资产和长期股权投资
  • 工程项目立项前包括哪几个过程
  • 跨年度冲减收入
  • 企业所得税发票在哪里打印
  • 国税发200931号文解读
  • 应收账款转让的会计处理
  • 长期股权投资用交印花税吗
  • 支付个人利息没有取得发票
  • 保险公司退还保费
  • 个人转让公司限售股纳税地点要求
  • 电脑不支持windows 11
  • 电脑安装的软件桌面上没显示
  • 工会经费,职工福利费,教育经费的扣除标准
  • 技术合同指什么
  • 多交的社保怎么做分录
  • 油费餐费入什么科目
  • 预算会计的核算范围
  • 代理业务资产的意思
  • 公司转让账务处理,账户抹平
  • mysql跨库join
  • 金蝶软件可以自学吗
  • linux系统中安装auto dock
  • sql1000*1.0
  • 电梯维保越来越没搞头了
  • 会计信息不采集有什么后果
  • access使用查询设计视图计算并显示平均成绩
  • 资产负债表固定资产清理
  • 失控发票要补交所得税吗
  • 其他债权投资应收利息计入什么
  • 未交增值税借方表示什么意思
  • 账务处理程序的定义
  • 以前年度损益调整怎么做账
  • 普通发票忘记开数量和单价可以用吗?
  • 商场扣点怎么做分录
  • 出口退税率为0的账务处理
  • 企业技术服务费比例
  • 差旅费涉及的科目
  • 茶农的茶叶自产自销需要办哪些证
  • 房地产开发企业与转让房地产有关的税金
  • 收取客户好处算违法吗
  • 会计科目用错如何改正
  • 按照管理会计的解释,成本的相关性是
  • 销售不动产计税税率
  • 帐簿的保管期限
  • mysql怎么清理干净
  • xp系统鼠标设置在哪
  • linux sshd是什么
  • 电脑bios怎么设置usb启动
  • win7系统internet怎么打开摄像头
  • dell t110服务器
  • win+tab键
  • wind10怎么重置网络
  • win7蓝屏代码0x0000007e
  • 电脑系统win8
  • Win10怎么安装软件
  • Intermediate Unity 3D for iOS: Part 1/3
  • webpack-loader
  • assets怎么编辑
  • linux.rpm
  • 腾讯im sdk
  • webgl基础教程
  • shell脚本总结
  • unity 3d ui
  • unity多人游戏
  • the oculus rift
  • 个税申报网上操作步骤
  • 个人所得税超过12万能退税吗
  • 纳税申报期过了怎么处理
  • 办税服务厅是税收工作的
  • 长沙买房后多久可以提取公积金
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设