位置: 编程技术 - 正文

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

编辑:rootadmin

推荐整理分享python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫框架哪个好,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架有哪些,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧。

代码详解

1、首先应该构造请求,这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般是用yield返回。

代码如下:

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

下面就是解析网页了,从上面看出这里的解析回调函数是parse_url,因此在此函数中解析网页。这里还是和上面说的一样,这个url得到的仅仅是前一半的信息,如果想要得到后一半的信息还有再次请求,这里还有注意的就是一个技巧:一般先解析出一个数据的数组,不急着取出第一个数,先要用if语句判断,因为如果得到的是[],那么直接取出[0]是会报错的,这只是一个避免报错的方法吧。

代码如下:

2、从上面代码的最后可以看出最后就是解析ajax加载的网页了,这里调用的next_half_parse函数,和解析前面一个网页一样,这里需要的注意的是,如果前面定义的数据没有搜索完毕是不能使用yield items的,必须将items通过meta传入下一个回调函数继续完善后才能yield items,这里就不需要了。

代码如下:

3、当然这里还用到了设置请求池,mysql存储,没有使用到ip代理,这个在我前面的博客中又讲到,这里就不再赘述了。

想看源代码的朋友请

点击这里 或者 本地下载

小技巧

人们会抱怨为什么自己的爬虫在中途断开就要重头开始爬,为什么不能从断开那里开始爬呢,这里提供一个方法:在配置文件settings.py中加入JOBDIR=file_name,这里的file_name是一个文件的名字 设置下载延迟防止被ban:DOWNLOAD_DELAY = 2:设置每一次的间隔时间 RANDOMIZE_DOWNLOAD_DELAY = True:这个是随机设置延迟时间 在设置的时间的0.5-1.5倍之间,这样可以更有效的防止被ban,一般是配套使用的 ROBOTSTXT_OBEY = False :这里是表示不遵循robots.txt文件,默认是True表示遵循,这里将之改成False CONCURRENT_REQUESTS :设置最大请求数,这里默认的时,我们可以根据自己电脑的配置改的大一点来加快请求的速度

总结

标签: python爬虫框架怎么画

本文链接地址:https://www.jiuchutong.com/biancheng/375557.html 转载请保留说明!

上一篇:python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

下一篇:Python处理PDF及生成多层PDF实例代码(python 数据处理 pdf)

  • 应预缴税款如何计算?
  • 税金及附加属于管理费用吗
  • 餐饮业申请发票
  • 科技型中小微企业贷款贴息贴保项目入库申请指南
  • 生产研发设备
  • 换工作个税申报忘记更改
  • 公司变更地址要股东签字吗
  • 零售行业会计核算方法
  • 公司收到一次性吸纳就业补贴款怎么分录
  • 公司租用房产税如何征收
  • 员工买了多项东西怎么说
  • 实习生需要缴纳个税吗?
  • 海关完税价格表
  • 建筑企业收到的商品怎么入账呢
  • 建筑业企业包括哪些企业
  • 普票冲红可以部分冲红吗
  • 营业外收入可以在借方吗
  • 实际利率法怎么理解
  • 来的货比合同金额多怎么申报印花税?
  • 收益性支出包括哪些科目
  • 非居民纳税人享受协定待遇办理方式
  • 银行有流水但是没有开票怎么做账
  • 升级打装备的手游
  • 计算机系统结构第三版课后答案
  • 职工教育经费是工资总额的多少
  • 鸿蒙可以看小电影吗
  • 发生额怎么算
  • linux如何管理进程
  • 计提利息会计分录怎么做
  • 会计分录由什么要素组成
  • php自定义header
  • symerr函数
  • 即征即退增值税属于政府补助吗
  • 税控盘是干什么用的操作有风险吗
  • 天猫提现到对公账户怎么做账
  • egi脑电数据处理
  • 客户不要的专票我们可以不作废吗
  • 尚未抄税无法申报
  • php composer 常用库
  • dedecms更新
  • 融资租赁租车
  • 借条每月还款怎么写
  • 现金流量表的编制公式 计算公式
  • 增值税专用发票丢了怎么补救
  • 发票已交税还可以作废吗
  • mysql中如何设置默认值
  • 本月发料凭证会计分录
  • 公司户和个人户交强险一样吗
  • 电子承兑背书一般多久到账
  • 加计扣除所得税怎么算
  • 运输公司车辆保养记录表格
  • 无息的银行承兑汇票
  • 分期收款发出商品一批,售价50000
  • 其他应付为负数什么意思
  • 无法收回的应收账款如何进行财务处理
  • 营改增政策解答
  • 工程施工人工费,材料费,机械费占多少比例
  • 旅行社代订的机票可以抵扣吗
  • 法人能去税务局开个人发票吗
  • 公司租的房子电费发票怎么开
  • 车子报废车子怎么处理
  • ubuntu如何配置
  • fedora update-grub
  • unix vi命令
  • 如何做电脑系统备份
  • linux 文件管理命令
  • U盘安装centos7步骤
  • winxp怎么自动开机
  • windows7报错
  • linux 中的MYSQL命令汇总 适合学习linux下配置mysql的朋友
  • shell脚本运行linux命令
  • 当ie7不认!important之后 [布局的解决办法]
  • Web2.0下XHTML+CSS 设计需要注意的地方小结
  • jquery序列化json
  • android在手机上运行
  • python saga
  • javascript的核心组成部分
  • 国家税务总局开票系统怎么开票
  • 香皂需要换着用吗
  • 印花税票在哪里可以查到
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设