位置: 编程技术 - 正文

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

编辑:rootadmin

推荐整理分享python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫框架哪个好,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架有哪些,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧。

代码详解

1、首先应该构造请求,这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般是用yield返回。

代码如下:

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

下面就是解析网页了,从上面看出这里的解析回调函数是parse_url,因此在此函数中解析网页。这里还是和上面说的一样,这个url得到的仅仅是前一半的信息,如果想要得到后一半的信息还有再次请求,这里还有注意的就是一个技巧:一般先解析出一个数据的数组,不急着取出第一个数,先要用if语句判断,因为如果得到的是[],那么直接取出[0]是会报错的,这只是一个避免报错的方法吧。

代码如下:

2、从上面代码的最后可以看出最后就是解析ajax加载的网页了,这里调用的next_half_parse函数,和解析前面一个网页一样,这里需要的注意的是,如果前面定义的数据没有搜索完毕是不能使用yield items的,必须将items通过meta传入下一个回调函数继续完善后才能yield items,这里就不需要了。

代码如下:

3、当然这里还用到了设置请求池,mysql存储,没有使用到ip代理,这个在我前面的博客中又讲到,这里就不再赘述了。

想看源代码的朋友请

点击这里 或者 本地下载

小技巧

人们会抱怨为什么自己的爬虫在中途断开就要重头开始爬,为什么不能从断开那里开始爬呢,这里提供一个方法:在配置文件settings.py中加入JOBDIR=file_name,这里的file_name是一个文件的名字 设置下载延迟防止被ban:DOWNLOAD_DELAY = 2:设置每一次的间隔时间 RANDOMIZE_DOWNLOAD_DELAY = True:这个是随机设置延迟时间 在设置的时间的0.5-1.5倍之间,这样可以更有效的防止被ban,一般是配套使用的 ROBOTSTXT_OBEY = False :这里是表示不遵循robots.txt文件,默认是True表示遵循,这里将之改成False CONCURRENT_REQUESTS :设置最大请求数,这里默认的时,我们可以根据自己电脑的配置改的大一点来加快请求的速度

总结

标签: python爬虫框架怎么画

本文链接地址:https://www.jiuchutong.com/biancheng/375557.html 转载请保留说明!

上一篇:python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

下一篇:Python处理PDF及生成多层PDF实例代码(python 数据处理 pdf)

  • 收到以前年度退所得税分录
  • 税法的分类都有什么
  • 其他权益工具影响哪些报表
  • 现金流量表利息费用怎么算
  • 无偿调入固定资产计提折旧吗
  • 上月发票错误退回怎么做账
  • 人员工资成本占收入多少合适,占总成本多少合适
  • 企业年金也需要缴纳吗
  • 预收货款存入银行分录
  • 承租方收到融资租赁款会计处理
  • 前期认证未抵扣
  • 预提返利的会计处理
  • 权益资本成本率计算
  • 计提工资会计科目怎么写
  • 税收楔子是什么意思
  • 网上勾选认证每月时间要求
  • 年终奖专项扣除
  • 进项税和销项税抵扣的会计分录
  • 汇总申报怎么申请
  • 商场收取商户违约金上什么税?
  • 融资租赁直租会查征信吗
  • 顶账的固定资产怎么入账
  • 3070和3070ti性能差多少
  • world超链接
  • 出口暂定关税
  • php 多维数组转换成字符串
  • 技嘉主板无法安装网卡驱动
  • php i
  • PHP:parse_ini_file()的用法_Filesystem函数
  • 专项基金设立
  • 安装windows(install windows)
  • python标准库在哪个目录
  • typescript .d.ts
  • 注册资本与注册资金、出资额的区别
  • 人民日报公共事件的报道问题
  • 购买金税盘的费用会计分录
  • 新法典离职
  • python多进程间通信
  • 外贸企业出口退税
  • 租赁吊车服务的利润大概有多少
  • 私车公用怎么办理手续
  • 以公司名义买500万的车省多少税
  • 应该免税的增值税是什么
  • 交车辆保险的车是什么车
  • 企业哪些行为可以避税
  • 工会经费和福利费绩效目标怎么写
  • 研发费用归集的主要范围有哪些
  • 发生销售退回账务处理
  • 专票红冲信息表填开显示红字信息表金额大于蓝色金额
  • 优惠的会计分录
  • 法院拍卖土地原欠税怎么办
  • 当月只有进项税额会计怎么做账
  • 企业给予第三方补贴
  • 固定资产计提折旧是当月还是次月
  • 购买材料如何做会计分录
  • 销售费属于期间费用
  • 公司网站维护费用计哪个科目
  • 购买商品发生的费用计入
  • 支票有效期过期了怎么办
  • sql语句优化的13种方法
  • 不在同一子网的ip
  • win10右下角弹出全屏截图
  • WIN10系统崩溃如何自救?
  • win7怎样关闭ie浏览器
  • centos6.8分区方案
  • win7共享文件设置
  • glColor3f影响纹理贴图 的思考
  • glslpe
  • 测试Qt Quick在各个平台上的3D渲染性能
  • nodejs v8
  • node用mongodb还是mysql好
  • shell 记录日志
  • js原生dialog
  • jquery获取点击的对象
  • 微信假消息
  • jquery audio
  • 安卓模拟器测试
  • 企业环境信用等级在哪里查询
  • 新土地管理法37条解释
  • 委托人全权代理
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设