位置: 编程技术 - 正文

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

编辑:rootadmin

推荐整理分享python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫框架哪个好,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架有哪些,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧。

代码详解

1、首先应该构造请求,这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般是用yield返回。

代码如下:

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

下面就是解析网页了,从上面看出这里的解析回调函数是parse_url,因此在此函数中解析网页。这里还是和上面说的一样,这个url得到的仅仅是前一半的信息,如果想要得到后一半的信息还有再次请求,这里还有注意的就是一个技巧:一般先解析出一个数据的数组,不急着取出第一个数,先要用if语句判断,因为如果得到的是[],那么直接取出[0]是会报错的,这只是一个避免报错的方法吧。

代码如下:

2、从上面代码的最后可以看出最后就是解析ajax加载的网页了,这里调用的next_half_parse函数,和解析前面一个网页一样,这里需要的注意的是,如果前面定义的数据没有搜索完毕是不能使用yield items的,必须将items通过meta传入下一个回调函数继续完善后才能yield items,这里就不需要了。

代码如下:

3、当然这里还用到了设置请求池,mysql存储,没有使用到ip代理,这个在我前面的博客中又讲到,这里就不再赘述了。

想看源代码的朋友请

点击这里 或者 本地下载

小技巧

人们会抱怨为什么自己的爬虫在中途断开就要重头开始爬,为什么不能从断开那里开始爬呢,这里提供一个方法:在配置文件settings.py中加入JOBDIR=file_name,这里的file_name是一个文件的名字 设置下载延迟防止被ban:DOWNLOAD_DELAY = 2:设置每一次的间隔时间 RANDOMIZE_DOWNLOAD_DELAY = True:这个是随机设置延迟时间 在设置的时间的0.5-1.5倍之间,这样可以更有效的防止被ban,一般是配套使用的 ROBOTSTXT_OBEY = False :这里是表示不遵循robots.txt文件,默认是True表示遵循,这里将之改成False CONCURRENT_REQUESTS :设置最大请求数,这里默认的时,我们可以根据自己电脑的配置改的大一点来加快请求的速度

总结

标签: python爬虫框架怎么画

本文链接地址:https://www.jiuchutong.com/biancheng/375557.html 转载请保留说明!

上一篇:python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

下一篇:Python处理PDF及生成多层PDF实例代码(python 数据处理 pdf)

  • 计提利息要计提手续费吗
  • 电子承兑汇票兑现
  • 农产品普通发票抵扣政策
  • 开发成本属于什么类账户
  • 5月工资按多少天算
  • 防伪税控发票
  • 发票过期了还能抵扣吗
  • 工程造价咨询服务流程
  • 社保补贴收入要交税吗?
  • 收到科技局的补贴短信
  • 企业赞助学校发言稿
  • 销售加工费怎么做账务处理
  • 材料货款会计分录怎么做
  • 工资扣款的规定
  • 代扣代缴个人所得税计入哪个科目
  • 香港公司在大陆设立子公司
  • 小规模纳税人如何转一般纳税人
  • 100万的收入要交多少
  • 汇算清缴补交的税怎么做凭证
  • 发票超过标准可以报销吗
  • 对方公司破产债务怎么办
  • 公司借出的私人物品
  • 能抵扣税款的发票有哪些
  • 资本公积转增实收资本个人所得税
  • 用户登录系统后首先进入什么
  • Mac怎么更改锁屏密码
  • 戴尔笔记本电脑哪款性价比最高
  • 股东大会的召集有权
  • 公司收到拆迁补偿款要交税吗
  • php中的header函数
  • 没有桌面和任务栏怎么办
  • 空调拆卸安装怎么找师傅
  • 进货返利怎么入账
  • 退休后工作单位填什么内容
  • vue自定义弹窗带有遮罩层
  • Yii2表单事件之Ajax提交实现方法
  • php支持断点续传吗
  • python自动化selenium
  • 基于Perclos&改进YOLOv7的疲劳驾驶DMS检测系统(源码&教程)
  • win11系统中怎样调整office底色
  • Laravel5权限管理方法详解
  • 工程物资发生报废损毁
  • 织梦官网
  • 损益类账户期末有余额吗
  • sql 文件存储
  • 企业增值税的计算
  • 建筑行业旧项目怎么处理
  • 简易计税方法的适用范围
  • 坏账准备需要计提增值税吗
  • 公司买车抵税最新政策2022购置税减半享受不?
  • 私车公用属于违反什么纪律
  • 预付账款期末可能有余额吗
  • 长期应付账款是什么
  • 投资性房地产抵债怎么做账务处理
  • 没有收入是纳税人吗
  • 一般纳税人外地预缴税款怎么做分录
  • 收购 发票
  • 企业的支出包括( )支出
  • 会计可以用收据做账吗
  • freebsd默认账户密码
  • win10一直弹werfault,程序也打不开
  • 无法登录所请求的数据库 用户sa登录失败
  • Windows7忘记开机密码一键还原
  • linux设置环境变量的命令
  • windows7软件卸载
  • jquery.parsejson
  • 手机摇一摇插件
  • unity3d性能优化工具
  • javascriptz
  • jquery 是否显示
  • python切片菜鸟教程
  • 用python简单代码
  • input checked选择
  • python 命令
  • jQuery+ajax实现滚动到页面底部自动加载图文列表效果(类似图片懒加载)
  • 建筑劳务个人所得税申报
  • 南京国民政府统治和开辟革命新道路
  • 如何计算土地增值税税率
  • 税票电话号码变更影响抵扣吗
  • 江苏税务实名认证怎么更改
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设