位置: 编程技术 - 正文

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

编辑:rootadmin

推荐整理分享python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫框架哪个好,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架有哪些,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧。

代码详解

1、首先应该构造请求,这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般是用yield返回。

代码如下:

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

下面就是解析网页了,从上面看出这里的解析回调函数是parse_url,因此在此函数中解析网页。这里还是和上面说的一样,这个url得到的仅仅是前一半的信息,如果想要得到后一半的信息还有再次请求,这里还有注意的就是一个技巧:一般先解析出一个数据的数组,不急着取出第一个数,先要用if语句判断,因为如果得到的是[],那么直接取出[0]是会报错的,这只是一个避免报错的方法吧。

代码如下:

2、从上面代码的最后可以看出最后就是解析ajax加载的网页了,这里调用的next_half_parse函数,和解析前面一个网页一样,这里需要的注意的是,如果前面定义的数据没有搜索完毕是不能使用yield items的,必须将items通过meta传入下一个回调函数继续完善后才能yield items,这里就不需要了。

代码如下:

3、当然这里还用到了设置请求池,mysql存储,没有使用到ip代理,这个在我前面的博客中又讲到,这里就不再赘述了。

想看源代码的朋友请

点击这里 或者 本地下载

小技巧

人们会抱怨为什么自己的爬虫在中途断开就要重头开始爬,为什么不能从断开那里开始爬呢,这里提供一个方法:在配置文件settings.py中加入JOBDIR=file_name,这里的file_name是一个文件的名字 设置下载延迟防止被ban:DOWNLOAD_DELAY = 2:设置每一次的间隔时间 RANDOMIZE_DOWNLOAD_DELAY = True:这个是随机设置延迟时间 在设置的时间的0.5-1.5倍之间,这样可以更有效的防止被ban,一般是配套使用的 ROBOTSTXT_OBEY = False :这里是表示不遵循robots.txt文件,默认是True表示遵循,这里将之改成False CONCURRENT_REQUESTS :设置最大请求数,这里默认的时,我们可以根据自己电脑的配置改的大一点来加快请求的速度

总结

标签: python爬虫框架怎么画

本文链接地址:https://www.jiuchutong.com/biancheng/375557.html 转载请保留说明!

上一篇:python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

下一篇:Python处理PDF及生成多层PDF实例代码(python 数据处理 pdf)

  • 党建经费的标准
  • 车船税和保险在一起怎么报销
  • 土地使用权出让金多少钱一平米
  • 收到退款如何做账
  • 事业单位大型修缮会计分录
  • 收到美元货款兑换人民币流程
  • 有关税收的征收管理规定介绍
  • 企业税收负担率一般达到多少算正常
  • 建筑企业无票支出如何处理
  • 期间费用燃油费计入哪个项目?
  • 劳务成本月底有余额吗
  • 哪些电子发票可以没有发票章
  • 以存货对外投资,现金流量表
  • 联想笔记本bios密码忘记了
  • 实收资本或股本账户属于企业的什么账
  • 王者荣耀段位分段
  • 生产企业出口退税全部流程
  • hyper-v虚拟机中重置虚拟机是什么意思
  • vagrant 安装centos7
  • 劳务费支出会计处理
  • 购买股票的会计分录
  • Win11 Build 22000.348更新补丁KB5007262预览版发布(附更新修复内容汇总)
  • windows 11 build 21996.1 dev
  • 旅游 服务业
  • php读取txt文件内容
  • echartx轴刻度设置
  • 支付宝提现到对公账户怎么做账
  • 报表重分类和不重分类
  • 人工智能的几个发展阶段
  • 云服务器 chia
  • win11装双系统虚拟机mac
  • 未分配利润是负数是亏损吗
  • 固定资产多少金额才算
  • 营业外收入在现金流量表中填入哪列
  • 织梦添加文章如何修改高级参数
  • 公司车辆退保进哪个科目
  • db2 -x
  • 公司股东向银行货款,与私人财产有没有关系
  • 原材料暂估入库分录
  • 以土地使用权投资入股是否缴纳增值税
  • 房租已付未收发票可以待摊费用吗
  • 税金及附加核算哪些税费
  • 外购商品用于赠送进项税可以抵扣吗
  • 研发支出的会计处理原则
  • 贷款服务的利息怎么算
  • 装修公司开劳务发票会被罚款吗
  • 递延所得税转回税率不一致
  • 房地产实收资本怎么算
  • 工资条上为什么不显示生育险
  • 固定资产暂估入账的税务处理
  • 公司发放工资的形式
  • sql server 2019自定义安装教程
  • 通过T-SQL语句实现数据库备份与还原的代码
  • windows 配置
  • windows2003远程连接
  • linux编译步骤
  • win7 重装系统
  • win10设置设备
  • 微软的定时炸弹就是Windows XP
  • fsm32.exe是什么进程 有什么作用 fsm32进程查询
  • 麒麟linux系统怎么安装软件
  • jquery和原生js性能
  • 安卓手机屏幕不好使了怎么办
  • 批处理修改文件名称
  • opengl房子建模
  • linux 映射 fn键
  • Python装饰器实现几类验证功能做法实例
  • unity火球特效
  • javascript编写函数
  • node.js详解
  • jquery仿淘宝商品详情页
  • node.js mysql
  • shell变量作用范围
  • JavaScript中的数据类型
  • javascript的
  • javascript要怎么学
  • 安卓设备分辨率查看
  • Android java.lang.IllegalArgumentException: pointerIndex out of range
  • javascript var
  • 文山市税务
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设