位置: 编程技术 - 正文

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

编辑:rootadmin

推荐整理分享python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫框架哪个好,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架有哪些,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧。

代码详解

1、首先应该构造请求,这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般是用yield返回。

代码如下:

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

下面就是解析网页了,从上面看出这里的解析回调函数是parse_url,因此在此函数中解析网页。这里还是和上面说的一样,这个url得到的仅仅是前一半的信息,如果想要得到后一半的信息还有再次请求,这里还有注意的就是一个技巧:一般先解析出一个数据的数组,不急着取出第一个数,先要用if语句判断,因为如果得到的是[],那么直接取出[0]是会报错的,这只是一个避免报错的方法吧。

代码如下:

2、从上面代码的最后可以看出最后就是解析ajax加载的网页了,这里调用的next_half_parse函数,和解析前面一个网页一样,这里需要的注意的是,如果前面定义的数据没有搜索完毕是不能使用yield items的,必须将items通过meta传入下一个回调函数继续完善后才能yield items,这里就不需要了。

代码如下:

3、当然这里还用到了设置请求池,mysql存储,没有使用到ip代理,这个在我前面的博客中又讲到,这里就不再赘述了。

想看源代码的朋友请

点击这里 或者 本地下载

小技巧

人们会抱怨为什么自己的爬虫在中途断开就要重头开始爬,为什么不能从断开那里开始爬呢,这里提供一个方法:在配置文件settings.py中加入JOBDIR=file_name,这里的file_name是一个文件的名字 设置下载延迟防止被ban:DOWNLOAD_DELAY = 2:设置每一次的间隔时间 RANDOMIZE_DOWNLOAD_DELAY = True:这个是随机设置延迟时间 在设置的时间的0.5-1.5倍之间,这样可以更有效的防止被ban,一般是配套使用的 ROBOTSTXT_OBEY = False :这里是表示不遵循robots.txt文件,默认是True表示遵循,这里将之改成False CONCURRENT_REQUESTS :设置最大请求数,这里默认的时,我们可以根据自己电脑的配置改的大一点来加快请求的速度

总结

标签: python爬虫框架怎么画

本文链接地址:https://www.jiuchutong.com/biancheng/375557.html 转载请保留说明!

上一篇:python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

下一篇:Python处理PDF及生成多层PDF实例代码(python 数据处理 pdf)

  • 车险 保险金额
  • 买烟草可以开发票吗
  • 以前年度损益调整结转到哪里
  • 个人独资企业经营所得税税率表2023
  • 什么情况可以减免税收
  • 准予抵扣的消费税
  • 垃圾处理的公司有哪些
  • 并购重组资产怎么算
  • 差旅费包括哪些明细
  • 公司注销留抵税额税法规定
  • 未入账的记账凭证有误处理方法
  • 仓储业有哪些
  • 金税三期个人所得税税率
  • 红字发票怎么做帐
  • 税收缴款书怎么做凭证
  • 对公账户提取备用金可以每天提现嘛
  • 实际缴纳的增值税税额怎么算
  • 污水处理服务费用交印花税吗
  • 企业捐赠扣除
  • 出售股票公允价值变动损益
  • 小规模企业需要汇算清缴吗
  • 原材料损失分录
  • 现在还有短期投资这个科目吗
  • 使用本地账户登录什么意思
  • 如何防止程序被关闭
  • 如何在没有开瓶器的情况下开红酒
  • 华为mate50pro怎么读
  • linux运行后出现乱码
  • PHP:pg_send_query()的用法_PostgreSQL函数
  • hpc程序
  • moviemaker是什么软件
  • vue项目上线教程
  • 零售企业进货退税政策
  • framework架构
  • 购买电脑固定资产怎么记账
  • 个体经营所得税申报表a
  • 归还本金和利息的分录
  • 怎样安装∪sb
  • yolov5训练命令
  • 电梯维保越来越没搞头了
  • 增值税留抵税额计入什么科目
  • 企业在建工程领用原材料的会计分录
  • 契税属于哪种说法
  • python中dataframe的布尔过滤
  • 售后回购确认收入的时间
  • 经营结余是指事业单位在本年度经营活动
  • c#连接access数据库实例
  • 管理费用错账怎么处理
  • 捐赠做公益
  • 公对公转账货款是指往来款吗
  • 置换的房产如何操作
  • 员工工资怎么入账
  • 发票失控成本怎么算
  • 代扣代缴完税凭证只能次月抵扣吗
  • 固定资产清理账户借方的核算内容包括
  • xp系统怎么创建本地连接2
  • xp蓝屏事件
  • mac进入睡眠时间长
  • windows更新过程中
  • WZor曝光Win10专业版升级教育版的密钥 无法激活
  • linux文件系统的根目录的i节点号为
  • 安卓百分百
  • android开发环境安装步骤
  • 批处理常用命令总结
  • javascript中math.ceil
  • Node.js中的核心模块包括哪些内容?
  • jquery获取table的tr
  • 使用权资产
  • linux命令行常用操作
  • js如何获取cookie的值
  • jquery选择父级元素
  • javascript函数
  • 广州市税务局机构设置
  • 学什么专业可以在税务局上班
  • 保险赔款是免征还是不征?
  • 独生子女补贴和退休金一起发吗
  • 一次性收入多少要交个人所得税
  • 山东省合格考密码
  • 医疗发票真伪查询
  • 湖北国税发票手机查询
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设