位置: 编程技术 - 正文

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

编辑:rootadmin

推荐整理分享python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫框架哪个好,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架有哪些,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧。

代码详解

1、首先应该构造请求,这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般是用yield返回。

代码如下:

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

下面就是解析网页了,从上面看出这里的解析回调函数是parse_url,因此在此函数中解析网页。这里还是和上面说的一样,这个url得到的仅仅是前一半的信息,如果想要得到后一半的信息还有再次请求,这里还有注意的就是一个技巧:一般先解析出一个数据的数组,不急着取出第一个数,先要用if语句判断,因为如果得到的是[],那么直接取出[0]是会报错的,这只是一个避免报错的方法吧。

代码如下:

2、从上面代码的最后可以看出最后就是解析ajax加载的网页了,这里调用的next_half_parse函数,和解析前面一个网页一样,这里需要的注意的是,如果前面定义的数据没有搜索完毕是不能使用yield items的,必须将items通过meta传入下一个回调函数继续完善后才能yield items,这里就不需要了。

代码如下:

3、当然这里还用到了设置请求池,mysql存储,没有使用到ip代理,这个在我前面的博客中又讲到,这里就不再赘述了。

想看源代码的朋友请

点击这里 或者 本地下载

小技巧

人们会抱怨为什么自己的爬虫在中途断开就要重头开始爬,为什么不能从断开那里开始爬呢,这里提供一个方法:在配置文件settings.py中加入JOBDIR=file_name,这里的file_name是一个文件的名字 设置下载延迟防止被ban:DOWNLOAD_DELAY = 2:设置每一次的间隔时间 RANDOMIZE_DOWNLOAD_DELAY = True:这个是随机设置延迟时间 在设置的时间的0.5-1.5倍之间,这样可以更有效的防止被ban,一般是配套使用的 ROBOTSTXT_OBEY = False :这里是表示不遵循robots.txt文件,默认是True表示遵循,这里将之改成False CONCURRENT_REQUESTS :设置最大请求数,这里默认的时,我们可以根据自己电脑的配置改的大一点来加快请求的速度

总结

标签: python爬虫框架怎么画

本文链接地址:https://www.jiuchutong.com/biancheng/375557.html 转载请保留说明!

上一篇:python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

下一篇:Python处理PDF及生成多层PDF实例代码(python 数据处理 pdf)

  • 未确认融资费用怎么算
  • 缴纳印花税的会计凭证
  • 合并报表是把资产负债表相加吗
  • 个人所得税减除费用6万元什么意思
  • 成本占收入比重分析
  • 科技公司的作用
  • 合同一方按手印另一方没按有效吗
  • 环保公司开具发票怎么开
  • 专项拨款形成的固定资产递延收益
  • 补缴的公积金可以抵扣个税吗
  • 股票投资收益需要缴纳增值税吗
  • 年底收到发票未付款怎么做账
  • 车辆租赁合同印花税怎么算
  • 地税评为d级纳税人是指
  • 案例分析关于拟建科学馆的请示报告
  • 公司一季度报表一般是什么时候出
  • 增值税进项抵扣完了还上附加税吗
  • 出租柜台收取的服务费
  • 合伙企业个人所得税计算案例
  • fontcreator字间距
  • 长期待摊费用摊销明细表
  • 苹果推送改不掉三全音
  • 修改hosts文件的软件
  • 安卓手机数据迁移到红米手机
  • php数组函数大全
  • 企业收到政府出资款交增值税
  • laravel中的session有效期
  • php统计中文长度
  • 火遍全网的超燃神曲旋律震撼人心,听完热血沸腾!
  • css中文字垂直排列
  • 端午假期干什么
  • gpib-usb驱动
  • 总公司如何成立子公司
  • 公司收不到的账款而发不出去怎么办
  • 土地出让金相关政策
  • 金蝶做账流程视频
  • 总分类账户余额表怎么做账
  • sql server基本知识
  • 投资性房地产累计摊销
  • 零申报是怎么回事
  • 不征税收入怎么做会计分录
  • 接受母公司捐赠现金分录
  • 新冠捐款捐物新闻
  • 收到预付卡的发票是否可以报销呢?
  • 开会旅游的费用是多少
  • 快递公司结算员能学到财务知识吗
  • 购买材料没开票怎么做账
  • 应付利润科目
  • 无形资产摊销费怎么算
  • 新公司要建哪些项目
  • sql to sqlalchemy 转换的小例子
  • centos安装NVIDIA驱动
  • 微软正在准备windows
  • 机箱前面板是哪里
  • linux怎么用命令
  • android x86 4.0 iso
  • thinkpad预装的office怎么激活
  • wp程序
  • sxs.exe病毒
  • 在linux中安装软件
  • RadioSvr.EXE - RadioSvr是什么进程 有什么用
  • win7系统如何设置
  • 升级win8.1后vpn出现错误720该怎么办?
  • win8怎么恢复出厂设置找不到恢复环境
  • unity3d初学者教程视频
  • jquery三种遍历方法
  • 网站备份工具
  • android设置背景颜色代码
  • cmd新建
  • 自定义progressbar
  • androidstudio安装gradle不成功
  • 地税网上预约
  • 松原江北小吃一条街
  • 税务系统电子发票的详细步骤
  • 个体办税控盘需要什么材料
  • 甘肃税务局电子税务局官网
  • 浙江摩托车上牌条件
  • 地税局公务员工作内容
  • 青岛振兴税务师招聘
  • 退回多扣的个人所得税会计分录
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设