位置: 编程技术 - 正文

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

编辑:rootadmin

推荐整理分享python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫框架哪个好,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架有哪些,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧。

代码详解

1、首先应该构造请求,这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般是用yield返回。

代码如下:

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

下面就是解析网页了,从上面看出这里的解析回调函数是parse_url,因此在此函数中解析网页。这里还是和上面说的一样,这个url得到的仅仅是前一半的信息,如果想要得到后一半的信息还有再次请求,这里还有注意的就是一个技巧:一般先解析出一个数据的数组,不急着取出第一个数,先要用if语句判断,因为如果得到的是[],那么直接取出[0]是会报错的,这只是一个避免报错的方法吧。

代码如下:

2、从上面代码的最后可以看出最后就是解析ajax加载的网页了,这里调用的next_half_parse函数,和解析前面一个网页一样,这里需要的注意的是,如果前面定义的数据没有搜索完毕是不能使用yield items的,必须将items通过meta传入下一个回调函数继续完善后才能yield items,这里就不需要了。

代码如下:

3、当然这里还用到了设置请求池,mysql存储,没有使用到ip代理,这个在我前面的博客中又讲到,这里就不再赘述了。

想看源代码的朋友请

点击这里 或者 本地下载

小技巧

人们会抱怨为什么自己的爬虫在中途断开就要重头开始爬,为什么不能从断开那里开始爬呢,这里提供一个方法:在配置文件settings.py中加入JOBDIR=file_name,这里的file_name是一个文件的名字 设置下载延迟防止被ban:DOWNLOAD_DELAY = 2:设置每一次的间隔时间 RANDOMIZE_DOWNLOAD_DELAY = True:这个是随机设置延迟时间 在设置的时间的0.5-1.5倍之间,这样可以更有效的防止被ban,一般是配套使用的 ROBOTSTXT_OBEY = False :这里是表示不遵循robots.txt文件,默认是True表示遵循,这里将之改成False CONCURRENT_REQUESTS :设置最大请求数,这里默认的时,我们可以根据自己电脑的配置改的大一点来加快请求的速度

总结

标签: python爬虫框架怎么画

本文链接地址:https://www.jiuchutong.com/biancheng/375557.html 转载请保留说明!

上一篇:python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

下一篇:Python处理PDF及生成多层PDF实例代码(python 数据处理 pdf)

  • 公司利润税怎么交
  • 中央空调折旧年限是多久
  • 施工单位开具发票税务税率
  • 建筑施工企业存货是未结转的成本对吗
  • 小企业无形资产取得的账务处理
  • 专票只有抵扣联发票联丢失怎么办
  • 商业承兑汇票有风险吗
  • 提取法定盈余公积金会计分录
  • 商贸公司购买的手提袋怎么入账
  • 期货交易所手续费2023
  • 购销合同印花税怎么算
  • 价内税和价外税名词解释
  • 电费票子丢了怎么办
  • 当期应税销售收入是含税还是不含税
  • 中国人民银行保险公司
  • 营增改的四大“增效剂”
  • 上年多计提附加税调整了,今年怎么调整
  • 以前年度城建税减免可以计去营业外收入嘛
  • 外购软件可以加计扣除吗
  • 成本利润率的计算公式中,成本费用总额包括
  • 固定资产用于免税项目 进项税处理
  • 银行对账单不平衡
  • 收到负数购入发票怎么办
  • 企业公示啥意思
  • 苹果手机移动到新手机
  • 各种linux
  • 项目不可用怎么解决
  • scdeploy.exe
  • 支付押金无法收取怎么办
  • 增值税的计税依据包括契税吗
  • php7.3安装
  • 进货发票怎么抵税
  • aes-ecb和aes-gcm
  • php将数据导出到excel
  • 顺流交易合并抵消
  • php gd gd2
  • 自己组装产品再卖掉
  • 流动资产金额
  • stable Diffusion安装教程
  • 微信h5页面设计
  • echarts柱状图坐标轴
  • 缴纳税款滞纳金会计处理
  • 企业所得税季报资产总额怎么填
  • 贷款为什么要把车过户给别人
  • 帝国cms如何搭建的
  • js怎么执行函数
  • sql server中数据文件的扩展名是
  • 电子承兑汇票贴现怎么操作
  • 关于进项票少的解决方案
  • 什么情况下核定应纳税额
  • 增值税一般纳税人企业对同属于增值税
  • 数据库用户名称
  • 公司收取保证金合法吗
  • 会计税法的差异
  • 增值税预缴的计税依据
  • 社保退回的款怎么入账
  • 职工教育经费能开专票吗
  • 留样产品的保存期限
  • 如果找国外客户
  • 结算本月应付职工工资,其中生产工人工资8000元
  • 酒店房间消耗品成本
  • 分配利润给股东公司需要交税吗
  • 企业开办费计入什么科目
  • MSSQL 2005/2008 日志压缩清理方法小结
  • mysql存储过程的语句块以什么开始以什么结束
  • 进去界面黑屏
  • 观察者模式指令
  • 很不错的成语
  • CCClippingNode导致的贴图错误问题
  • ntp配置详解
  • shell脚本解压tar文件
  • css中显示
  • 简单谈谈你对公安工作的认识
  • android开发—01开发环境的搭建
  • 安卓端测试
  • Java如何获得集合里的元素
  • androidapk网站
  • python中txt文件的读写
  • 关于保安公司词语
  • 传统服务贸易和新兴服务贸易如何区分
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设