位置: 编程技术 - 正文

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

编辑:rootadmin

推荐整理分享python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫框架哪个好,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架排行榜,python爬虫框架scrapy教程,python爬虫框架有哪些,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

之前的一篇文章已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普通篇,本文将详细介绍利用python爬虫框架scrapy如何爬取京东商城,下面话不多说了,来看看详细的介绍吧。

代码详解

1、首先应该构造请求,这里使用scrapy.Request,这个方法默认调用的是start_urls构造请求,如果要改变默认的请求,那么必须重载该方法,这个方法的返回值必须是一个可迭代的对象,一般是用yield返回。

代码如下:

python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

下面就是解析网页了,从上面看出这里的解析回调函数是parse_url,因此在此函数中解析网页。这里还是和上面说的一样,这个url得到的仅仅是前一半的信息,如果想要得到后一半的信息还有再次请求,这里还有注意的就是一个技巧:一般先解析出一个数据的数组,不急着取出第一个数,先要用if语句判断,因为如果得到的是[],那么直接取出[0]是会报错的,这只是一个避免报错的方法吧。

代码如下:

2、从上面代码的最后可以看出最后就是解析ajax加载的网页了,这里调用的next_half_parse函数,和解析前面一个网页一样,这里需要的注意的是,如果前面定义的数据没有搜索完毕是不能使用yield items的,必须将items通过meta传入下一个回调函数继续完善后才能yield items,这里就不需要了。

代码如下:

3、当然这里还用到了设置请求池,mysql存储,没有使用到ip代理,这个在我前面的博客中又讲到,这里就不再赘述了。

想看源代码的朋友请

点击这里 或者 本地下载

小技巧

人们会抱怨为什么自己的爬虫在中途断开就要重头开始爬,为什么不能从断开那里开始爬呢,这里提供一个方法:在配置文件settings.py中加入JOBDIR=file_name,这里的file_name是一个文件的名字 设置下载延迟防止被ban:DOWNLOAD_DELAY = 2:设置每一次的间隔时间 RANDOMIZE_DOWNLOAD_DELAY = True:这个是随机设置延迟时间 在设置的时间的0.5-1.5倍之间,这样可以更有效的防止被ban,一般是配套使用的 ROBOTSTXT_OBEY = False :这里是表示不遵循robots.txt文件,默认是True表示遵循,这里将之改成False CONCURRENT_REQUESTS :设置最大请求数,这里默认的时,我们可以根据自己电脑的配置改的大一点来加快请求的速度

总结

标签: python爬虫框架怎么画

本文链接地址:https://www.jiuchutong.com/biancheng/375557.html 转载请保留说明!

上一篇:python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

下一篇:Python处理PDF及生成多层PDF实例代码(python 数据处理 pdf)

  • 增值税减免税申报明细表举例
  • 兼职劳务报酬需要发票吗
  • 未收回的货款是企业资产吗
  • 企业总资产是否包含累积折旧
  • 计提存货减值准备怎么算
  • 银行付款的会计怎么做账
  • 出租固定资产取得的租金收入属于什么收入
  • 年终奖有计算公式吗
  • 补偿性余额利息的计算公式
  • 以前年度损益调整科目怎么用
  • 上年度的印花税怎么计算
  • 企业自建房转让如何交土地增值税
  • 应交税费应交增值税
  • 企业所得税按季预缴怎么算
  • 增值税纳税表销售额的填写
  • 小微企业资质证书
  • 车辆租赁的增值税率
  • 免租要怎么交税
  • 前期物业管理公司
  • 固定资产一次性扣除账务处理
  • 内部存货交易的抵消分录例题讲解
  • 银行代扣社保费
  • 股东收回投资款的现金流量
  • 公司增加注册资金需要实缴吗
  • win7系统怎么进
  • mac怎么传文件到百度网盘上
  • msconfig配置文件修改
  • 域名停靠是病毒吗
  • PHP:pg_field_type()的用法_PostgreSQL函数
  • 按实际成本结转6日和7日的材料采购成本
  • 集团公司内部结构是什么
  • 无偿赠送增值税问题
  • yolov5tiny
  • 报销单跨月怎么记账
  • 研发支出属于什么类科目
  • 应收票据包括哪些项目内容
  • 小规模纳税人怎么核定税种
  • 收到进项税发票
  • 小规模纳税人的增值税账务处理
  • 自建厂房折旧算制造费用吗
  • 保险公司作为奖金怎么算
  • 应付劳务费怎么做账
  • 增值税进项税额转出的情况有哪些
  • 企业选择的短期调整
  • 生产成本如何结转
  • 固定资产减值核销
  • 对公收费明细入账是手续费吗
  • 跨年度冲红字发票账务处理
  • 收到房租租金下什么科目
  • 免抵税额什么意思
  • 企业的管理人员应该是互补型
  • 查看mysql执行sql日志内容
  • win101909激活
  • win8系统没有无线网络连接
  • vista下实现秘密下载的解决办法
  • 64位Vista、Windows7系统IIS连接数据库故障完美解决
  • ubuntu没有wlan0
  • mscorsvw.exe是什么进程
  • ftp 550错误
  • 如何进入win10安装界面
  • msqry32.exe进程是什么文件 作用是什么 msqry32进程查询
  • js调用音频文件
  • plugin怎么安装
  • bat批处理命令大全
  • 了不起的女孩
  • python 文件头
  • 一块钱买的鱼多久换一次水
  • js定义json对象
  • python数据连接
  • md5加密python
  • 延时加载js文件
  • python能不能开发微信小程序
  • 广西地方税务网站官网
  • 上海自贸区税务大厅地址
  • 皖事通新农合缴费征收方式是什么?
  • 未到申报期可以提前抄税吗
  • 广西纳税申报流程
  • 建筑企业应如何选择适用的质量体系标准
  • 煤矸石征收资源税吗
  • 高山白茶和普通白茶的区别
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设