位置: 编程技术 - 正文

python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

编辑:rootadmin

推荐整理分享python爬虫实战之爬取京东商城实例教程(python爬虫全套教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫例,python,爬虫,python 爬虫技术,python爬虫详解,python爬虫详解,python 爬虫,python爬虫100例,pythone爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧。

主要工具

scrapy BeautifulSoup requests

分析步骤

1、打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点

2、我们可以看到这个页面并不是完全的,当我们往下拉的时候将会看到图片在不停的加载,这就是ajax,但是当我们下拉到底的时候就会看到整个页面加载了条裤子的信息,我们打开chrome的调试工具,查找页面元素时可以看到每条裤子的信息都在<li class='gl-item'></li>这个标签中,如下图:

3、接着我们打开网页源码就会发现其实网页源码只有前条的数据,后面条的数据找不到,因此这里就会想到ajax,一种异步加载的方式,于是我们就要开始抓包了,我们打开chrome按F,点击上面的NetWork,然后点击XHR,这个比较容易好找,下面开始抓包,如下图:

python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

4、从上面可以找到请求的url,发现有很长的一大段,我们试着去掉一些看看可不可以打开,简化之后的url= install requests,代码如下:

2、根据上面的分析可以知道,第二步就是得到异步加载的url中的参数show_items,就是li标签中的data-pid,代码如下:

3、下面就是获取前张图片的url了,也就是主网页上的图片,其中一个问题是img标签的属性并不是一样的,也就是源码中的img中不都是src属性,一开始已经加载出来的图片就是src属性,但是没有加载出来的图片是data-lazy-img,因此在解析页面的时候要加上讨论。

代码如下:

前三十张图片找到了,现在开始找后三十张图片了,当然是要请求那个异步加载的url,前面已经把需要的参数给找到了,下面就好办了,直接贴代码:

4、通过上面就可以爬取了,但是还是要考虑速度的问题,这里我用了多线程,直接每一页面开启一个线程,速度还是可以的,感觉这个速度还是可以的,几分钟解决问题,总共爬取了个网页,这里的存储方式是mysql数据库存储的,要用发哦MySQLdb这个库,详情自己百度。

当然也可以用mogodb,但是还没有学呢,想要的源码的朋友请看下面:

一、GitHub源码

二、本地下载

拓展总结

写到这里可以看到搜索首页的网址中keyword和wq都是你输入的词,如果你想要爬取更多的信息,可以将这两个词改成你想要搜索的词即可,直接将汉字写上,在请求的时候会自动帮你编码的,我也试过了,可以抓取源码的,如果你想要不断的抓取,可以将要搜索的词写上文件里,然后从文件中读取就可以了。以上只是一个普通的爬虫,并没有用到什么框架,接下来将会写scrapy框架爬取的,请继续关注积木网哦!!!

好了,

标签: python爬虫全套教程

本文链接地址:https://www.jiuchutong.com/biancheng/375556.html 转载请保留说明!

上一篇:python中urllib.unquote乱码的原因与解决方法

下一篇:python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

  • 小规模纳税人销售额超过500万
  • 人力资源外包可以选择简易计税吗
  • 购入生产线属于固定资产吗
  • 电子税务局利润表本期金额
  • 纳税调整增加额和递延所得税资产
  • 金税盘清卡怎么统计税额
  • 小规模纳税人每个季度超过了30万怎么办
  • 分包部分也享受价格优惠
  • 小规模季度超过45万了怎么缴纳
  • 以应税消费品抵偿债务的计税依据
  • 销售自己使用过的物品
  • 资本溢价能不能退还股东呢
  • 折旧方法改变属于会计政策变更还是估计变更
  • 实物性投资资产
  • 买了税控盘还需要买打印机吗
  • 信用等级D可以贷款吗
  • 工程已完工又发生了成本怎么处理
  • 代理销售怎么记账
  • 资产相关的递延收益
  • 建筑行业外经证办理步骤
  • 统一社会信用代码查询官网
  • 出口退税两单两票
  • 个税申报系统的备份保留几份数据
  • 分期收款所得税收入确认多少
  • h3c路由配置教程
  • 把快速打开
  • 员工两处取得的荣誉
  • 进项税额转出是负数是什么意思
  • 把原材料给别人加工怎么入账
  • 支付费用没有发票怎么做账务处理
  • js时间格式转换时间戳
  • sentstrt.exe - sentstrt进程是什么文件 有什么用
  • 固定资产抵债交不交增值税
  • 债务担保是什么意思
  • 企业为员工提供服务要交增值税吗
  • 季度申报怎样在网上申报
  • 暂估入库的商品含税吗
  • 物流公司主营业务怎么写
  • 土地增值税可以抵扣吗
  • 帝国cms视频教程
  • java第一步
  • 用vue-cli搭建项目
  • php网站根目录
  • 小企业会计准则主要按照什么计量
  • 有材料成本差异率怎么算材料成本差异
  • 销货清单是否必须备案
  • mysql的lsn
  • 在建工程账务怎么会转到预收账款
  • 企业付的房租税费会计分录
  • 本月记账之前是不是要结转上月
  • 个人转让著作权免征增值税判断题
  • 季度报税都是几月份
  • 收购企业如何做账
  • 如何调整去年的账
  • 子公司自购买日开始持续计算的可辨认净资产的公允价值
  • 进项税额转出再转入
  • 手撕定额发票可以抵扣吗
  • 商场水电费应该由谁承担
  • 公司房租没有发票不入账税务怎么处理
  • 票据的提示承兑期限是什么意思
  • gwservice进程
  • winxp如何将桌面文件默认到d盘
  • win1021h2正式版
  • 网站出现问题怎么办
  • android viewpager嵌套viewpager
  • div与span区别及用法
  • html中的表格
  • 深入php面向对象、模式与实践第5版 电子书
  • 浏览器app测试要点
  • linux shell脚本攻略(第3版)
  • js模拟实现new
  • Unity Enemy behaviour
  • 安卓手机管家
  • js获取父窗口
  • 整理的什么
  • 个人所得税app怎么更改手机号码
  • 湖北省税务局官网电话
  • 广西税务局客服电话时间
  • 税务核查主要核算内容
  • 外地人在秦皇岛买房
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设