位置: 编程技术 - 正文

python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

编辑:rootadmin

推荐整理分享python爬虫实战之爬取京东商城实例教程(python爬虫全套教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫例,python,爬虫,python 爬虫技术,python爬虫详解,python爬虫详解,python 爬虫,python爬虫100例,pythone爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧。

主要工具

scrapy BeautifulSoup requests

分析步骤

1、打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点

2、我们可以看到这个页面并不是完全的,当我们往下拉的时候将会看到图片在不停的加载,这就是ajax,但是当我们下拉到底的时候就会看到整个页面加载了条裤子的信息,我们打开chrome的调试工具,查找页面元素时可以看到每条裤子的信息都在<li class='gl-item'></li>这个标签中,如下图:

3、接着我们打开网页源码就会发现其实网页源码只有前条的数据,后面条的数据找不到,因此这里就会想到ajax,一种异步加载的方式,于是我们就要开始抓包了,我们打开chrome按F,点击上面的NetWork,然后点击XHR,这个比较容易好找,下面开始抓包,如下图:

python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

4、从上面可以找到请求的url,发现有很长的一大段,我们试着去掉一些看看可不可以打开,简化之后的url= install requests,代码如下:

2、根据上面的分析可以知道,第二步就是得到异步加载的url中的参数show_items,就是li标签中的data-pid,代码如下:

3、下面就是获取前张图片的url了,也就是主网页上的图片,其中一个问题是img标签的属性并不是一样的,也就是源码中的img中不都是src属性,一开始已经加载出来的图片就是src属性,但是没有加载出来的图片是data-lazy-img,因此在解析页面的时候要加上讨论。

代码如下:

前三十张图片找到了,现在开始找后三十张图片了,当然是要请求那个异步加载的url,前面已经把需要的参数给找到了,下面就好办了,直接贴代码:

4、通过上面就可以爬取了,但是还是要考虑速度的问题,这里我用了多线程,直接每一页面开启一个线程,速度还是可以的,感觉这个速度还是可以的,几分钟解决问题,总共爬取了个网页,这里的存储方式是mysql数据库存储的,要用发哦MySQLdb这个库,详情自己百度。

当然也可以用mogodb,但是还没有学呢,想要的源码的朋友请看下面:

一、GitHub源码

二、本地下载

拓展总结

写到这里可以看到搜索首页的网址中keyword和wq都是你输入的词,如果你想要爬取更多的信息,可以将这两个词改成你想要搜索的词即可,直接将汉字写上,在请求的时候会自动帮你编码的,我也试过了,可以抓取源码的,如果你想要不断的抓取,可以将要搜索的词写上文件里,然后从文件中读取就可以了。以上只是一个普通的爬虫,并没有用到什么框架,接下来将会写scrapy框架爬取的,请继续关注积木网哦!!!

好了,

标签: python爬虫全套教程

本文链接地址:https://www.jiuchutong.com/biancheng/375556.html 转载请保留说明!

上一篇:python中urllib.unquote乱码的原因与解决方法

下一篇:python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

  • 税控盘开票软件访问数据库错误
  • 综合税率的计算方法是什么
  • 耕地占用税的税目
  • 借贷利息怎么算
  • 兼职人员的差旅费怎么算
  • 总分机构是什么
  • 缴纳的增值税在资产负债表中怎么体现
  • 购进库存商品到销售全部分录
  • 成品出库单模板表格制作
  • 核定征收企业怎么分红的
  • 商业银行委托贷款期限
  • 转让土地使用权怎么交增值税
  • 汇兑损益在外币业务核算中有什么重要意义
  • 主营业务收入借增贷减
  • 快递售后是干嘛的
  • 合资公司51%股东的权限
  • 上海航交所官网
  • 房产赠与税如何征收2021
  • 贷款能不能开发票
  • 专票丢了可以拿复印件在所得税前列支吗
  • 孵化器虚拟地址多少钱一个啊
  • 绿植租赁公司都适合什么名字
  • 开了红字发票税额已经缴纳怎么做账?
  • 计提长期借款利息会计分录
  • 累计折旧是备抵类科目吗
  • 两个帐套合并为一个
  • 购入商品款项尚未入库
  • 劳务公司差额发票账务处理
  • 大学食堂外包的优点与缺点
  • 一般纳税人兼营不同税率的货物或应税劳务
  • 极路由好用吗
  • 主营业务收入科目应按什么进行明细核算
  • 职工教育经费培训费扣除比例
  • 使用的磁盘空间在哪
  • 修改组策略后需要重启吗
  • 对公账户收款
  • php注释的主要作用是什么?
  • 男人喜欢什么样的女人最容易动心
  • 高新技术产业的税收优惠
  • laravel引入css
  • 固定资产清理的会计科目处理
  • vue优化方案
  • 库存现金盘亏盘盈
  • 货运代理约柜费怎么算
  • 办理车辆购置税流程
  • 刚开始考会计证有用吗
  • java公平锁有哪些
  • 社会团体会费票据查询
  • 累计净值是怎么计算的
  • 营改增后房屋租赁税变化
  • 土地出让金抵减增值税申报怎么填
  • 小规模减免的增值税要交所得税吗
  • 印花税征收范围口诀
  • 支付水电费会计
  • 本年度发票一定要收回吗
  • 销售折让的会计分录怎么做
  • 怎么取最大值函数
  • 期末没有结账成本怎么办
  • 小微企业应交增值税如何记账
  • 小规模商贸公司没有进项票怎么办
  • 购买维修费怎么做分录
  • xp系统好怪哦
  • 英特尔双核cpu
  • 通过扣缴义务人申报和综合所得年度自行申报
  • win8系统本地连接在哪
  • u盘 macbook
  • xp系统优化软件哪个好
  • win8设备安装
  • linux 中的MYSQL命令汇总 适合学习linux下配置mysql的朋友
  • android studio 新建项目只有.idea文件
  • 安卓手机wifi界面
  • 如何用unity
  • vue动态路由传参
  • javascript还有人用吗
  • python查找字符串中指定字符的个数
  • 详解各种汽油一吨等于多少升
  • javascript word
  • 税务机关党建动员大会
  • 水利建设基金的计提与会计处理
  • 代理业如何缴纳印花税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设