位置: 编程技术 - 正文

python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

编辑:rootadmin

推荐整理分享python爬虫实战之爬取京东商城实例教程(python爬虫全套教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫例,python,爬虫,python 爬虫技术,python爬虫详解,python爬虫详解,python 爬虫,python爬虫100例,pythone爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧。

主要工具

scrapy BeautifulSoup requests

分析步骤

1、打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点

2、我们可以看到这个页面并不是完全的,当我们往下拉的时候将会看到图片在不停的加载,这就是ajax,但是当我们下拉到底的时候就会看到整个页面加载了条裤子的信息,我们打开chrome的调试工具,查找页面元素时可以看到每条裤子的信息都在<li class='gl-item'></li>这个标签中,如下图:

3、接着我们打开网页源码就会发现其实网页源码只有前条的数据,后面条的数据找不到,因此这里就会想到ajax,一种异步加载的方式,于是我们就要开始抓包了,我们打开chrome按F,点击上面的NetWork,然后点击XHR,这个比较容易好找,下面开始抓包,如下图:

python爬虫实战之爬取京东商城实例教程(python爬虫全套教程)

4、从上面可以找到请求的url,发现有很长的一大段,我们试着去掉一些看看可不可以打开,简化之后的url= install requests,代码如下:

2、根据上面的分析可以知道,第二步就是得到异步加载的url中的参数show_items,就是li标签中的data-pid,代码如下:

3、下面就是获取前张图片的url了,也就是主网页上的图片,其中一个问题是img标签的属性并不是一样的,也就是源码中的img中不都是src属性,一开始已经加载出来的图片就是src属性,但是没有加载出来的图片是data-lazy-img,因此在解析页面的时候要加上讨论。

代码如下:

前三十张图片找到了,现在开始找后三十张图片了,当然是要请求那个异步加载的url,前面已经把需要的参数给找到了,下面就好办了,直接贴代码:

4、通过上面就可以爬取了,但是还是要考虑速度的问题,这里我用了多线程,直接每一页面开启一个线程,速度还是可以的,感觉这个速度还是可以的,几分钟解决问题,总共爬取了个网页,这里的存储方式是mysql数据库存储的,要用发哦MySQLdb这个库,详情自己百度。

当然也可以用mogodb,但是还没有学呢,想要的源码的朋友请看下面:

一、GitHub源码

二、本地下载

拓展总结

写到这里可以看到搜索首页的网址中keyword和wq都是你输入的词,如果你想要爬取更多的信息,可以将这两个词改成你想要搜索的词即可,直接将汉字写上,在请求的时候会自动帮你编码的,我也试过了,可以抓取源码的,如果你想要不断的抓取,可以将要搜索的词写上文件里,然后从文件中读取就可以了。以上只是一个普通的爬虫,并没有用到什么框架,接下来将会写scrapy框架爬取的,请继续关注积木网哦!!!

好了,

标签: python爬虫全套教程

本文链接地址:https://www.jiuchutong.com/biancheng/375556.html 转载请保留说明!

上一篇:python中urllib.unquote乱码的原因与解决方法

下一篇:python爬虫框架scrapy实战之爬取京东商城进阶篇(python爬虫框架怎么画)

  • 个体工商户要报工商年报吗?
  • 保险费车船税会计分录
  • 工会活动奖励现金怎么入账
  • 本年已交税费怎么算
  • 递延收益影响当期损益吗
  • 所得税年报工资薪金支出怎么填
  • 以前暂估的成本,年终要冲销怎么做账
  • 关联方债务豁免需要缴纳所得税吗
  • 买断式贴现是什么业务
  • 出售的固定资产当月计提折旧吗
  • 小规模开专票要计提附加税吗
  • 购买固定资产的账务处理
  • 原始凭证丢失如何处理会罚款吗
  • 货物出口到保税区复进口
  • 企业将活期存款转为定期时
  • 收财务拨款的贷款合法吗
  • 划拨土地使用权多少年
  • 报废物资收入计入什么科目旧准则
  • 托收承付销售货物什么意思
  • 预交增值税附加税费减免吗
  • 个体户要申报哪些报表
  • 税务系统出问题怎么办
  • 生产企业出口退税的计算方法
  • 专票已经抵扣购买方如何处理
  • 购入工程物资的账务处理
  • 小微企业开发票优惠政策
  • 物业管理费属于应付账款吗
  • 企业收取的会员费当无法继续提供服务能退吗?
  • 核定征收和查账征收,交的税一样吗
  • 汇算清缴后补缴得企业所得税,计入哪年的税负
  • 文件夹怎么发送不了
  • ie增强的安全配置已启用上不了网
  • 招待费的住宿费可以抵扣吗
  • 政府专项基金是什么
  • cpu主频在哪看
  • 有进项没销项怎么处理,可以结转成本吗
  • qttask.exe是什么进程?qttask.exe是不是病毒?
  • 没有独立显卡没有核显能开机吗
  • php加密后怎么运行
  • php语言设计模式之单例模式
  • 上市公司股东股份轮候冻结是什么意思
  • 现金日记账的填制要求
  • 本月损益类未结转为零的一级科目
  • 论文resit
  • 预缴纳税申报怎么不能保存
  • python的顺序
  • 接待客人发生的事故
  • 个税申报漏报人怎么办
  • 跨年的发票可以退税吗
  • 研发支出可以计提吗
  • js array.fill
  • 识别假人民币的简便方法
  • 设计模式代理模式
  • 农产品购进时的会计分录
  • 社保所属期怎么填
  • 发票清单用什么纸打印出来
  • 房地产采取按揭销售的,其销售的入账时间为
  • 工会经费按什么比例返还
  • 分公司抬头发票总公司可以抵扣吗
  • 资产负债表中应交税费为负数是什么意思
  • mysql的innodb和myisam
  • mysql导入导出sql文件
  • mysql数据库文件存放在哪里
  • linux中vim命令详解
  • 如何让计算机自动关机
  • 苹果Mac系统怎么安装
  • 如何删除win7系统
  • win10系统预览版
  • windows8桌面图标没有了
  • javascript的代码
  • 收藏了很久的句子
  • cocos设置中文
  • javascript常用函数大全
  • jquery tab
  • js中的array数组有什么缺点
  • JavaScript中的this指向
  • Python中字符串的索引
  • python 批量ping
  • 甘肃国税电子税务局
  • 国网四川电力客户电话号码
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设