位置: 编程技术 - 正文

python制作爬虫并将抓取结果保存到excel中(怎么用python做爬虫)

编辑:rootadmin

推荐整理分享python制作爬虫并将抓取结果保存到excel中(怎么用python做爬虫),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:利用python进行爬虫,python 写爬虫,python爬虫怎么弄,python爬虫怎么弄,python爬虫定制,用python做网络爬虫,怎么用python做爬虫,怎么用python做爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。

第一步:分析网站的请求过程

我们在查看拉勾网上的招聘信息的时候,搜索Python,或者是PHP等等的岗位信息,其实是向服务器发出相应请求,由服务器动态的响应请求,将我们所需要的内容通过浏览器解析,呈现在我们的面前。

可以看到我们发出的请求当中,FormData中的kd参数,就代表着向服务器请求关键词为Python的招聘信息。

分析比较复杂的页面请求与响应信息,推荐使用Fiddler,对于分析网站来说绝对是一大杀器。不过比较简单的响应请求用浏览器自带的开发者工具就可以,比如像火狐的FireBug等等,只要轻轻一按F,所有的请求的信息都会事无巨细的展现在你面前。

经由分析网站的请求与响应过程可知,拉勾网的招聘信息都是由XHR动态传递的。

我们发现,以POST方式发出的请求有两个,分别是companyAjax.json和positionAjax.json,它们分别控制当前显示的页面和页面中包含的招聘信息。

可以看到,我们所需要的信息包含在positionAjax.json的Content->result当中,其中还包含了一些其他参数信息,包括总页面数(totalPageCount),总招聘登记数(totalCount)等相关信息。

第二步:发送请求,获取页面

知道我们所要抓取的信息在哪里是最为首要的,知道信息位置之后,接下来我们就要考虑如何通过Python来模拟浏览器,获取这些我们所需要的信息。

其中比较关键的步骤在于如何仿照浏览器的Post方式,来包装我们自己的请求。

python制作爬虫并将抓取结果保存到excel中(怎么用python做爬虫)

request包含的参数包括所要抓取的网页url,以及用于伪装的headers。urlopen中的data参数包括FormData的三个参数(first、pn、kd)

包装完毕之后,就可以像浏览器一样访问拉勾网,并获得页面数据了。

第三步:各取所需,获取数据

获得页面信息之后,我们就可以开始爬虫数据中最主要的步骤:抓取数据。

抓取数据的方式有很多,像正则表达式re,lxml的etree,json,以及bs4的BeautifulSoup都是python3抓取数据的适用方法。大家可以根据实际情况,使用其中一个,又或多个结合使用。

第四步:将所抓取的信息存储到excel中

获得原始数据之后,为了进一步的整理与分析,我们有结构有组织的将抓取到的数据存储到excel中,方便进行数据的可视化处理。

这里我用了两个不同的框架,分别是老牌的xlwt.Workbook、以及xlsxwriter。

首先是xlwt,不知道为什么,xlwt存储到多条数据之后,会存储不全,而且excel文件也会出现“部分内容有问题,需要进行修复”我检查了很多次,一开始以为是数据抓取的不完全,导致的存储问题。后来断点检查,发现数据是完整的。后来换了本地的数据进行处理,也没有出现问题。我当时的心情是这样的:

到现在我也没弄明白,有知道的大神希望能告诉我&#;(&#;ε&#;&#;) 

这是使用xlsxwriter存储的数据,没有问题,可以正常使用。

到从为止,一个抓取拉勾网招聘信息的小爬虫就诞生了。

附上源码

还有许多功能可以添加,比如说通过修改city参数查看不同城市的招聘信息啦等等,大家可以自行开发,这里只做抛砖引玉之用,欢迎交流,

python文件的md5加密方法 本文实例讲述了python文件的md5加密方法。分享给大家供大家参考,具体如下:简单模式:fromhashlibimportmd5defmd5_file(name):m=md5()a_file=open(name,'rb')#需要使用二

python socket多线程通讯实例分析(聊天室) 本文实例讲述了pythonsocket多线程通讯方法。分享给大家供大家参考,具体如下:#!/usr/bin/evnpython"""这是一个Socket+多进程的例子(聊天服务端)"""importsocke

python多进程共享变量 本文实例为大家分享了python多进程共享变量的相关代码,供大家参考,具体内容如下frommultiprocessingimportProcess,ManagerimportosimporttimeclassMulFun():def__init__(self)

标签: 怎么用python做爬虫

本文链接地址:https://www.jiuchutong.com/biancheng/385266.html 转载请保留说明!

上一篇:python基于隐马尔可夫模型实现中文拼音输入(python 隐函数作图)

下一篇:python文件的md5加密方法(md5加密python)

  • 工商注册经营部和公司的区别
  • 交所得税用计提吗
  • 个人将租用的商铺怎么办
  • 金蝶软件中怎么增加固定资产
  • 原始凭证太多如何删除
  • 非营利组织缴纳社保
  • 固定资产转固后发现少转费用了怎么办
  • 直接支付和授权支付方式的区别与联系
  • 2019年小规模纳税人增值税优惠
  • 企业所得税汇算清缴退税怎么做账
  • 服务性单位从事的是餐饮中介服务
  • 小规模企业应交增值税的二级科目
  • 低价销售差额部分计入
  • 全额抵减税控盘分录
  • 防洪基金减免的会计分录怎么写?
  • 朋友抵押贷款通过我公司名义会怎样
  • 公司发年终奖怎么发朋友圈
  • 企业支付的工伤费用怎么入账
  • 本月有收入免增值税吗
  • 红字发票信息表可以撤销吗
  • 公司没有发票的做内账,那么支付款从哪里来
  • 建筑业预收账款如何缴税
  • 税控盘抵税申报表如何撤销
  • 一般纳税人以清包工方式
  • 停车场会计科目设置
  • 购入二手设备,无发票怎么记账
  • 合作方寄来的礼物能不能收?
  • 应收账款应计利息公式如何理解
  • 五月份和六月份都有什么节日
  • 安全提取费用标准
  • 耳机插在电脑上有滋滋的声音
  • 进项税大于销项税怎么结转
  • 国内保理业务是担保类中间业务吗
  • 股东未实缴资本,因为经营困难借给公司钱,可以要求返还
  • 售后回租融资租赁案例
  • github账号在哪里看
  • 可解释深度学习:从感受野到深度学习的三大基本任务:图像分类,语义分割,目标检测,让你真正理解深度学习
  • php知识点汇总与解答
  • vue新手教程
  • 利润表没有本月金额只有本年累计可以吗
  • 上年度的企业所得税汇算清缴怎么查询
  • 土地作为无形资产入账依据
  • 如何解决面颊毛孔粗大
  • 免费开源okr管理系统
  • 计提工资的时候计提个税吗
  • 期末进行存货清查
  • 应收账款借方余额
  • 未达账项审计调账怎么办
  • 纳税申报是根据什么填写的
  • 其他权益工具投资交易费用计入哪里
  • 资产减值损失科目
  • 政府会计双核算模式的好处
  • 子公司计提的盈余公积合并抵消
  • 逾期的押金收入
  • 销售废旧物资账务处理
  • 专用发票冲红有时间有时间限制吗
  • 收到红字进项发票先勾选再做转出吗
  • 公司补缴社保怎么查不到
  • 会计凭证审核标准有哪些
  • 服务企业的举措
  • mysql分页性能
  • debian系统
  • windows查找命令
  • 系统如何修改
  • 键盘设施
  • wan 微型端口
  • 简述linux的系统结构
  • 详解16型人格
  • Javascript HTML5 Canvas实现的一个画板
  • jquery 滑块
  • java jsonstring
  • javascript数组的本质
  • python if none
  • android的基础知识
  • 胰腺在人体的哪个部位图解
  • 湖南国家电子税务局企业所得税申报进不去
  • 增值税税控系统专用设备及技术维护费
  • 纳税申报期限和税款缴纳期限一样吗
  • 山西省网上营业执照申请官网?
  • 食品烟酒消费包括哪些
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设