位置: 编程技术 - 正文

Python爬虫利用cookie实现模拟登陆实例详解(怎么利用python爬虫爬数据)

编辑:rootadmin

推荐整理分享Python爬虫利用cookie实现模拟登陆实例详解(怎么利用python爬虫爬数据),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:怎么用python爬虫,pythone爬虫,用python做爬虫程序,基于python爬虫,用python做爬虫程序,pythone爬虫,利用python进行爬虫,利用python进行爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。

举个例子,某些网站是需要登录后才能得到你想要的信息的,不登陆只能是游客模式,那么我们可以利用Urllib2库保存我们以前登录过的Cookie,之后载入cookie获取我们想要的页面,然后再进行抓取。理解cookie主要是为我们快捷模拟登录抓取目标网页做出准备。

我之前的帖子中使用过urlopen()这个函数来打开网页进行抓取,这仅仅只是一个简单的Python网页打开器,其参数也仅有urlopen(url,data,timeout),这三个参数对于我们获取目标网页的cookie是远远不够的。这时候我们就要利用到另外一种Opener——CookieJar。

cookielib也是Python进行爬虫的一个重要模块,他能与urllib2相互结合一起爬取想要的内容。该模块的CookieJar类的对象可以捕获cookie并在后续连接请求时重新发送,这样就可以实现我们所需要的模拟登录功能。

这里特别说明一下,cookielib是在py2.7中自带的模块,无需重新安装,想要查看其自带模块可以查看Python目录下的Lib文件夹,里面有所有安装的模块。我一开始没想起来,在pycharm中竟然没有搜到cookielib,使用了快捷安装也报错:Couldn't find index page for 'Cookielib' (maybe misspelled&#;)

之后才想起来是不是自带的就有,没想到去lib文件夹一看还真有,白白浪费半个小时各种瞎折腾~~

下面我们就来介绍一下这个模块,该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

它们的关系:CookieJar —-派生—->FileCookieJar —-派生—?>MozillaCookieJar和LWPCookieJar 主要用法,我们下面也会讲到。urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能,必须使用build_opener()(可以用于让python程序模拟浏览器进行访问,作用你懂得~)函数创建自定义Opener对象。

1、首先我们就来获取一下网站的cookie

例子:

Python爬虫利用cookie实现模拟登陆实例详解(怎么利用python爬虫爬数据)

结果:

这样我们就得到了一个最简单的cookie。

2、将cookie保存到文件

上面我们得到了cookie,下面我们学习如何保存cookie。在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存

例子:

将上面的例子简单变形就可以得到本例,使用了CookieJar的子类MozillaCookiJar,为什么呢?我们将MozillaCookiJar换成CookieJar试试,下面一张图你就能明白:

CookieJar是没有保存save属性的~

save()这个方法中:ignore_discard的意思是即使cookies将被丢弃也将它保存下来,ignore_expires的意思是如果在该文件中cookies已经存在,则覆盖原文件写入,在这里,我们将这两个全部设置为True。运行之后,cookies将被保存到cookie.txt文件中,我们查看一下内容:

这样我们就成功保存了我们想要的cookie

3、从文件中获取cookie并访问

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

python实现斐波那契数列的方法示例 介绍斐波那契数列,又称黄金分割数列,指的是这样一个数列:0、1、1、2、3、5、8、、、……在数学上,斐波纳契数列以如下递归的方法定义:F(0

python基础教程之五种数据类型详解 Python五种数据类型在学习一门语言的过程中,首先肯定就是要先接触到它所拥有的数据类型,Python拥有五种主要的数据类型,下面介绍一下我对这五种

Python实现二分查找与bisect模块详解 前言其实Python的列表(list)内部实现是一个数组,也就是一个线性表。在列表中查找元素可以使用list.index()方法,其时间复杂度为O(n)。对于大数据量,

标签: 怎么利用python爬虫爬数据

本文链接地址:https://www.jiuchutong.com/biancheng/381380.html 转载请保留说明!

上一篇:Python 出现错误TypeError: ‘NoneType’ object is not iterable解决办法(pythonnumpy报错)

下一篇:python实现斐波那契数列的方法示例(用python做斐波那契数列)

  • 小规模纳税人销售已使用固定资产
  • 企业为职工提供无偿服务
  • 缴纳城镇土地使用税标准
  • 税率和征收率有什么不一样
  • 三供一业移交内容
  • 税盘清卡截止每个月
  • 月销售额不超过10万
  • 建房测绘收费
  • 建筑企业增值税纳税义务发生时间如何确定
  • 购买空调的报销单怎么写
  • 什么叫外埠存款
  • 去年税收滞纳金计入什么科目
  • 母子公司可以开具资金占用费
  • 企业股权无偿划转是否征税
  • 工资表不给看
  • 如何查询对方是不是老赖
  • 所得税预警税负率
  • 季度销售额不超过30万,城建税减免
  • 房地产营改增后开票
  • 其他业务收入是什么意思
  • 企业购房房产税土地税补缴
  • 应付账款核销法律规定
  • 征信证明怎么开啊
  • 财产租赁所得的税率是多少
  • 企业间利息增值税率
  • 怎么做汇算清缴报表
  • windows11怎么设置默认应用
  • win10系统中怎么共享文件
  • 怎么补去年的税
  • 设置浏览器显示网络异常
  • 织梦采集器图片本地化
  • php如何自定义函数
  • 落枕怎么办怎么治疗
  • 外企采购回扣普遍吗
  • 取得增值税发票的认证期限是多久?
  • 期初在产品成本是什么
  • 奥林匹克国家公园
  • 正则表达式大全(整理版)
  • 记账凭证和收付账簿区别
  • postman操作流程
  • 公司投资一家公司然后再投资
  • 注意力机制工作原理
  • 票据权利的取得要件
  • 营业外收支的账户是什么
  • 香港公司代收国际汇款税务怎么处理
  • 二房东可以卖房吗
  • 外购商品发放给员工 进项税额能不能抵扣
  • 二手车没有发票能上牌吗
  • 福利费的进项税额会计分录
  • 长期借款短期利息怎么算
  • 外出经营预交企业所得税税率
  • 技术员差旅费计入哪个会计科目
  • 管理费用包括哪些税
  • 存货的进口关税计入成本吗
  • 废品相关内容有哪些
  • 个体工商户必须建账吗
  • 年度汇算清缴交税怎么做账
  • 详解MySQL的limit用法和分页查询语句的性能分析
  • win10电脑版微信字体大小怎么设置方法
  • mac os10.11
  • 如何把itunes的音乐导入ipod
  • linux lsof命令详解
  • 没有触屏如何使手机充电
  • js如何引用
  • Node.js中的包管理工具是什么
  • 安卓wifimanager详解
  • 自动生成批量执行命令
  • nodejs 调用命令行
  • javascript 语言精粹(修订版)
  • jquery的使用步骤
  • 刮刮奖软件下载
  • 带领大家学习javascript基础篇(一)之基本概念
  • python简要介绍
  • javascript的介绍
  • 电子办税服务厅怎么开电子发票
  • 网上申报纳税小程序下载
  • 广西税务局客服电话时间
  • 深圳国税地税怎么申报
  • 全国初中应用物理知识竞赛获奖名单
  • 印花税会计分录怎么做 印花税需要计提吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设