位置: 编程技术 - 正文

Python中urllib+urllib2+cookielib模块编写爬虫实战

编辑:rootadmin

推荐整理分享Python中urllib+urllib2+cookielib模块编写爬虫实战,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

超文本传输协议http构成了万维网的基础,它利用URI(统一资源标识符)来识别Internet上的数据,而指定文档地址的URI被称为URL(既统一资源定位符),常见的URL指向文件、目录或者执行复杂任务的对象(如数据库查找,internet搜索),而爬虫实质上正是通过对这些url进行访问、操作,从而获取我们想要的内容。对于没有商业需求的我们而言,想要编写爬虫的话,使用urllib,urllib2与cookielib三个模块便可以完成很多需求了。首先要说明的是,urllib2并非是urllib的升级版,虽然同样作为处理url的相关模块,个人推荐尽量使用urllib2的接口,但我们并不能用urllib2完全代替urllib,处理URL资源有时会需要urllib中的一些函数(如urllib.urllencode)来处理数据。但二者处理url的大致思想都是通过底层封装好的接口让我们能够对url像对本地文件一样进行读取等操作。下面就是一个获取百度页面内容的代码:

短短4行在运行之后,就会显示出百度页面的源代码。它的机理是什么呢?当我们使用urllib2.Request的命令时,我们就向百度搜索的url(“www.baidu.com”)发出了一次HTTP请求,并将该请求映射到connect变量中,当我们使用urllib2.urlopen操作connect后,就会将connect的值返回到url1中,然后我们就可以像操作本地文件一样对url1进行操作,比如这里我们就使用了read()函数来读取该url的源代码。这样,我们就可以写一只属于自己的简单爬虫了~下面是我写的抓取天涯连载的爬虫:

事实上,上面的代码使用urlopen就可以达到相同的效果了:

为什么我们还需要先对url进行request处理呢?这里需要引入opener的概念,当我们使用urllib处理url的时候,实际上是通过urllib2.OpenerDirector实例进行工作,他会自己调用资源进行各种操作如通过协议、打开url、处理cookie等。而urlopen方法使用的是默认的opener来处理问题,也就是说,相当的简单粗暴~对于我们post数据、设置header、设置代理等需求完全满足不了。因此,当面对稍微高点的需求时,我们就需要通过urllib2.build_opener()来创建属于自己的opener,这部分内容我会在下篇博客中详细写~

而对于一些没有特别要求的网站,仅仅使用urllib的2个模块其实就可以获取到我们想要的信息了,但是一些需要模拟登陆或者需要权限的网站,就需要我们处理cookies后才能顺利抓取上面的信息,这时候就需要Cookielib模块了。cookielib 模块就是专门用来处理cookie相关了,其中比较常用的方法就是能够自动处理cookie的CookieJar()了,它可以自动存储HTTP请求生成的cookie,并向传出HTTP的请求中自动添加cookie。正如我前文所提到的,想要使用它的话,需要创建一个新的opener:

经过这样的处理后,cookie的问题就解决了~而想要将cookies输出出来的话,使用print cj._cookies.values()命令后就可以了~

抓取豆瓣同城、登陆图书馆查询图书归还在掌握了urllib几个模块的相关用法后,接下来就是进入实战步骤了~

(一)抓取豆瓣网站同城活动

豆瓣北京同城活动 该链接指向豆瓣同城活动的列表,向该链接发起request:

我们会发现返回的html代码中,除了我们需要的信息之外,还夹杂了大量的页面布局代码:

如上图所示,我们只需要中间那些关于活动的信息。而为了提取信息,我们就需要正则表达式了~正则表达式是一种跨平台的字符串处理工具/方法,通过正则表达式,我们可以比较轻松的提取字符串中我们想要的内容~这里不做详细介绍了,个人推荐余晟老师的正则指引,挺适合新手入门的。下面给出正则表达式的大致语法:

这里我使用捕获分组,将活动四要素(名称,时间,地点,费用)为标准进行分组,得到的表达式如下:

这样就可以将几个部分提取出来了。

总体代码如下:

在这里需要注意一下编码的问题,因为我使用的版本还是python2.X,所以在内部汉字字符串传递的时候需要来回转换,比如在最后打印“费用“这一项的时候,必须使用i.group(4).decode('utf-8') 将group(4元组中的ASCII码转换为utf8格式才行,否则会发现输出的是乱码。而在python中,正则模块re提供了两种常用的全局查找方式:findall 和 finditer,其中findall是一次性处理完毕,比较消耗资源;而finditer则是迭代进行搜索,个人比较推荐使用这一方法。

Python中urllib+urllib2+cookielib模块编写爬虫实战

最后得到的结果如下,大功告成~

(二)模拟登陆图书馆系统查询书籍归还情况

既然我们能够通过python向指定网站发出请求获取信息,那么自然也能通过python模拟浏览器进行登陆等操作~而模拟的关键,就在于我们向指定网站服务器发送的信息需要和浏览器的格式一模一样才行~这就需要分析出我们想要登陆的那个网站接受信息的方式。通常我们需要对浏览器的信息交换进行抓包~抓包软件中,目前比较流行的是wireshark,相当强大~不过对于我们新手来说,IE、Foxfire或者chrome自带的工具就足够我们使用了~

这里就以本人学校的图书馆系统为例子~

我们可以通过模拟登陆,最后进入图书管理系统查询我们借阅的图书归还情况。首先要进行抓包分析我们需要发送哪些信息才能成功模拟浏览器进行登陆操作。

我使用的是chrome浏览器,在登陆页面按F调出chrome自带的开发工具,选择network项就可以输入学号密码选择登陆了。观察登陆过程中的网络活动,果然发现可疑分子了:

分析这个post指令后,可以确认其就是发送登陆信息(账号、密码等)的关键命令。还好我们学校比较穷,网站做的一般,这个包完全没有加密~那么剩下的就很简单了~记下headers跟post data就OK了~其中headers中有很多实用的信息,一些网站可能会根据user-Agent来判断你是否是爬虫程序从而决定是否允许你访问,而Referer则是很多网站常常用来反盗链的,如果服务器接收到的请求中referer与管理员设定的规则不符,那么服务器也会拒绝发送资源。而post data就是我们在登录过程中浏览器向登陆服务器post的信息了,通常账户、密码之类的数据都包含在里面。这里往往还有一些其他的数据如布局等信息也要发送出去,这些信息通常我们在操作浏览器的时候没有任何存在感,但没了他们服务器是不会响应我们滴。

现在postdata 跟headers的格式我们全部知道了~模拟登陆就很简单了:

其中urllib.urlencode负责将postdata自动进行格式转换,而opener.addheaders则是在我们的opener处理器中为后续请求添加我们预设的headers。测试后发现,登陆成功~~那么剩下的就是找出图书借还查询所在页面的url,再用正则表达式提取出我们需要的信息了~~整体代码如下:

下面是程序运行结果~

使用Python编写爬虫的基本模块及框架使用指南 基本模块python爬虫,webspider。爬取网站获取网页数据,并进行分析提取。基本模块使用的是urllib,urllib2,re,等模块基本用法,例子:(1)进行基本GET

Python的Scrapy爬虫框架简单学习笔记 一、简单配置,获取单个网页上的内容。(1)创建scrapy项目scrapystartprojectgetblog(2)编辑items.py#-*-coding:utf-8-*-#Defineherethemodelsforyourscrapeditems##Seedocumentatio

Python模拟百度登录实例详解 最近公司产品和百度贴吧合作搞活动,为了增加人气,打算做个自动签到的小程序。这个是测试登录的代码,写的比较随意,仅实现了登录并读取关注

标签: Python中urllib+urllib2+cookielib模块编写爬虫实战

本文链接地址:https://www.jiuchutong.com/biancheng/381294.html 转载请保留说明!

上一篇:深入剖析Python的爬虫框架Scrapy的结构与运作流程(了解python)

下一篇:使用Python编写爬虫的基本模块及框架使用指南(python怎么写爬虫)

  • 合伙企业当年盈亏怎么算
  • 报销差旅费的进项税怎么申报
  • 职工交的商业保险怎么做账
  • 微信支付属于现金嘛
  • 交通运输行业属于什么性质
  • 发票抬头类型怎么选 个人不能报销吗
  • 工程销项税率
  • 短期借款会计科目使用说明
  • 个人可支配收入缩写
  • 企业代扣职工个人缴纳的五险一金
  • 多出来的费用
  • 个人独资企业缴纳个人所得税
  • 租赁厂房发生的改造装修费用
  • 公司的基建部门是做什么的
  • 货物丢失计入什么费用
  • 取得增值税专用发票
  • 启用新账簿
  • 流转税通俗举例
  • 印花税是当月交还是次月交
  • 客户购买产品的好处
  • 个体工商户开服务类型发票怎么开的
  • 光纤熔接发票属什么类别
  • 中药材收购需要纳税吗
  • 销售商品收到货款20000元存入银行
  • 实收资本印花税按次还是按年
  • win10提示病毒防护已过期
  • dll缺失怎么修复
  • 平均净资产和净资产
  • 收到上级工会下拨的工会经费
  • 报税时漏报进项怎么办
  • 小规模纳税人销售货物税率是多少
  • ubuntu npm安装
  • 实收资本本年利润属于什么科目
  • 房地产公司活动方案
  • php三大特性
  • termux 安装
  • 社保基数跟个税差1仟多有风险吗
  • 递归最小二乘法辨识参数
  • 终于见识到什么叫云横秦岭了
  • openai发布企业版
  • 股权转让怎么做凭证分录
  • 企业收取的罚款需要交企业所得税吗
  • 企业盈余公积的主要用途是
  • Table ‘xxx’ is marked as crashed and should be repaired 错误解决方法参考
  • 政府补贴需要缴纳印花税吗
  • 小规模纳税人指的是谁
  • 年化收益率和年利率区别
  • 权益性投资收益按照什么确认收入的实现
  • 无形资产达到可使用状态前如何入账
  • 新公司核税需要什么材料
  • 资金紧张怎么说
  • 基金会收到捐款的会计分录
  • 非税收入定额票据是什么
  • 小规模红冲发票收入正数税额负数
  • 预付账款暂估是什么意思
  • 增值税普通发票查询
  • 资本金账户资金允许
  • sql server 数据
  • 如何快速提升花呗额度
  • linux如何查询
  • freebsd安装pkg
  • win10怎么检查
  • coocareservice.exe是病毒吗
  • win8系统更新在哪里
  • winxp开启远程控制
  • 如何自定义win键
  • WIN10系统更新文件在哪里
  • jquery width
  • 剑指offter
  • mark一下怎么用
  • css旋转木马
  • python贪吃蛇游戏代码怎么运行
  • android 自定义actionbar
  • 江苏国家电子税务局网站
  • 西安国家税务局丁雁现任命职务
  • 深圳市国家税务局电子税务局官网
  • 股东向公司借款合法吗
  • 国家税务局申报系统
  • 浙江税务局网络发票页无法打字
  • 员工持股平台税务稽查
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设