位置: 编程技术 - 正文

Python中urllib+urllib2+cookielib模块编写爬虫实战

编辑:rootadmin

推荐整理分享Python中urllib+urllib2+cookielib模块编写爬虫实战,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

超文本传输协议http构成了万维网的基础,它利用URI(统一资源标识符)来识别Internet上的数据,而指定文档地址的URI被称为URL(既统一资源定位符),常见的URL指向文件、目录或者执行复杂任务的对象(如数据库查找,internet搜索),而爬虫实质上正是通过对这些url进行访问、操作,从而获取我们想要的内容。对于没有商业需求的我们而言,想要编写爬虫的话,使用urllib,urllib2与cookielib三个模块便可以完成很多需求了。首先要说明的是,urllib2并非是urllib的升级版,虽然同样作为处理url的相关模块,个人推荐尽量使用urllib2的接口,但我们并不能用urllib2完全代替urllib,处理URL资源有时会需要urllib中的一些函数(如urllib.urllencode)来处理数据。但二者处理url的大致思想都是通过底层封装好的接口让我们能够对url像对本地文件一样进行读取等操作。下面就是一个获取百度页面内容的代码:

短短4行在运行之后,就会显示出百度页面的源代码。它的机理是什么呢?当我们使用urllib2.Request的命令时,我们就向百度搜索的url(“www.baidu.com”)发出了一次HTTP请求,并将该请求映射到connect变量中,当我们使用urllib2.urlopen操作connect后,就会将connect的值返回到url1中,然后我们就可以像操作本地文件一样对url1进行操作,比如这里我们就使用了read()函数来读取该url的源代码。这样,我们就可以写一只属于自己的简单爬虫了~下面是我写的抓取天涯连载的爬虫:

事实上,上面的代码使用urlopen就可以达到相同的效果了:

为什么我们还需要先对url进行request处理呢?这里需要引入opener的概念,当我们使用urllib处理url的时候,实际上是通过urllib2.OpenerDirector实例进行工作,他会自己调用资源进行各种操作如通过协议、打开url、处理cookie等。而urlopen方法使用的是默认的opener来处理问题,也就是说,相当的简单粗暴~对于我们post数据、设置header、设置代理等需求完全满足不了。因此,当面对稍微高点的需求时,我们就需要通过urllib2.build_opener()来创建属于自己的opener,这部分内容我会在下篇博客中详细写~

而对于一些没有特别要求的网站,仅仅使用urllib的2个模块其实就可以获取到我们想要的信息了,但是一些需要模拟登陆或者需要权限的网站,就需要我们处理cookies后才能顺利抓取上面的信息,这时候就需要Cookielib模块了。cookielib 模块就是专门用来处理cookie相关了,其中比较常用的方法就是能够自动处理cookie的CookieJar()了,它可以自动存储HTTP请求生成的cookie,并向传出HTTP的请求中自动添加cookie。正如我前文所提到的,想要使用它的话,需要创建一个新的opener:

经过这样的处理后,cookie的问题就解决了~而想要将cookies输出出来的话,使用print cj._cookies.values()命令后就可以了~

抓取豆瓣同城、登陆图书馆查询图书归还在掌握了urllib几个模块的相关用法后,接下来就是进入实战步骤了~

(一)抓取豆瓣网站同城活动

豆瓣北京同城活动 该链接指向豆瓣同城活动的列表,向该链接发起request:

我们会发现返回的html代码中,除了我们需要的信息之外,还夹杂了大量的页面布局代码:

如上图所示,我们只需要中间那些关于活动的信息。而为了提取信息,我们就需要正则表达式了~正则表达式是一种跨平台的字符串处理工具/方法,通过正则表达式,我们可以比较轻松的提取字符串中我们想要的内容~这里不做详细介绍了,个人推荐余晟老师的正则指引,挺适合新手入门的。下面给出正则表达式的大致语法:

这里我使用捕获分组,将活动四要素(名称,时间,地点,费用)为标准进行分组,得到的表达式如下:

这样就可以将几个部分提取出来了。

总体代码如下:

在这里需要注意一下编码的问题,因为我使用的版本还是python2.X,所以在内部汉字字符串传递的时候需要来回转换,比如在最后打印“费用“这一项的时候,必须使用i.group(4).decode('utf-8') 将group(4元组中的ASCII码转换为utf8格式才行,否则会发现输出的是乱码。而在python中,正则模块re提供了两种常用的全局查找方式:findall 和 finditer,其中findall是一次性处理完毕,比较消耗资源;而finditer则是迭代进行搜索,个人比较推荐使用这一方法。

Python中urllib+urllib2+cookielib模块编写爬虫实战

最后得到的结果如下,大功告成~

(二)模拟登陆图书馆系统查询书籍归还情况

既然我们能够通过python向指定网站发出请求获取信息,那么自然也能通过python模拟浏览器进行登陆等操作~而模拟的关键,就在于我们向指定网站服务器发送的信息需要和浏览器的格式一模一样才行~这就需要分析出我们想要登陆的那个网站接受信息的方式。通常我们需要对浏览器的信息交换进行抓包~抓包软件中,目前比较流行的是wireshark,相当强大~不过对于我们新手来说,IE、Foxfire或者chrome自带的工具就足够我们使用了~

这里就以本人学校的图书馆系统为例子~

我们可以通过模拟登陆,最后进入图书管理系统查询我们借阅的图书归还情况。首先要进行抓包分析我们需要发送哪些信息才能成功模拟浏览器进行登陆操作。

我使用的是chrome浏览器,在登陆页面按F调出chrome自带的开发工具,选择network项就可以输入学号密码选择登陆了。观察登陆过程中的网络活动,果然发现可疑分子了:

分析这个post指令后,可以确认其就是发送登陆信息(账号、密码等)的关键命令。还好我们学校比较穷,网站做的一般,这个包完全没有加密~那么剩下的就很简单了~记下headers跟post data就OK了~其中headers中有很多实用的信息,一些网站可能会根据user-Agent来判断你是否是爬虫程序从而决定是否允许你访问,而Referer则是很多网站常常用来反盗链的,如果服务器接收到的请求中referer与管理员设定的规则不符,那么服务器也会拒绝发送资源。而post data就是我们在登录过程中浏览器向登陆服务器post的信息了,通常账户、密码之类的数据都包含在里面。这里往往还有一些其他的数据如布局等信息也要发送出去,这些信息通常我们在操作浏览器的时候没有任何存在感,但没了他们服务器是不会响应我们滴。

现在postdata 跟headers的格式我们全部知道了~模拟登陆就很简单了:

其中urllib.urlencode负责将postdata自动进行格式转换,而opener.addheaders则是在我们的opener处理器中为后续请求添加我们预设的headers。测试后发现,登陆成功~~那么剩下的就是找出图书借还查询所在页面的url,再用正则表达式提取出我们需要的信息了~~整体代码如下:

下面是程序运行结果~

使用Python编写爬虫的基本模块及框架使用指南 基本模块python爬虫,webspider。爬取网站获取网页数据,并进行分析提取。基本模块使用的是urllib,urllib2,re,等模块基本用法,例子:(1)进行基本GET

Python的Scrapy爬虫框架简单学习笔记 一、简单配置,获取单个网页上的内容。(1)创建scrapy项目scrapystartprojectgetblog(2)编辑items.py#-*-coding:utf-8-*-#Defineherethemodelsforyourscrapeditems##Seedocumentatio

Python模拟百度登录实例详解 最近公司产品和百度贴吧合作搞活动,为了增加人气,打算做个自动签到的小程序。这个是测试登录的代码,写的比较随意,仅实现了登录并读取关注

标签: Python中urllib+urllib2+cookielib模块编写爬虫实战

本文链接地址:https://www.jiuchutong.com/biancheng/381294.html 转载请保留说明!

上一篇:深入剖析Python的爬虫框架Scrapy的结构与运作流程(了解python)

下一篇:使用Python编写爬虫的基本模块及框架使用指南(python怎么写爬虫)

  • 哪些保险保障基金可税前扣除
  • 城镇土地使用税的计算公式
  • 劳务费税率计算公式
  • 纳税调整项目包括哪些?请简单列举
  • 药酒消费税计税依据
  • 小规模的开专票怎么征税
  • 用友删除凭证后期初余额不对
  • 发票管理中的四流一致是指什么一致
  • 购车税叫什么
  • 国外包裹退回费用
  • 贩卖增值税发票怎么判刑
  • 公益机构可以收费吗
  • 其他账簿印花税是否取消
  • 企业所得税税前扣除异常是什么意思
  • 注册商标成功的标志图片
  • 企业向个人赠送车辆
  • 增值税专普票清卡失败的原因是什么?
  • 退税上传,申报文件上传失败
  • 资产负债表和业务活动表勾稽关系不对怎么查
  • 本期增加固定资产原值
  • 监理费该谁出
  • 需要会计报表的人
  • 小规模纳税人免税额度是多少
  • 计提外币借款利息
  • 商务平台建设
  • 主板类型大全
  • 印花税可以不计提嘛
  • 查补增值税的会计处理
  • linux 定时删除文件
  • 应缴纳增值税计什么科目
  • vue项目使用
  • 货物运输增值税管理
  • css3两种调整背景图片大小的方式
  • es6对象扩展运算符
  • 逐帧flash动画
  • 防伪税控系统该如何操作
  • 教育费附加免税需要计提吗?
  • 总包缴税
  • 退税申报系统里出货明细金额少0.1会比对报关单金额吗
  • 餐饮发票不见了怎么补
  • 生产销售库存的会计科目
  • mysql常见优化手段
  • 以前年度损益调整是什么意思
  • 在途资金属于什么科目
  • 员工工资需要交税吗
  • mysql语句语法
  • 土地摊销年限是什么意思
  • 出口货物的进项税
  • 小规模没收入怎么报税
  • 利润分配贷方余额怎么处理
  • 应交增值税进项税额转出账务处理
  • 固定资产的改良支出有哪些
  • 付款成功的钱怎么返还
  • 发出商品属于存货的什么科目
  • 施工企业应收账款周转率多少合适
  • mysql解压版安装教程5.7.20
  • centosgui
  • MySQL利用命令行工具启动和关闭的命令是什么
  • win7激活怎么关闭
  • win10如何连接远程电脑
  • vsftpd.service disabled
  • 今后64位Win10 Mobile将是未来重点
  • xwizard.exe是什么
  • 桌面上家庭组图标是干嘛
  • 苹果mac系统怎么截屏快捷键
  • mac如何快速复制文件
  • ie8-ie11浏览器
  • unity outline性能
  • 上传图片 js
  • Android OpenGL ES(七)----理解纹理与纹理过滤
  • 有哪些好用的linux
  • 游戏开发吧
  • 使用Android Go的手机
  • 编程用到的所有函数
  • css filter blur
  • vlw框架论坛
  • javascript怎么学
  • 发票如何验真伪?
  • 技术合同备案要求
  • 个人所得税怎么填写子女教育
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设