位置: 编程技术 - 正文

Python使用Mechanize模块编写爬虫的要点解析(python mem)

发布时间:2024-02-27

推荐整理分享Python使用Mechanize模块编写爬虫的要点解析(python mem),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:pythonmeta,python measure,python mes,python me,python memmove,python me,python memmove,mechanize python,内容如对您有帮助,希望把文章链接给更多的朋友!

mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法。 下面主要总结了使用mechanize模拟浏览器的行为和几个例子(谷歌搜索,百度搜索和人人网登录等)1.初始化并建立一个浏览器对象 如果没有mechanize需要easy_install安装,以下代码建立浏览器对象并作了一些初始化设置,实际使用过程可以按需开关。其实只用默认的设置也可以完成基本任务。

2.模拟浏览器行为 浏览器对象建立并初始化完毕之后即可使用了,下面给出几个例子(代码承接以上部分)获取web网页: 分行打印可以逐个查看详细信息,就不赘述

模拟谷歌和百度查询 打印和选择forms,然后填写相应键值,通过post提交完成操作

谷歌查询football

百度查询football

相应键值名,可以通过打印查出

Python使用Mechanize模块编写爬虫的要点解析(python mem)

回退(Back) 非常简单的操作,打印url即可验证是否回退

3.http基本认证

4.form认证 以登陆人人网为例,打印forms可以查出用户名和密码键信息

5.cookie支持 通过导入cookielib模块,并设置浏览器cookie,可以在需要认证的网络行为之后不用重复认证登陆。通过保存session cookie即可重新访问,Cookie Jar完成了该功能。

6.proxy设置设置http代理

7.关于内存过高问题

在用mechanize写了一个爬虫脚本,想要去某网站爬取大概万张图片。 整个过程是:1、获取目标页面地址2、取得目标地址前几页的所有图片url3、对这些url进行下载,并把索引数据保存到mysql数据库。

这个脚本大概每秒钟完成一张图片的下载(主要是网络只有K/S左右,是瓶颈)当图片下载到大约张左右的时候,发现越来越慢,最后干脆停下了。用ps aux查看,发现进程sleep了,感觉很奇怪。free看一下,内存竟然只剩下M了(系统总内存4GB)在网上瞎逛了一下,发现原来mechanize默认会保存模拟过的操作历史,导致占用的内存越来越大: 为了方便,大约翻译一下:mechanize初始化Browser()的时候,如果你不给他传一个history对象作为参数,Browser()就会按照默认的方式(允许保存操作历史)来进行初始化,你可以随便传个什么history给它即可,如自定义一个NoHistory对象:

Python使用BeautifulSoup库解析HTML基本使用教程 BeautifulSoup是Python的一个第三方库,可用于帮助解析html/XML等内容,以抓取特定的网页信息。目前最新的是v4版本,这里主要总结一下我使用的v3版本解析h

python基于隐马尔可夫模型实现中文拼音输入 在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无

python制作爬虫并将抓取结果保存到excel中 学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。第一步:分析

标签: python mem

本文链接地址:https://www.jiuchutong.com/biancheng/385263.html 转载请保留说明!

上一篇:Python语言实现获取主机名根据端口杀死进程(python获取数据代码)

下一篇:Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

  • 个税退付手续费是单位所得吗
  • 接受固定资产投资的增值税计入哪里
  • 小规模纳税人代收水电费税率
  • 离境退税政策文件
  • 员工交个人所得税对公司有什么影响
  • 白条技巧
  • 小额转款
  • 总公司一般纳税多少
  • 供暖的配套费是不是开口费
  • 人力资源劳务费发票税率
  • 长期股权变更
  • 免税商品进项税可以抵扣吗
  • 挖掘机折旧怎么计算
  • 小微企业声明函怎么开
  • 企业的应收账款周转率越大,说明发生坏账
  • 外包人员培训费入什么科目
  • lec风险评价方法
  • 印花税按含税收入还是不含税收入
  • 短期融资券是
  • 华为鸿蒙os2.0发布
  • 王者荣耀通用铭文狩猎和隐匿
  • 招待客户住宿费可以抵扣进项税吗合理吗
  • 医生规培生补贴每年多少钱
  • 上年超额广告费会计分录
  • 生产废料怎么处理会计分录
  • 反射动态创建对象
  • php字符串赋值
  • newsupd.exe - newsupd是什么进程 有什么用
  • 高新技术企业研发费加计扣除政策
  • 免购车税政策
  • php实现原理
  • gpt详解
  • php分层
  • reactz
  • docker运行多个镜像
  • 金蝶k3现金流量表编制如何生成数据
  • 金蝶k3固定资产如何入账
  • 金蝶本月金额公式
  • jdbc描述
  • MySQL中使用_____语句更新表中的数据
  • mysql 子表
  • 织梦系统安装教程
  • 企业转让股权如何缴纳企业所得税
  • 发票收款人和复核人在哪儿政
  • mysql 优化技巧
  • 提取备用金如何填写现金日记账
  • 已抵扣未申报的税额如何转出
  • 其他债权投资的特征有哪些
  • 长期股权投资权益法初始成本的确定
  • 购货方尚未偿付的货款属于什么会计科目
  • 人工费没有发票怎么办
  • 目前哪些费用不能抵扣
  • 季度的工会经费怎么算
  • 饭店会计做账流程
  • 收付实现制和权责发生制区别
  • 施工企业周转材料会计科目的设置
  • 如何设置固定资产的部门对应这就
  • reg.exe是什么程序
  • centos挂载cd
  • 证书登录什么意思
  • 如何远程重装系统教程
  • windows 11安全模式
  • w10系统输入法
  • win7系统耳机设置在哪里
  • 在linux系统中有一个重要的概念
  • win7系统出现蓝屏重启怎么办
  • cocos2d教程
  • 背景透明度设置
  • jquery属性操作
  • Vuforia How To Use Android Plugins in Unity Apps
  • Python for Informatics 第11章之正则表达式(二)
  • jQuery插件AjaxFileUpload实现ajax文件上传
  • 欢迎使用微信支付
  • 小规模纳税人销售额怎么算
  • 电子税务局无法导出申报表
  • 税务风险管理指引
  • 江苏徐州如何开无犯罪记录证明
  • 个人所得税app密码给别人有风险吗
  • 江西省国家税务局客运定额发票
  • 2023个税税率及速算扣除数
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号