位置: 编程技术 - 正文

Python常用的爬虫技巧总结(python爬虫类)

编辑:rootadmin

推荐整理分享Python常用的爬虫技巧总结(python爬虫类),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python常用爬虫模块,python常用爬虫模块,python爬虫种类,python爬虫有几种,python爬虫类,python爬虫有哪些,python爬虫有哪些,python常用的爬虫库,内容如对您有帮助,希望把文章链接给更多的朋友!

用python也差不多一年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。

爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。

1、基本抓取网页

get方法

post方法

2、使用代理IP

在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP;

在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段:

3、Cookies处理

cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密),python提供了cookielib模块用于处理cookies,cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源.

代码片段:

关键在于CookieJar(),它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失,所有过程都不需要单独去操作。

手动添加cookie

4、伪装成浏览器

Python常用的爬虫技巧总结(python爬虫类)

某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error : Forbidden的情况

对有些 header 要特别留意,Server 端会针对这些 header 做检查

1.User-Agent 有些 Server 或 Proxy 会检查该值,用来判断是否是浏览器发起的 Request

2.Content-Type 在使用 REST 接口时,Server 会检查该值,用来确定 HTTP Body 中的内容该怎样解析。

这时可以通过修改http包中的header来实现,代码片段如下:

5、页面解析

对于页面解析最强大的当然是正则表达式,这个对于不同网站不同的使用者都不一样,就不用过多的说明,附两个比较好的网址:

正则表达式入门: 有没有遇到过某些网页,不论怎么转码都是一团乱码。哈哈,那说明你还不知道许多web服务具有发送压缩数据的能力,这可以将网络线路上传输的大量数据消减 % 以上。这尤其适用于 XML web 服务,因为 XML 数据 的压缩率可以很高。

但是一般服务器不会为你发送压缩数据,除非你告诉服务器你可以处理压缩数据。

于是需要这样修改代码:

这是关键:创建Request对象,添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据

然后就是解压缩数据:

8、多线程并发抓取

单线程太慢的话,就需要多线程了,这里给个简单的线程池模板 这个程序只是简单地打印了1-,但是可以看出是并发的。

虽然说python的多线程很鸡肋,但是对于爬虫这种网络频繁型,还是能一定程度提高效率的。

Python读大数据txt 如果直接对大文件对象调用read()方法,会导致不可预测的内存占用。好的方法是利用固定长度的缓冲区来不断读取文件内容。即通过yield。在用Python读一

详解Python迭代和迭代器 我们将要来学习python的重要概念迭代和迭代器,通过简单实用的例子如列表迭代器和xrange。可迭代一个对象,物理或者虚拟存储的序列。list,tuple,strin

python简单实现刷新智联简历 python来写一个试试吧,这里使用了cPAMIE模块,代码如下:代码fromcPAMIEimportPAMIEie=PAMIE("www.zhaopin.com")ie.textBoxSet("loginname",'你的用户名')#给loginname文本框赋

标签: python爬虫类

本文链接地址:https://www.jiuchutong.com/biancheng/384410.html 转载请保留说明!

上一篇:Python对数据库操作(python操作数据库语句)

下一篇:Python读大数据txt(python读取大txt文件)

  • 季度所得税费用如何计提
  • 一般纳税人增值税税率
  • 消费税的计算方法有什么
  • 我国税收居民
  • 简易计税是否要申报个税
  • 保险服务保费会计分录
  • 固定资产在现金流量表中的体现
  • 耕地转让权是什么意思
  • 董事费监事费个税计算
  • 包装物押金会计分录怎么做
  • 企业安全生产费用提取标准 最新
  • 转让无形资产收入属于销售收入吗
  • 发票开错导致不能按时入账该怎么处理呢?
  • 进口关税发票账务处理如何进行?
  • 技术咨询合同包括就特定技术项目提供
  • 金税盘非征期汇总资料未报送
  • 为员工购置小车怎么做账
  • 如果没有预缴就开票会怎样?
  • 应付供货单位的货款属于什么会计科目
  • 新建厂房购入材料会计分录
  • 公司税务风险怎么解决
  • 收到服务费分录怎么写
  • 子公司转为分公司,是不是需要缴纳土地增值税
  • 不是第三方的贷款app
  • 清算期间会计科目
  • 利得的具体分类
  • PHP:imagecolorclosestalpha()的用法_GD库图像处理函数
  • 资产负债所有者权益损益类会计科目
  • php年月日时间代码
  • 实收资本明细账模板
  • 捆绑销售如何进行账务处理?
  • php截取指定字符串
  • ChatGPT及相关产品体验与研究
  • 非事业单位企业退休年龄
  • 交易性金融资产的入账价值
  • 个人注册投资有限公司
  • dedecms怎么改图片
  • 自然人独资公司可以变更法人吗
  • mysql数据库访问速度慢的解决方法
  • mysql数据库错误日志
  • 一般纳税人无票收入填在哪一栏
  • 报表中的存货是什么
  • windows下重启mysql服务
  • 工商年报纳税总额从哪看
  • 纳税申报相关操作有哪些
  • 其他应收款期末借方余额表示什么意思
  • 旅游发票可以做差旅费吗
  • 职工教育经费产生的差异
  • 为在建工程发生的差旅费
  • 规模以上企业纳税要求
  • 工资汇算清缴前发
  • 增值税附加税印花税都是什么
  • 应收账款因质量问题被扣除的损失可以税前扣除吗
  • 企业研发费用包括工资支出吗
  • 延缓缴纳的企业所得税怎么做账
  • 企业用地手续办理流程
  • 汇算清缴前取得发票可以税前扣除吗
  • 营利性养老院都交哪些税
  • 环保局罚款记什么科目
  • 收到同业清算互联前置如何入账
  • 一般纳税人会计分录
  • sql常用语句大全简书
  • sql 超时时间
  • vista windows
  • 安装fedora33
  • win10系统无法卸载补丁
  • win7 64位旗舰版设置插上耳机就能播放声音拔下耳机就自动禁音方法
  • linux系统怎么隐藏文件
  • win10更新总失败
  • jquery tagname
  • 安卓微信5.0版本下载
  • nodejs获取客户端设备信息
  • listview点击获取内容
  • 使用jquery mobile时,jquery文件必须
  • unity双面材质
  • rpg好玩地图
  • code encode的区别
  • 电子税务局如何申报社保
  • 江西省税务局官网查询系统
  • 煤老板的苦恼
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设