位置: 编程技术 - 正文

一些常用的Python爬虫技巧汇总(一些常用的网络命令)

编辑:rootadmin

推荐整理分享一些常用的Python爬虫技巧汇总(一些常用的网络命令),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:一些常用的英语单词,一些常用的英语单词,一些常用的信息收集命令有,一些常用的网络用语,一些常用的补药尤其是补肾的药基本上都是什么做的,一些常用的家庭小妙招,一些常用的网络用语,一些常用的补药尤其是补肾的药基本上都是什么做的,内容如对您有帮助,希望把文章链接给更多的朋友!

Python爬虫:一些常用的爬虫技巧总结

爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。

1、基本抓取网页

get方法

post方法

2、使用代理IP

在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP;

在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段:

3、Cookies处理

cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密),python提供了cookielib模块用于处理cookies,cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源.

代码片段:

关键在于CookieJar(),它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失,所有过程都不需要单独去操作。

手动添加cookie

一些常用的Python爬虫技巧汇总(一些常用的网络命令)

4、伪装成浏览器

某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error : Forbidden的情况

对有些 header 要特别留意,Server 端会针对这些 header 做检查

1).User-Agent 有些 Server 或 Proxy 会检查该值,用来判断是否是浏览器发起的 Request2).Content-Type 在使用 REST 接口时,Server 会检查该值,用来确定 HTTP Body 中的内容该怎样解析。

这时可以通过修改http包中的header来实现,代码片段如下:

5、页面解析

对于页面解析最强大的当然是正则表达式,这个对于不同网站不同的使用者都不一样,就不用过多的说明,附两个比较好的网址:

正则表达式入门: % 以上。这尤其适用于 XML web 服务,因为 XML 数据 的压缩率可以很高。

但是一般服务器不会为你发送压缩数据,除非你告诉服务器你可以处理压缩数据。

于是需要这样修改代码:

这是关键:创建Request对象,添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据

然后就是解压缩数据:

8、多线程并发抓取

单线程太慢的话,就需要多线程了,这里给个简单的线程池模板 这个程序只是简单地打印了1-,但是可以看出是并发的。

虽然说python的多线程很鸡肋,但是对于爬虫这种网络频繁型,还是能一定程度提高效率的。

标签: 一些常用的网络命令

本文链接地址:https://www.jiuchutong.com/biancheng/384496.html 转载请保留说明!

上一篇:Python三级目录展示的实现方法(python教程目录)

下一篇:python 排序算法总结及实例详解(python排序算法比较)

  • 个体户交税和个人所得税
  • 季报业务活动表本月数
  • 查看企业用什么软件
  • 物业公司是小规模纳税人税率是多少
  • 企业所得税汇算清缴申报表
  • 外贸企业的会计
  • 以非现金资产清偿债务的方式下,债权人
  • 补偿金申报个所税如何录入?
  • 收到福利费会计分录
  • 广告位租赁交印花税吗
  • 劳务派遣企业如何认定
  • 本期准予扣除税额是什么
  • 支票收款
  • 旅游业差额征税怎么计算
  • 印花税减半再减半政策文件是什么
  • 公司发工资了
  • 怎么利用腾讯手机号找人
  • SWNETSUP.EXE - SWNETSUP是什么进程 有什么用
  • 基准收益率是
  • 我公司对某公司作如下措施
  • 腾讯电脑管家的信任区在哪里
  • 如何更改windows11显示语言
  • 在线网速测试工具
  • 公司奖金没有按时发可以要吗
  • PHP CURL或file_get_contents获取网页标题的代码及两者效率的稳定性问题
  • php语言之面向对象编程 educoder
  • scsiaccess.exe - scsiaccess是什么进程 有什么用
  • 公积金提取条件和标准
  • w10控制中心在哪
  • 房地产企业土地使用税计算方法
  • php官方文档
  • php23种设计模式
  • 收到提供劳务的收入
  • php stomp
  • 测试工程师有前途么
  • php oauth2 单点登录
  • php类的特性实例是什么
  • nbtstat命令
  • 命令查看系统信息
  • 分公司申请独立账户流程
  • python输出inf
  • centOS下mysql workbench安装配置教程
  • 文化传媒公司介绍
  • 发票开具与小票的关系是怎样的
  • 企业向个人借款协议范本
  • mysql查询并设置变量
  • 背书是什么含义
  • 哪些员工出差的多
  • 溢价收购股权所得税税率
  • 提供维修业务的税率是多少
  • 企业购买商场的资本金要求是多少
  • 主营业务收入的计算公式
  • 支付的中介费进什么科目
  • 结转完期间损益是不是可以结账了
  • 现金日记账年结怎么做
  • 特殊销售方式下销售额的确定
  • 股东以货币出资的 应当将货币足额存入
  • 平均净资产怎么算公式的
  • 租赁合同的印花税的计税依据
  • 支付投资者投入的款项
  • 主营业务收入在借方表示什么
  • 进口货物的库存商品金额依据
  • 讲课费需要提供发票吗
  • 阿里云ecs centos sysctl
  • bitronix 连接 MySQL 出现MySQLSyntaxErrorException 的解决方法
  • 根据日期算时间
  • centos基本操作
  • win10安装apache服务失败
  • 怎么给网络设置防火墙
  • windows7装进u盘
  • iptables -l -n
  • quick-lua touch 触摸事件
  • 简述android应用的常用开发模式及其优缺点
  • linux 每隔几秒执行一次
  • 用bat实现定时执行任务的批处理文件
  • python数据结构教程
  • javascript入门·对象属性方法大总结
  • 安卓动画不流畅
  • 税务总局转变税收征管方式
  • 公司税务怎么查询缴款信息呢
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设