位置: 编程技术 - 正文

一些常用的Python爬虫技巧汇总(一些常用的网络命令)

编辑:rootadmin

推荐整理分享一些常用的Python爬虫技巧汇总(一些常用的网络命令),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:一些常用的英语单词,一些常用的英语单词,一些常用的信息收集命令有,一些常用的网络用语,一些常用的补药尤其是补肾的药基本上都是什么做的,一些常用的家庭小妙招,一些常用的网络用语,一些常用的补药尤其是补肾的药基本上都是什么做的,内容如对您有帮助,希望把文章链接给更多的朋友!

Python爬虫:一些常用的爬虫技巧总结

爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。

1、基本抓取网页

get方法

post方法

2、使用代理IP

在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP;

在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段:

3、Cookies处理

cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密),python提供了cookielib模块用于处理cookies,cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源.

代码片段:

关键在于CookieJar(),它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失,所有过程都不需要单独去操作。

手动添加cookie

一些常用的Python爬虫技巧汇总(一些常用的网络命令)

4、伪装成浏览器

某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error : Forbidden的情况

对有些 header 要特别留意,Server 端会针对这些 header 做检查

1).User-Agent 有些 Server 或 Proxy 会检查该值,用来判断是否是浏览器发起的 Request2).Content-Type 在使用 REST 接口时,Server 会检查该值,用来确定 HTTP Body 中的内容该怎样解析。

这时可以通过修改http包中的header来实现,代码片段如下:

5、页面解析

对于页面解析最强大的当然是正则表达式,这个对于不同网站不同的使用者都不一样,就不用过多的说明,附两个比较好的网址:

正则表达式入门: % 以上。这尤其适用于 XML web 服务,因为 XML 数据 的压缩率可以很高。

但是一般服务器不会为你发送压缩数据,除非你告诉服务器你可以处理压缩数据。

于是需要这样修改代码:

这是关键:创建Request对象,添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据

然后就是解压缩数据:

8、多线程并发抓取

单线程太慢的话,就需要多线程了,这里给个简单的线程池模板 这个程序只是简单地打印了1-,但是可以看出是并发的。

虽然说python的多线程很鸡肋,但是对于爬虫这种网络频繁型,还是能一定程度提高效率的。

标签: 一些常用的网络命令

本文链接地址:https://www.jiuchutong.com/biancheng/384496.html 转载请保留说明!

上一篇:Python三级目录展示的实现方法(python教程目录)

下一篇:python 排序算法总结及实例详解(python排序算法比较)

  • 出票后定期付款的汇票是什么意思
  • 政府奖励收入要交企业所得税么
  • 临时设施摊销方案怎么写
  • 免征增值税项目记忆
  • 新准则前期差错更正
  • 收到发票当月不抵扣怎么做账
  • 应付职工薪酬的账务处理
  • 增值税普通发票税率
  • 公司股权转让应纳税额怎么算
  • 印花税是填开票金额吗
  • 企业完税凭证入账后怎么办理退税?
  • 机械租赁费如何开
  • 事业单位没有税号 选个人可以吗
  • 应交税金增值税明细账怎么登记
  • 贸易公司收到货款会计分录
  • 应纳税所得额怎么理解
  • 餐饮发票忘记作废也没冲红怎么处理?
  • 外籍人员探亲签证
  • 受委托研发企业可以享受研发支出吗
  • 个人所得税应纳税额计算表图片
  • 贷款贴息是什么政策
  • 合伙企业取得红利怎么交税
  • 包装物租金怎么计算增值税
  • 票已收到款未付怎么办
  • 暂存款借方余额
  • PHP:Memcached::touch()的用法_Memcached类
  • 纳税申报的流程有哪三步
  • php获取变量长度
  • 税收原则的含义
  • 会计科目的设置应该符合国家统一会计准则的规定
  • 增值税专用发票有几联?
  • 生产成本制造费用怎么算
  • 核心概念英文翻译
  • nvm for window
  • 城建税减征50%
  • 医学图像处理的步骤一是设计
  • 2023年我要实现的目标是
  • 一个简单安全的小故事
  • 代发工资如何计算
  • 旅行社的会计分录怎么做
  • 拆迁补偿账务处理办法
  • python深入浅出
  • 物业会计账务处理大全
  • sql server 2008怎么使用sql语句
  • 国家税务总局纳税服务规范
  • 养殖类合作社
  • 残疾人就业保证金上年工资总额是说上一年度么
  • 转账结算的原则是什么
  • 房地产开发结转流程
  • 注销时其他应付款借方余额怎么账务处理
  • 应交增值税减免税额在借方
  • 以银行存款支付固定资产修理费
  • 生产车间买的工具计入什么费用
  • 11个点增值税发票是多少
  • 附条件的行政行为有哪些
  • 租入办公楼装修费按几年摊销
  • 日记账的标准格式是
  • Windows server 2003 最后一代cpu
  • win2000系统禁止ping
  • vcdcontroltool
  • win8老是自动安装软件
  • 怎么知道游戏是什么引擎
  • win8系统怎么设置
  • macbookair电脑屏幕
  • win8.1新建桌面
  • linux 卸载 mysql
  • dosbox批处理
  • java中初始化顺序
  • bat判断变量的值
  • css实现放大缩小的动画效果
  • python迭代器iterator
  • js实现多继承
  • unity c#开发
  • js实现的简单鼠标代码
  • 二级菜单css代码
  • jquery实现二级联动菜单
  • android上吹一吹功能的实现代码
  • jsp中img标签
  • 海口市地税局高峰简历
  • 国家税务总局关于新型墙体材料增值税政策的通知
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设