位置: 编程技术 - 正文

Python3网络爬虫之使用User Agent和代理IP隐藏身份(python网络爬虫程序)

编辑:rootadmin

推荐整理分享Python3网络爬虫之使用User Agent和代理IP隐藏身份(python网络爬虫程序),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫视频教程,python3网络爬虫宝典,python 网络爬虫,python3网络爬虫宝典,Python3网络爬虫第二版pdf,python3网络爬虫宝典pdf下载,python3网络爬虫开发,Python3网络爬虫第二版,内容如对您有帮助,希望把文章链接给更多的朋友!

本文介绍了Python3网络爬虫之使用User Agent和代理IP隐藏身份,分享给大家,具体如下:

运行平台:Windows Python版本:Python3.x IDE:Sublime text3

一、为何要设置User Agent

有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。

User Agent存放于Headers中,服务器就是通过查看Headers中的User Agent来判断是谁在访问。在Python中,如果不设置User Agent,程序将使用默认的参数,那么这个User Agent就会有Python的字样,如果服务器检查User Agent,那么没有设置User Agent的Python程序将无法正常访问网站。

Python允许我们修改这个User Agent来模拟浏览器访问,它的强大毋庸置疑。

二、常见的User Agent

1.Android

Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JROD) AppleWebKit/. (KHTML, like Gecko) Chrome/.0.. Safari/. Mozilla/5.0 (Linux; U; Android 4.0.4; en-gb; GT-I Build/IMMD) AppleWebKit/. (KHTML, like Gecko) Version/4.0 Mobile Safari/. Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P Build/FROYO) AppleWebKit/.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/.1

2.Firefox

Mozilla/5.0 (Windows NT 6.2; WOW; rv:.0) Gecko/ Firefox/.0 Mozilla/5.0 (Android; Mobile; rv:.0) Gecko/.0 Firefox/.0

3.Google Chrome

Mozilla/5.0 (Windows NT 6.2; WOW) AppleWebKit/. (KHTML, like Gecko) Chrome/.0.. Safari/. Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMMB) AppleWebKit/. (KHTML, like Gecko) Chrome/.0.. Mobile Safari/.

4.iOS

Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/. (KHTML, like Gecko) Version/5.1 Mobile/9A Safari/..3 Mozilla/5.0 (iPod; U; CPU like Mac OS X; en) AppleWebKit/.1 (KHTML, like Gecko) Version/3.0 Mobile/3Aa Safari/.3

上面列举了Andriod、Firefox、Google Chrome、iOS的一些User Agent,直接copy就能用。

三、设置User Agent的方法

先看下urllib.request.Request()

从上图可以看出,在创建Request对象的时候,可以传入headers参数。

因此,想要设置User Agent,有两种方法:

1.在创建Request对象的时候,填入headers参数(包含User Agent信息),这个Headers参数要求为字典;

2.在创建Request对象的时候不添加headers参数,在创建完成之后,使用add_header()的方法,添加headers。

方法一:

Python3网络爬虫之使用User Agent和代理IP隐藏身份(python网络爬虫程序)

创建文件urllib_test.py,使用上面提到的Android的第一个User Agent,在创建Request对象的时候传入headers参数,编写代码如下:

运行结果如下:

方法二:

创建文件urllib_test.py,使用上面提到的Android的第一个User Agent,在创建Request对象时不传入headers参数,创建之后使用add_header()方法,添加headers,编写代码如下:

运行结果和上一个方法是一样的。

四、IP代理的使用

1.为何使用IP代理

User Agent已经设置好了,但是还应该考虑一个问题,程序的运行速度是很快的,如果我们利用一个爬虫程序在网站爬取东西,一个固定IP的访问频率就会很高,这不符合人为操作的标准,因为人操作不可能在几ms内,进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值,如果一个IP访问频率超过这个阈值,说明这个不是人在访问,而是一个爬虫程序。

2.一般步骤说明

一个很简单的解决办法就是设置延时,但是这显然不符合爬虫快速爬取信息的目的,所以另一种更好的方法就是使用IP代理。使用代理的步骤:

(1)调用urlib.request.ProxyHandler(),proxies参数为一个字典。

(2)创建Opener(类似于urlopen,这个代开方式是我们自己定制的)

(3)安装Opener

使用install_opener方法之后,会将程序默认的urlopen方法替换掉。也就是说,如果使用install_opener之后,在该文件中,再次调用urlopen会使用自己创建好的opener。如果不想替换掉,只是想临时使用一下,可以使用opener.open(url),这样就不会对程序默认的urlopen有影响。

3.代理IP选取

在写代码之前,先在代理IP网站选好一个IP地址,推荐西刺代理IP。

URL:

python数字图像处理之高级滤波代码详解 本文提供许多的滤波方法,这些方法放在filters.rank子模块内。这些方法需要用户自己设定滤波器的形状和大小,因此需要导入morphology模块来设定。1、aut

python学习笔记之列表(list)与元组(tuple)详解 前言最近重新再看python的基础知识,感觉自己还是对于这些知识很陌生,需要用的时候还是需要翻书查阅,还是先注重基础吧——我要重新把python的教

Python3 伪装浏览器的方法示例 一、伪装浏览器对于一些需要登录的网站,如果不是从浏览器发出的请求,则得不到响应。所以,我们需要将爬虫程序发出的请求伪装成浏览器正规军

标签: python网络爬虫程序

本文链接地址:https://www.jiuchutong.com/biancheng/375415.html 转载请保留说明!

上一篇:python网络爬虫之如何伪装逃过反爬虫程序的方法(python网络爬虫教程)

下一篇:python数字图像处理之高级滤波代码详解(python数字图像处理库)

  • 免征增值税的项目如何开发票
  • 企业间贴现如何开票
  • 资产负债表不平衡如何查找
  • 利润表中的资产减值损失包括哪些
  • 应付股东现金股利通过什么核算
  • 小规模纳税人建筑工程增值税税率
  • 资本公积和实收资本是什么意思
  • 收到代发工资的信息
  • 调研费包括哪些科目
  • 股票盈亏怎么计算app
  • 包工包料和包清工
  • 软件著作权销售好做吗
  • 开红字发票如何调整收入?
  • 项目部建筑施工筹建期会计账务处理
  • 一般纳税人申请流程
  • 营改增前的工程款现在怎么开票
  • 绿化费用明细
  • 案例分析正当防卫
  • 信用减值损失属于什么会计要素
  • 常见的审计调整事项
  • 向境外支付违约金要代扣税吗
  • 支付境外关联方借款利息需要的
  • 有哪些方法可以判断乳剂的类型
  • win7电脑怎么开
  • 办妥托收手续会计分录
  • 业务招待费扣除基数的收入包括哪些
  • 什么是BIOS设置界面
  • 职工教育经费怎么记账
  • 盆栽玉树的养殖方法
  • 外贸企业出口免抵退
  • 辅料分配方法
  • yii2-admin
  • 劳务报酬已扣税是否需报个税
  • 计入职工福利费的有哪些
  • 其他综合收益什么类科目
  • 现代信号处理张贤达
  • 行政单位核销其他应付款分录
  • 费用报销单票据怎么填
  • js reverse
  • 房地产返佣
  • 织梦官方网站
  • 结转材料成本差异所需科目
  • 贴现金额的会计分录
  • 应交增值税的计算要加已交税金还是扣除
  • 企业盈余公积的主要用途是
  • 增值税申报表填错不影响税额
  • 车辆车船税收费标准
  • 公司申请破产后员工有赔偿吗
  • 深入浅出夏寒陆行全文免费阅读笔趣阁番外
  • sql语句自动执行
  • 小规模纳税人每个月都要抄税清卡吗
  • 关于固定资产的说法
  • 外贸出口增值税附表二填哪项
  • 月销售额10万以下一般纳税人免征增值税
  • 定期定额个体工商户怎么报税
  • 利息收入是一级科目还是
  • 收到待报解预算收入是国家退的税吗
  • 进项税额转出为什么加到销项税额里
  • 多交的税费申请抵扣下期
  • 进项转出做账做什么会计
  • 纳税调整收入包括哪些
  • 电信线路租用费用
  • 什么是企业管理的基础工作
  • 发票开错了只能冲红票吗?
  • mysql数据库增量备份命令
  • win10预览版21277
  • solaris开放指定端口
  • xp系统注册表空白怎么办
  • The file /boot/grub/stage1 not read cor 解决办法
  • shell脚本编写步骤
  • 基于flask的开源项目
  • 一波JavaScript日期判断脚本分享
  • 事件绑定js
  • Unity3D游戏开发引擎
  • python怎么将数据存到数据库
  • unity3d文件怎么查看和修改
  • jqueryui dialog
  • 广西税务局增值税发票查询平台
  • 天然气入户安装收费标准2023
  • 地税局属于省直单位吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设