位置: 编程技术 - 正文

如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求(怎么看判断)

发布时间:2024-02-27

推荐整理分享如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求(怎么看判断),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:如何准确判断请假成功,教我怎么判断,如何准确判断请假成功,如何准确判断请假成功,如何准确判断请假成功,如何准确的判断,如何准确的判断,如何准确判断请假成功,内容如对您有帮助,希望把文章链接给更多的朋友!

网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent。

所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫(蜘蛛)的方式是不靠谱的,更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。

要获得ip的host,在windows下可以通过nslookup命令,在linux下可以通过host命令来获得,例如:

这里我在windows下执行了nslookup ip 的命令,从上图可以看到这个ip的主机名是crawl----.googlebot.com。 这说明这个ip是一个google爬虫,google爬虫的域名都是 xxx.googlebot.com.

我们也可以通过python程序的方式来获得ip的host信息,代码如下:

上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。

常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:

百度的蜘蛛通常是baidu.com或者baidu.jp的子域名

google爬虫通常是googlebot.com的子域名

微软bing搜索引擎爬虫是search.msn.com的子域名

搜狗蜘蛛是crawl.sogou.com的子域名

基于以上原理,我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面,该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。

附带常见搜索引擎蜘蛛的IP段:

蜘蛛名称 IP地址 Baiduspider

...* ...* ...* ...* ...* ...* ...*

YodaoBot

..7. ..7. ..7.

Sogou web spider

...* ...*

Googlebot

...*

Yahoo! Slurp

...* ...* .6..* .6..*

Yahoo ContentMatch Crawler 如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求(怎么看判断)

...* ...*

Sogou-Test-Spider

... ...

Twiceler

... ...9

Yahoo! Slurp China

...*

Sosospider ..0.* CollapsarWEB qihoobot

...

NaverBot

...

Sogou Orion spider

... ...

Sogou head spider

...

SurveyBot

..5. ...

Yanga WorldSearch Bot v

... ...

baiduspider-mobile-gate

..5. ...

discobot

...

ia_archiver ... msnbot

... ... ...

sogou in spider

...

ps:https协议网页能够被搜索引擎收录吗

百度现在只能收录少部分的https,大部分的https网页无法收录。

不过我查询了google资料,Google能够比较好地收录https协议的网站。

所以如果你的网站是中文的,而且比较关注搜索引擎自然排名流量这块,建议尽量不要将所有内容都放到https中去加密去。

可考虑的方式是:

1、对于需要加密传递的数据,使用https,比如用户登录以及用户登录后的信息;

2、对于普通的新闻、图片,建议使用http协议来传输;

3、网站首页建议使用http协议的形式。

详解Python中的元组与逻辑运算符 Python元组元组是另一个数据类型,类似于List(列表)。元组用"()"标识。内部元素用逗号隔开。但是元素不能二次赋值,相当于只读列表。#!/usr/bin/python#

Python中的字典与成员运算符初步探究 Python元字典字典(dictionary)是除列表以外python之中最灵活的内置数据结构类型。列表是有序的对象结合,字典是无序的对象集合。两者之间的区别在于:

举例讲解Python中的身份运算符的使用方法 Python身份运算符身份运算符用于比较两个对象的存储单元以下实例演示了Python所有身份运算符的操作:#!/usr/bin/pythona=b=if(aisb):print"Line1-aandbhavesameidenti

标签: 怎么看判断

本文链接地址:https://www.jiuchutong.com/biancheng/377066.html 转载请保留说明!

上一篇:Python语法快速入门指南(python3.6语法)

下一篇:详解Python中的元组与逻辑运算符(python元数据)

  • 投资性房地产采用成本模式计量
  • 组成计税价格包括什么
  • 10万以内免征增值税怎么做账
  • 进项税额转出是在当月还是回到所属期
  • 其他综合收益和综合收益的关系
  • 什么是税收筹划风险?税收筹划风险的种类有哪些?
  • 上级拨付的固定资产增加类型是什么
  • 产品检验费怎样做账?
  • 年终奖第二年才发怎么计算个税在个税app
  • 商业承兑汇票风险
  • 分期消费的实际收益
  • 经营现金流量为负数是什么意思
  • 个人转租房子
  • 公司付股东退股怎么处理
  • 开给销货方红字信息表如何做账?
  • win10设置里没有飞行模式
  • 公司流水账是会计做吗
  • 计提债券本年利息分录
  • 没有权限使用网络资源,请与这台服务器的管理员联系
  • windows商店下载不了
  • gain_trickler_3202.exe 进程查询 gain_trickler_3202进程是什么文件
  • PHP:mcrypt_enc_get_key_size()的用法_Mcrypt函数
  • 保险储金是什么意思
  • 合伙搞养殖
  • 工业企业采购部工作职责
  • framework怎么用
  • 餐厅的餐具怎么摆
  • php上传图片到数据库完整代码
  • 代理服务费怎么入账
  • 小规模单位没交五险一金
  • 谁能代替你啊
  • docker的常用命令汇总
  • 购进原材料款项未付应编制什么凭证
  • 预支工资的借条图片
  • 外币应收账款汇兑损失计入
  • 金税盘 解锁
  • Spring(三)-AOP
  • 向境外支付赔偿款是否需要税务备案
  • 固定资产折旧准备属于什么科目
  • 非财政补助结余在资产负债表中怎么填
  • 如何查看sqlserver实例名称
  • 企业亏损所得税处理
  • 公司被仲裁后怎么补救
  • 所得税营业成本包括管理费用吗
  • 本期盈余转入累计盈余
  • 一般纳税人公司开普票几个税点?
  • 小规模纳税人出售使用过固定资产
  • 购买其他权益工具投资公允大于我支付的价值
  • 预付检测费未收到发票
  • 商业承兑汇票如何承兑?
  • 公司租赁办公场所,没发票怎么办
  • 本月暂估入库,下月
  • 库存商品的成本
  • 股本金退出要交税吗?
  • 金税盘忘记清卡了怎么办
  • 怎样才能制作出白瓷
  • 往来账是什么样的
  • 制单的基本要求是什么
  • sqlserver关键字附近有语法错误
  • sql的常用函数
  • solaris安装软件包
  • linux创建makefile
  • linux磁盘分区表
  • 服务器centos版本选择
  • vrvarp.exe是什么
  • xp电脑小游戏
  • win8.1屏幕键盘
  • win7系统的电脑能装win10吗
  • Particle system study section 1
  • python如何精确小数
  • 检查网络资料
  • android开发最全教程
  • javascript基础类型
  • jquery数据绑定
  • python装饰器初探(推荐)
  • 安卓怎么压缩
  • 病历证明在医院保存多久
  • 四川医保卡原始密码是什么意思
  • 国家税务总局16号文件
  • 代扣代缴企业所得税会计分录
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号