位置: 编程技术 - 正文

python爬虫的工作原理(python爬虫工作内容)

编辑:rootadmin

推荐整理分享python爬虫的工作原理(python爬虫工作内容),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫工作原理,python爬虫技术可以干什么,python爬虫的用途,python爬虫工作原理,python爬虫工作内容,python爬虫工作原理,python爬虫工作原理,python爬虫工作原理,内容如对您有帮助,希望把文章链接给更多的朋友!

1.爬虫的工作原理

网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来,网络爬虫就是一个爬行程序,一个抓取网页的程序。网络爬虫的基本操作是抓取网页。那么如何才能随心所欲地获得自己想要的页面?先从URL开始。

抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏览器的地址栏中输入www.baidu.com这个地址。打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。HTML是一种标记语言,用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。

简单的来讲,URL就是在浏览器端输入的 HTML文档、图像、视频片段、程序等都由一个通用资源标志符(Universal Resource Identifier, URI)进行定位。

URI通常由三部分组成:

访问资源的命名机制; 存放资源的主机名; 资源自身 的名称,由路径表示。

如下面的URI: 这是一个可以通过HTTP协议访问的资源, 位于主机 www.webmonkey.com.cn上, 通过路径“/html/html”访问。

2. URL的理解和举例

URL是URI的一个子集。它是Uniform Resource Locator的缩写,译为“统一资源定位 符”。通俗地说,URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL的一般格式为(带方括号[]的为可选项):

python爬虫的工作原理(python爬虫工作内容)

protocol :// hostname[:port] / path / [;parameters][&#;query]#fragment

URL的格式由三部分组成:

第一部分是协议(或称为服务方式)。 第二部分是存有该资源的主机IP地址(有时也包括端口号)。 第三部分是主机资源的具体地址,如目录和文件名等。

第一部分和第二部分用“://”符号隔开,第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。

3、URL和URI简单比较

URI属于URL更低层次的抽象,一种字符串文本标准。换句话说,URI属于父类,而URL属于URI的子类。URL是URI的一个子集。URI的定义是:统一资源标识符;URL的定义是:统一资源定位符。二者的区别在于,URI表示请求服务器的路径,定义这么一个资源。而URL同时说明要如何访问这个资源( 1.HTTP协议的URL示例:

使用超级文本传输协议HTTP,提供超级文本信息服务的资源。

例: /channel下的welcome.htm。

这是中国人民日报的一台计算机。

例: 径(即目录)和文件名等信息。

有时可以省略目录和文件名,但“/”符号不能省略。

例: 进行进一步的处理。

因此,准确地理解URL对理解网络爬虫至关重要。

标签: python爬虫工作内容

本文链接地址:https://www.jiuchutong.com/biancheng/378652.html 转载请保留说明!

上一篇:Windows安装Python、pip、easy_install的方法(windows安装python pip)

下一篇:windows下安装Python和pip终极图文教程(windows下安装nas)

  • 北京市增值税发票查验平台
  • 出口退税免税政策
  • 什么叫关税完税价
  • 小规模纳税人所得税优惠政策2023
  • 增值税发票抵扣是什么意思
  • 有限公司能否申请破产
  • 车辆过户需要交费吗
  • 营业执照年审后日期会变吗
  • 驾驶培训费可以报销吗
  • 收到电费发票做账摘要怎么写
  • 免抵退办法出口销售额和免税销售额的区别
  • 支付保安公司的钱违法吗
  • 增值税出口退税计入什么科目
  • 个体工商户如何给员工交社保
  • 开专票附加8个税点怎么计算?
  • 拿到农产品0税率的发票可以抵扣吗
  • 帮你用好小微企业所得税优惠的7个案例
  • 企业收到要发放给员工的补贴
  • 事业单位购买固定资产费自行
  • 公户以借款形式打款给个人,对个人有影响么?
  • 食用盐的增值税是多少
  • 劳务派遣公司开票几个点
  • 金蝶迷你版不能期末结账怎么办
  • U盘复制文件提示文件过大
  • typecho插件开发教程
  • 企业职工工伤赔偿标准
  • mac如何恢复到出厂系统版本
  • 2020工资计税基数怎么算
  • 金融企业贷款逾期怎么办
  • 无法ping通ip地址
  • vant移动端开发
  • 公司支付员工工伤医疗费怎么入账
  • 为什么筹建期间的开办费不属于资产
  • 外经交的个税如何计算
  • 软件企业认定好处
  • 心形岛屿叫什么名字
  • mla指令
  • php发送http请求的常用方法分析
  • 兼职人员的劳务费标准
  • 企业公章的使用和管理规定
  • 公司从个人手中购买二手车
  • 完税证明可以去税务局补打吗
  • SQL2005中char nchar varchar nvarchar数据类型的区别和使用环境讲解
  • 使用mysqldump备份数据库
  • mysql改造
  • 用商品抵债的分类有哪些
  • 风险纳税人认定条件2020
  • 税务机关多收税款几年可以要求退回
  • 现金管理办法的内容包括
  • 配电箱安装步骤及要求
  • 2018城镇医疗保险缴费
  • 社会保险费计提分录
  • 扣非净利润增长率
  • 已认证发票退回说明模板
  • 无发票临时工劳务费账务处理
  • 子公司提取盈余公积
  • 累计扣税标准2021标准
  • 全国统一电子发票查询
  • 购买汽车保险费是否做入固定资产
  • 明细分类账三栏式
  • 企业建账要求
  • mac购买建议
  • macbook做热点
  • linuxmail命令
  • ati2plab.exe是什么进程 ati2plab进程安全吗
  • win10企业版教育版专业版哪个好
  • win10系统登录密码忘了怎么办
  • android 相对布局居中
  • Java反射机制和动态代理机制
  • shell脚本读取ini文件
  • jquery与ajax获取特殊字符实例详解
  • python自动生成
  • 防止重复调用接口
  • javascript基础入门教程
  • tomcat8.5.8
  • python计算文件大小
  • 开的发票怎么抽奖
  • 青岛已开通几条地铁线路
  • 美国有汽车吗
  • 江苏地税局如何交社保
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设