位置: 编程技术 - 正文

详解Python网络爬虫功能的基本写法(python网络爬虫的流程图)

编辑:rootadmin

推荐整理分享详解Python网络爬虫功能的基本写法(python网络爬虫的流程图),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫步骤,python网络爬虫教程,python3.7网络爬虫快速入门,python爬网络数据,python网络爬虫步骤,python爬网络数据,150讲轻松搞定python网络爬虫,150讲轻松搞定python网络爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。

1. 网络爬虫的定义

网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来,网络爬虫就是一个爬行程序,一个抓取网页的程序。网络爬虫的基本操作是抓取网页。

2. 浏览网页的过程

抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏览器的地址栏中输入 www.baidu.com 这个地址。

打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。

HTML是一种标记语言,用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。

3. 基于python实现的网络爬虫功能

1). python获取html页面

详解Python网络爬虫功能的基本写法(python网络爬虫的流程图)

其实,最基本的抓站,两句话就可以了:

这样可以得到整个 html 文档,关键的问题是我们可能需要从这个文档中获取我们需要的有用信息,而不是整个文档。这就需要解析充满了各种标签的 html。

2). python爬虫抓取页面后解析html方法

python爬虫html解析库SGMLParser

Python 默认自带 HTMLParser 以及 SGMLParser 等等解析器,前者实在是太难用了,我就用 SGMLParser 写了一个示例程序:

很简单,这里定义了一个叫做 ListName 的类,继承 SGMLParser 里面的方法。使用一个变量 is_h4 做标记判定 html 文件中的 h4 标签,如果遇到 h4 标签,则将标签内的内容加入到 List 变量 name 中。解释一下 start_h4() 和 end_h4() 函数,他们原型是 SGMLParser 中的

tagname 就是标签名称,比如当遇到 <pre>,就会调用 start_pre,遇到 </pre>,就会调用 end_pre。attrs 为标签的参数,以 [(attribute, value), (attribute, value), ...] 的形式传回。

python爬虫html解析库pyQuery

pyQuery 是 jQuery 在 python 中的实现,能够以 jQuery 的语法来操作解析 HTML 文档,十分方便。使用前需要安装,easy_install pyquery 即可,或者 Ubuntu 下

以下例子:

python爬虫html解析库BeautifulSoup

有个头痛的问题是,大部分的网页都没有完全遵照标准来写,各种莫名其妙的错误令人想要找出那个写网页的人痛打一顿。为了解决这个问题,我们可以选择著名的 BeautifulSoup 来解析html 文档,它具有很好的容错能力。

标签: python网络爬虫的流程图

本文链接地址:https://www.jiuchutong.com/biancheng/381327.html 转载请保留说明!

上一篇:Python3实现Web网页图片下载(用python做web)

下一篇:python生成验证码图片代码分享(python自动化验证码)

  • 增值税发票综合服务平台怎么下载
  • 预收款交税规定
  • 设计印刷合同
  • 购进农产品的进项税额是9还是10
  • 房地产开发产品科目
  • 票种核定表怎么填写
  • 差额征税扣除额是什么意思
  • 研发费用可以计入哪个科目
  • 微信支付属于现金嘛
  • 天然气入户安装需要什么资质
  • 税控发票抵税还是抵收
  • 高新技术企业认证都有哪些条件
  • 收取不合规发票怎么处理
  • 取得运输业专用发票可以抵扣进项吗
  • 银行结算方式包括哪些内容
  • 库存商品报废进项转出
  • 汇算清缴调增税金及附加
  • 协会核定的税种都有哪些?
  • 关于一般纳税人提供非学历教育服务适用简易计税
  • 学校收到教育局拨款怎么做账
  • 收到员工补缴的公积金怎么入账
  • 基金管理人收取回扣
  • 应付账款转营业外收入需要什么条件
  • 研发支出是否可以抵税
  • 企业信息公示社保信息怎么填,公司没有交
  • 权益净利率是什么意思啊
  • window10总是自动开机
  • PHP:oci_server_version()的用法_Oracle函数
  • 企业购买银行理财
  • 有了php源码该如何使用 新手
  • 收到银行本票的账务处理
  • 小微企业所得税税收优惠政策2023年
  • 损益类科目包括利润分配吗
  • 建筑业红冲发票如何处理
  • php使用函数限制字符串长度和格式
  • php simple html dom parser
  • php自动部署
  • 变化检测是应用在图像的哪个运算中
  • es6的class类如何实现继承
  • vue 快速上手
  • 异地项目需要预缴增值税吗
  • pytest conftest
  • mongodb快速入门
  • 专用发票必须按照销售方开户行及账号付款吗
  • 进项税计税依据
  • 农副产品普通发票可以抵扣增值税吗
  • 养殖类合作社
  • 账实核对是指各种财产物资与债权债务的账面余额
  • 成本法的处置
  • 其它收益和递延收益的区别
  • 无形资产发生减值后怎么摊销
  • 结转本月完工产品成本会计分录怎么写
  • 保障房异地建设费属不属于土地成本
  • 建安业一般纳税人税率是多少
  • 利润分配和所有者权益的关系
  • 装修费按几年摊销费用
  • 商业承兑过期后可以退回吗
  • 货款已付对方不发货的案例分析
  • 公司三证合一是指哪三证
  • mysql案例分析
  • 建立iis
  • wps.exe是什么
  • Ubuntu 15.04系统怎么安装Visual Studio Code 2015?
  • 双系统怎么卸载系统
  • centos5安装步骤
  • 关闭win7屏保
  • 为什么好不容易瘦了两斤,两天吃好了又上来了?
  • 如何找回windows删除的文件
  • ligerUI---ListBox(列表框可移动的实例)
  • Vuforia ImageTarget Native版本编译
  • angularjs教程
  • JQuery解析XML的方法小结
  • jquery.browser
  • android 自定义actionbar
  • 重庆税务稽查局地址
  • 天津河东区医院地址电话
  • 企业代缴房产税可以入账吗
  • 财政部监制的发票
  • 北京市地方税务局土地增值税清算管理规程
  • 购买烟叶要交烟税吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设