位置: 编程技术 - 正文

python爬虫入门教程--HTML文本的解析库BeautifulSoup(四)(python爬虫全套教程)

编辑:rootadmin

推荐整理分享python爬虫入门教程--HTML文本的解析库BeautifulSoup(四)(python爬虫全套教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫从入门到精通,python爬虫入门教程pdf,python爬虫入门教程非常详细,python爬虫从入门到精通,python爬虫入门教程,python爬虫入门教程非常详细,python爬虫教程,python爬虫教程,内容如对您有帮助,希望把文章链接给更多的朋友!

前言

python爬虫系列文章的第3篇介绍了网络请求库神器 Requests ,请求把数据返回来之后就要提取目标数据,不同的网站返回的内容通常有多种不同的格式,一种是 json 格式,这类数据对开发者来说最友好。另一种 XML 格式的,还有一种最常见格式的是 HTML 文档,今天就来讲讲如何从 HTML 中提取出感兴趣的数据

自己写个 HTML 解析器来解析吗?还是用正则表达式?这些都不是最好的办法,好在,Python 社区在这方便早就有了很成熟的方案,BeautifulSoup 就是这一类问题的克星,它专注于 HTML 文档操作,名字来源于 Lewis Carroll 的一首同名诗歌。

BeautifulSoup 是一个用于解析 HTML 文档的 Python 库,通过 BeautifulSoup,你只需要用很少的代码就可以提取出 HTML 中任何感兴趣的内容,此外,它还有一定的 HTML 容错能力,对于一个格式不完整的HTML 文档,它也可以正确处理。

安装 BeautifulSoup

BeautifulSoup3 被官方放弃维护,你要下载最新的版本 BeautifulSoup4。

HTML 标签

学习 BeautifulSoup4 前有必要先对 HTML 文档有一个基本认识,如下代码,HTML 是一个树形组织结构。

它由很多标签(Tag)组成,比如 html、head、title等等都是标签 一个标签对构成一个节点,比如 ... 是一个根节点 节点之间存在某种关系,比如 h1 和 p 互为邻居,他们是相邻的兄弟(sibling)节点 h1 是 body 的直接子(children)节点,还是 html 的子孙(descendants)节点 body 是 p 的父(parent)节点,html 是 p 的祖辈(parents)节点 嵌套在标签之间的字符串是该节点下的一个特殊子节点,比如 “hello, world” 也是一个节点,只不过没名字。

使用 BeautifulSoup

构建一个 BeautifulSoup 对象需要两个参数,第一个参数是将要解析的 HTML 文本字符串,第二个参数告诉 BeautifulSoup 使用哪个解析器来解析 HTML。

解析器负责把 HTML 解析成相关的对象,而 BeautifulSoup 负责操作数据(增删改查)。”html.parser” 是Python内置的解析器,”lxml” 则是一个基于c语言开发的解析器,它的执行速度更快,不过它需要额外安装

通过 BeautifulSoup 对象就可以定位到 HTML 中的任何一个标签节点。

BeatifulSoup 将 HTML 抽象成为 4 类主要的数据类型,分别是Tag , NavigableString , BeautifulSoup,Comment 。每个标签节点就是一个Tag对象,NavigableString 对象一般是包裹在Tag对象中的字符串,BeautifulSoup 对象代表整个 HTML 文档。例如:

Tag

每个 Tag 都有一个名字,它对应 HTML 的标签名称。

标签还可以有属性,属性的访问方式和字典是类似的,它返回一个列表对象

NavigableString

获取标签中的内容,直接使用 .stirng 即可获取,它是一个 NavigableString 对象,你可以显式地将它转换为 unicode 字符串。

基本概念介绍完,现在可以正式进入主题了,如何从 HTML 中找到我们关心的数据?BeautifulSoup 提供了两种方式,一种是遍历,另一种是搜索,通常两者结合来完成查找任务。

遍历文档树

遍历文档树,顾名思义,就是是从根节点 html 标签开始遍历,直到找到目标元素为止,遍历的一个缺陷是,如果你要找的内容在文档的末尾,那么它要遍历整个文档才能找到它,速度上就慢了。因此还需要配合第二种方法。

python爬虫入门教程--HTML文本的解析库BeautifulSoup(四)(python爬虫全套教程)

通过遍历文档树的方式获取标签节点可以直接通过 .标签名的方式获取,例如:

获取 body 标签:

获取 p 标签

获取 p 标签的内容

前面说了,内容也是一个节点,这里就可以用 .string 的方式得到。遍历文档树的另一个缺点是只能获取到与之匹配的第一个子节点,例如,如果有两个相邻的 p 标签时,第二个标签就没法通过 .p 的方式获取,这是需要借用 next_sibling 属性获取相邻且在后面的节点。此外,还有很多不怎么常用的属性,比如:.contents 获取所有子节点,.parent 获取父节点,更多的参考请查看官方文档。

搜索文档树

搜索文档树是通过指定标签名来搜索元素,另外还可以通过指定标签的属性值来精确定位某个节点元素,最常用的两个方法就是 find 和 find_all。这两个方法在 BeatifulSoup 和 Tag 对象上都可以被调用。

find_all()

find_all 的返回值是一个 Tag 组成的列表,方法调用非常灵活,所有的参数都是可选的。

第一个参数 name 是标签节点的名字。

第二个参数是标签的class属性值

等效于

因为 class 是 Python 关键字,所以这里指定为 class_。

kwargs 是标签的属性名值对,例如:查找有href属性值为 " 的标签

当然,它还支持正则表达式

属性除了可以是具体的值、正则表达式之外,它还可以是一个布尔值(True/Flase),表示有属性或者没有该属性。

遍历和搜索相结合查找,先定位到 body 标签,缩小搜索范围,再从 body 中找 a 标签。

find()

find 方法跟 find_all 类似,唯一不同的地方是,它返回的单个 Tag 对象而非列表,如果没找到匹配的节点则返回 None。如果匹配多个 Tag,只返回第0个。

get_text()

获取标签里面内容,除了可以使用 .string 之外,还可以使用 get_text 方法,不同的地方在于前者返回的一个 NavigableString 对象,后者返回的是 unicode 类型的字符串。

实际场景中我们一般使用 get_text 方法获取标签中的内容。

总结

BeatifulSoup 是一个用于操作 HTML 文档的 Python 库,初始化 BeatifulSoup 时,需要指定 HTML 文档字符串和具体的解析器。BeatifulSoup 有3类常用的数据类型,分别是 Tag、NavigableString、和 BeautifulSoup。查找 HTML元素有两种方式,分别是遍历文档树和搜索文档树,通常快速获取数据需要二者结合。

好了,

标签: python爬虫全套教程

本文链接地址:https://www.jiuchutong.com/biancheng/372374.html 转载请保留说明!

上一篇:Python win32com 操作Exce的l简单方法(必看)

下一篇:python爬虫入门教程--正则表达式完全指南(五)(python爬虫入门教程)

  • 车船税每年都要交吗不交有什么影响
  • 个人所得税怎么交
  • 为什么生产车间地板是绿色的
  • 主营业务成本可以暂估吗
  • 未开具发票负数的原因
  • 库存盘盈盘亏按进价还是售价
  • 工程款抵房款账务怎么做
  • 银行贷款利息从几点计算
  • 外购一批原材料对外销售
  • 软件维护费可以出维护人员工资吗?
  • 水产养殖公司的经营范围_问答
  • 增值税普通发票查询真伪
  • 合伙企业个人所得税怎么申报
  • 个人转让住房要交哪些税费?
  • 普通的增值税发票可以查询到购买人的信息吗
  • 毛利润和纯利润的计算公式
  • 自己开电子发票要什么软件
  • 金三接口调用失败怎么办?
  • 减征资源税中是否包含水资源税?
  • 取得高新技术企业
  • 无法划分进项税额包括什么
  • bios里面怎么设置中文
  • mac鼠标移动到角落立刻显示桌面
  • windows10如何开启wifi
  • 公账如何存钱
  • 贴现短期无息应付票据
  • 应交增值税视频讲解
  • 非营利组织营利包括哪些
  • ERROR: Could not build wheels for opencv-python which use PEP 517 and cannot be installed directly
  • php获取并显示用户的用户名
  • php获取文本框输入的值
  • 什么是社保差额
  • 微信php源码
  • 多线程的弊端
  • photo-sphere-viewer中文文档
  • 什么是多模态研究
  • pytorch torch
  • 企业季度预缴土地出让金
  • mysql ndb innodb
  • 缴税的会计处理
  • 所得税费用会计处理
  • 包含个人社保的保险
  • mysql如何打开使用
  • mongodb bi
  • 待报解预算收入是什么意思,扣了钱
  • 劳务工资缴税标准
  • 开具免税的发票,"税率"栏如何填开?
  • 正解之途
  • 建筑劳务单位
  • 机械租赁开票内容
  • 自然人独资交企业所得税吗
  • 预收账款确认的条件
  • 非货币性资产交换以公允价值为基础进行计量
  • 会计的视频教程
  • 企业代办业务有哪些
  • 小微企业免征的增值税属于政府补助吗
  • 网络竞价须知
  • 本月增加的固定资产本月可以进行部门转移
  • 工程发票可以作废吗
  • 盈余公积金计算方法
  • 内勤会计是不是不算会计
  • 长期股权投资属于什么会计要素
  • 企业如何建账做账
  • ubuntul
  • 苹果官网
  • 开机提示按CTRL+ALT+DEL,无限重启怎么办
  • win8整理磁盘碎片的步骤
  • linux和windows的区别?
  • win10系统出现蓝屏
  • win10移动版能运行电脑软件吗
  • linux 多块硬盘虚拟成一块
  • 浅谈会计诚信与职业道德论文
  • 搭建nodejs项目
  • js 上下文
  • 江西烟草公司局长
  • 房产营业税满2年怎么算
  • 民办非企业需要办理税务登记吗
  • 营改增后土地增值税
  • 劳务合同和劳务协议的区别和联系
  • 山西省网上营业执照申请官网?
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设