位置: 编程技术 - 正文

Python利用Beautiful Soup模块创建对象详解(python利用数据文件统计成绩)

编辑:rootadmin

推荐整理分享Python利用Beautiful Soup模块创建对象详解(python利用数据文件统计成绩),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python利用beautifulsoup输出第五个的内容,python利用for循环求1到100的奇数之和,python利用while循环求1+2+3......+n的和,python利用while循环求1+2+3......+n的和,python利用csv模块在对csv文件进行操作,python利用csv模块在对csv文件进行操作,python利用for循环求1到100的和,python利用while循环求1+2+3......+n的和,内容如对您有帮助,希望把文章链接给更多的朋友!

安装

通过 pip 安装 Beautiful Soup 模块:pip install beautifulsoup4 。

还可以使用 PyCharm IDE 来写代码,在 PyCharm 中的 Preferences 中找到 Project ,在里面搜索 Beautiful Soup 模块,进行安装即可。

创建 BeautifulSoup 对象

Beautiful Soup 模块广泛使用从网页中得到数据。我们能够使用 Beautiful Soup 模块从 HTML/XML 文档中提取任何数据,例如,网页中的所有链接或者标签内的内容。

为了实现这一点,Beautiful Soup 提供了不同的对象和方法。任何的 HTML/XML 文档能够转化成不同的 Beautiful Soup 对象,这些对象有着不同的属性和方法,我们能够从中提取到需要的数据。

Beautiful Soup 总共有如下三种对象:

BeautifulSoup Tag NavigableString

创建 BeautifulSoup 对象

创建一个 BeautifulSoup 对象是任何 Beautiful Soup 工程的起点。

BeautifulSoup 可以通过传一个字符串或者类文件对象(file-like object),例如机器上的文件或者网页。

通过字符串创建 BeautifulSoup 对象

在 BeautifulSoup 的构造器中通过传递一个字符串来创建对象。

通过类文件对象创建 BeautifulSoup 对象

在 BeautifulSoup 的构造器中通过传递一个类文件对象(file-like object)来创建对象。这在解析在线网页时非常有用。

除了传递类文件对象之外,我们还可以传递本地文件对象到 BeautifulSoup 的构造器来生成对象。

为 XML 解析创建 BeautifulSoup 对象

Beautiful Soup 模块同样能够用来解析 XML 。

当创建一个 BeautifulSoup 对象时, Beautiful Soup 模块将会选择合适的 TreeBuilder 类来创建 HTML/XML 树。默认情况下,选择 HTML TreeBuilder 对象,它将使用默认的 HTML 解析器,产生一个 HTML 结构树。在上面的代码中,由字符串生成 BeautifulSoup 对象,就是将它解析成了 HTML 树结构。

如果我们想要 Beautiful Soup 模块将输入的内容解析为 XML 类型,那么就需要在 Beautiful Soup 构造器中精确指定使用的 features 参数。通过特定的 features 参数,Beautiful Soup 将会选择最适合的 TreeBuilder 类来满足我们想要的特征。

理解 features 参数

每一个 TreeBuilder 根据它使用的解析器将会有不同的特征。因此,输入的内容根据传递到构造器的 features 参数也会有不同的结果。 在 Beautiful Soup 模块中,TreeBuilder 当前使用的解析器如下:

lxml html5lib html.parser

BeautifulSoup 构造器的 features 参数能够接受一个字符串列表或一个字符串值。

当前,每一个 TreeBuilder 支持的 features 参数和解析器如下表所示:

Features TreeBuilder Parser [‘lxml','html','fast','permissive'] LXMLTreeBuilder lxml [‘html','html5lib','permissive','strict','html5′] HTML5TreeBuilder html5lib [‘html','strict','html.parser'] HTMLParserTreeBuilder html.parser [‘xml','lxml','permissive','fast'] LXMLTreeBuilderForXML lxml

Python利用Beautiful Soup模块创建对象详解(python利用数据文件统计成绩)

根据指定的 feature 参数,Beautiful Soup 将会选择最合适的 TreeBuilder 类。如果在指定对应的解析器时,出现如下的报错信息,可能就是需要安装对应的解析器了。

就 HTML 文档而言,选择 TreeBuilder 的顺序是基于解析器建立的优先级,就如上表格所示的优先级。首先是 lxml ,其次是 html5lib ,最后才是 html.parser 。例如,我们选择 html 字符串作为 feature 参数,那么如果 lxml 解析器可用,则 Beautiful Soup 模块将会选择 LXMLTreeBuilder 。如果 lxml 不可用,则会选择 根据 html5lib 解析器选择 HTML5TreeBuilder 。如果在不可用,则会选择根据 html.parser 选择 HTMLParserTreeBuilder 了。

至于 XML ,由于 lxml 是唯一的解析器,所以 LXMLTreeBuilderForXML 总是会被选择的。

所以,为 XML 创建一个 Beautiful Soup 对象的代码如下:

输入的结果也是 XML 形式的文件 :

在创建 Beautiful Soup 对象时,更好的实践是指定解析器。这是因为,不同的解析器解析的结果内容大不相同,尤其是在我们的 HTML 文档内容非法时,结果更为明显。

当我们创建一个 BeautifulSoup 对象时,Tag 和 NavigableString 对象也就创建了。

创建 Tag 对象

我们可以从 BeautifulSoup 对象中得到 Tag 对象,也就是 HTML/XML 中的标签。

如下 HTML 代码所示:

从结果中可以看到 atag 的类型是 <class 'bs4.element.Tag'> 。而 soup.a 的结果就是 HTML 文档中的第一个 <a> 标签。 HTML/XML 标签对象具有名称和属性。名称就是标签的名字,例如 标签 <a> 的名称就是 a 。属性则是标签的 class 、id 、style 等。Tag 对象允许我们得到 HTML 标签的名称和属性 。

Tag 对象的名称

通过 .name 方式得到 Tag 对象的名称 。

同时也能够改变 Tag 对象的名称:

这样就将上面 HTML 文档中的第一个 <a> 标签名称换成了 <p> 标签了。

Tag 对象的属性

在 HTML 页面中,标签可能有不同的属性,例如 class 、id 、style 等。Tag 对象能够以字典的形式访问标签的属性。

也能通过 .attrs 的方式访问到,这样会将所有的属性内容都打印出来 :

创建 NavigableString 对象

NavigableString 对象持有 HTML 或 XML 标签的文本内容。这是一个 Unicode 编码的字符串。

我们可以通过 .string 的方式得到标签的本文内容 。

小结

代码小结如下:

BeautifulSoup

soup = BeautifulSoup(String) soup = BeautifulSoup(String,features=”xml”)

Tag

tag = soup.tag tag.name tag[‘attribute']

NavigableString

soup.tag.string

总结

标签: python利用数据文件统计成绩

本文链接地址:https://www.jiuchutong.com/biancheng/377150.html 转载请保留说明!

上一篇:Python利用Beautiful Soup模块修改内容方法示例(python利用format方法保留三位小数)

下一篇:Python中is与==判断的区别(python中的is和==的区别)

  • 小规模纳税人本月应交增值税
  • 一般纳税人应纳税额减征额怎么算
  • 未交增值税借方表示什么意思
  • 培训个人所得税计算
  • 空壳公司如何报税
  • 受雇于两家公司个税怎么汇算清缴
  • 销售购物取得的收入
  • a企业给关联公司借款怎么做账
  • 将固定资产转给母公司属于债务重组吗
  • 签订合同发放工资可以税前扣除吗?
  • 无形资产的摊销,可摊销的标准是什么?
  • 会计分录怎么确认借贷方向
  • 固定资产累计折旧借贷方向
  • 建筑业确认主营业务收入
  • 二手车融资租赁公司
  • 公司买房需要交房产税吗
  • 少缴纳社保怎么要求支付赔偿金
  • 采购工程物资会议纪要
  • 为什么要预提企业收入
  • 广告业务增值税
  • 如何查询对方是不是老赖
  • 承包合同范围怎么写
  • 税种申报表样表
  • 企业将自产产品发放给职工作为福利
  • 增值税记账流程
  • 增值税返还收入冲减进项税
  • 购进非税货物有折扣怎么做账?
  • 抵扣发票勾选到哪个科目
  • windows11怎么创建宽带拨号连接图标
  • 国产操作系统两项全球第一
  • 包装物损坏无法确认
  • 企业公益捐赠的意义
  • macOSCatalina10.15.5Beta4值得升级吗 macOSCatalina10.15.5Beta4更新了什么
  • 同业代付融资
  • php获取长度
  • 外汇申报中付款什么意思
  • js获取本机ip地址
  • matlab基础介绍
  • 使用php免费发送短信
  • mkdir命令怎么用
  • 统一社会信用代码多少
  • 离职员工的个税忘记申报了补申报会被处罚吗
  • 一般纳税人购进免税农产品如何抵扣进项税额
  • 应税服务项目减除清单0申报如何填写
  • 将织梦dedecms转换到wordpress
  • 资金账簿印花税按年还是按次
  • 小型微利企业季度所得税怎么计算
  • sql表添加字段
  • 商品入库进项税不抵扣会计分录
  • 购入的固定资产,其入账价值包括的内容有
  • 车子以旧换新还能贷款吗
  • 建筑行业异地预缴税率
  • 股权稀释违法吗
  • 可变现净值是什么意思
  • 购买专利后有占有权吗
  • 销售发奖金感谢说说
  • 股权投资如何记账
  • 管理不善造成的存货盘亏损失计入什么科目
  • 差旅费包干管理办法
  • 金蝶当月没有账如何结转到下月
  • ubuntu 无线wifi
  • 苹果发布会最新消息
  • centos opencl
  • ubuntu和windows哪个流畅
  • win8.1怎么设置
  • win10更新到win11
  • 如何使用u盘安装linux
  • Linux Bash Shell入门教程
  • win10 固态
  • 优化了一些已知问题是什么意思安不安装
  • vue实现分页功能
  • JQuery中Ajax()的data参数类型实例分析
  • js面向对象写法
  • jquery上传文件到服务器
  • 北京社保外埠城镇职工和外埠农村劳动力啥区别
  • 税务稽查条例操作规程
  • 租房交税是房东交还是中介交
  • 龙华医院怎么网上预约
  • 土地增值税扣除项目金额怎么计算
  • 福州灵活就业社保缴费2024年多少钱
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设