位置: 编程技术 - 正文

Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

编辑:rootadmin

推荐整理分享Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!'),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:pycharm中beautifulsoup,python beautifulsoup用法,python中beautifulsoup,pycharm中beautifulsoup,s='python is beautiful!',python中beautifulsoup,pycharm中beautifulsoup,pycharm中beautifulsoup,内容如对您有帮助,希望把文章链接给更多的朋友!

BeautifulSoup是Python的一个第三方库,可用于帮助解析html/XML等内容,以抓取特定的网页信息。目前最新的是v4版本,这里主要总结一下我使用的v3版本解析html的一些常用方法。

准备

1.Beautiful Soup安装

为了能够对页面中的内容进行解析,本文使用Beautiful Soup。当然,本文的例子需求较简单,完全可以使用分析字符串的方式。

执行

即可安装。

2.requests模块的安装

requests模块用于加载要请求的web页面。

在python的命令行中输入import requests,报错说明requests模块没有安装。

我这里打算采用easy_install的在线安装方式安装,发现系统中并不存在easy_install命令,输入sudo apt-get install python-setuptools来安装easy_install工具。

执行sudo easy_install requests安装requests模块。

基础

1.初始化 导入模块

Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

创建对象:str初始化,常用urllib2或browser返回的html初始化BeautifulSoup对象。

指定编码:当html为其他类型编码(非utf-8和asc ii),比如GB的话,则需要指定相应的字符编码,BeautifulSoup才能正确解析。

2.获取tag内容 寻找感兴趣的tag块内容,返回对应tag块的剖析树

返回内容:hello 说明一下,contents属性是一个列表,里面保存了该剖析树的直接儿子。

3.获取关系节点 使用parent获取父节点

使用nextSibling, previousSibling获取前后兄弟

contents[]的灵活运用也可以寻找关系节点,寻找祖先或者子孙可以采用findParent(s), findNextSibling(s), findPreviousSibling(s)

4.find/findAll用法详解 函数原型:find(name=None, attrs={}, recursive=True, text=None, **kwargs),findAll会返回所有符合要求的结果,并以list返回。 tag搜索

attrs搜索

text搜索文字的搜索会导致其他搜索给的值如:tag, attrs都失效。方法与搜索tag一致

recursive和limit属性recursive=False表示只搜索直接儿子,否则搜索整个子树,默认为True。当使用findAll或者类似返回list的方法时,limit属性用于限制返回的数量,如findAll('p', limit=2): 返回首先找到的两个tag。

实例本文以博客的文档列表页面为例,利用python对页面中的文章名进行提取。

文章列表页中的文章列表部分的url如下:

代码:

python基于隐马尔可夫模型实现中文拼音输入 在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无

python制作爬虫并将抓取结果保存到excel中 学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。第一步:分析

python文件的md5加密方法 本文实例讲述了python文件的md5加密方法。分享给大家供大家参考,具体如下:简单模式:fromhashlibimportmd5defmd5_file(name):m=md5()a_file=open(name,'rb')#需要使用二

标签: s='python is beautiful!'

本文链接地址:https://www.jiuchutong.com/biancheng/385264.html 转载请保留说明!

上一篇:Python使用Mechanize模块编写爬虫的要点解析(python mem)

下一篇:python基于隐马尔可夫模型实现中文拼音输入(python 隐函数作图)

  • 增值税税控系统技术维护费
  • 房地产企业环保税什么时候申报
  • 没有独立核算的分公司需要报税
  • 增值税交多少怎么查询
  • 预收账款确认收入
  • 预缴土地增值税的会计处理
  • 明明申报了为什么显示没有申报
  • 税费的计提和缴纳
  • 账簿登记的重要内容
  • 税务注销交什么税
  • 转让不动产增值税计算
  • 无形资产资本化加计扣除可抵扣暂时性差异
  • 无形资产摊销怎么计算
  • 通讯费要计入应付账款吗
  • 企业销售额达到多少交企业所得税
  • 发票开错地方教育费附加多交了可以冲掉吗?
  • 失控发票进项税额转出申报表填写
  • 审计费用收取标准的2020
  • 印花税申报数据来源
  • 研发费用申报表汇算清缴怎么填
  • macxi
  • 华为mate50耳机孔和充电口一样吗
  • win11怎么取消开机启动项
  • 本年收益在借方还结转吗
  • 开办费属于什么科目类别
  • 产品成本的计算过程也就是各种费用界限的划分过程
  • 应付账款和应收票据区别
  • 留置权什么时候才可以行使
  • vue slot标签
  • 进货的折扣该怎么算
  • 生产企业出口退税计算
  • 电脑的nip是什么
  • 债券投资账务处理例题
  • 冲销多计提所得税
  • 汇算清缴针对哪些对象
  • 固定资产加速折旧计算方法
  • 发票抬头可以是两个人吗
  • php中的正则表达式怎么使用
  • 股权转让实操
  • 单点登录sso原理
  • 博客管理系统开题报告
  • 数以千计的拼音是什么
  • 福利费计入科目
  • 汇兑损益会计处理方法
  • 一台设备可以分开开票吗
  • 以旧换新方式销售金银首饰的消费税处理
  • 开票金额应该含增值税吗
  • 路由器无线设置模式哪个更快
  • 无发生额有没有对账单
  • 股东清算收入是负债吗
  • 计提工资的时候跟发放的时候不一样怎么办
  • 货物搬运费会计科目
  • 公户直接转给私人账户违法么
  • 工资总额范围怎么填写
  • 如何让主营业务成本增加
  • 房租没发票怎么入账
  • 调表不调账都有什么情况
  • 模具维修费用清单表格
  • 代扣和代缴的区别
  • 股票股利应该何时分摊
  • 外包加工如何做账
  • 什么是限售股融券
  • 商品流通企业会计第三版答案倪明辉
  • sqlserver2000数据库文件在哪个文件夹
  • centos6.8配置网络
  • centos部署tomcat配置
  • 电脑xp系统最大多少g
  • windows8怎么设置锁屏时间
  • linux用什么写c
  • 启用win8 metro启动界面
  • [置顶]马粥街残酷史
  • node.js 作用
  • unity3d操作
  • 实现一个完整的主要任务
  • unity3d碰撞检测源码
  • jquery日期控件 datepicker
  • jquery聚焦输入框
  • 公司车辆购置税怎么做账
  • 陕西地方税务局2017年2号公告
  • 晋江电视
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设