位置: 编程技术 - 正文

Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

编辑:rootadmin

推荐整理分享Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!'),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:pycharm中beautifulsoup,python beautifulsoup用法,python中beautifulsoup,pycharm中beautifulsoup,s='python is beautiful!',python中beautifulsoup,pycharm中beautifulsoup,pycharm中beautifulsoup,内容如对您有帮助,希望把文章链接给更多的朋友!

BeautifulSoup是Python的一个第三方库,可用于帮助解析html/XML等内容,以抓取特定的网页信息。目前最新的是v4版本,这里主要总结一下我使用的v3版本解析html的一些常用方法。

准备

1.Beautiful Soup安装

为了能够对页面中的内容进行解析,本文使用Beautiful Soup。当然,本文的例子需求较简单,完全可以使用分析字符串的方式。

执行

即可安装。

2.requests模块的安装

requests模块用于加载要请求的web页面。

在python的命令行中输入import requests,报错说明requests模块没有安装。

我这里打算采用easy_install的在线安装方式安装,发现系统中并不存在easy_install命令,输入sudo apt-get install python-setuptools来安装easy_install工具。

执行sudo easy_install requests安装requests模块。

基础

1.初始化 导入模块

Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

创建对象:str初始化,常用urllib2或browser返回的html初始化BeautifulSoup对象。

指定编码:当html为其他类型编码(非utf-8和asc ii),比如GB的话,则需要指定相应的字符编码,BeautifulSoup才能正确解析。

2.获取tag内容 寻找感兴趣的tag块内容,返回对应tag块的剖析树

返回内容:hello 说明一下,contents属性是一个列表,里面保存了该剖析树的直接儿子。

3.获取关系节点 使用parent获取父节点

使用nextSibling, previousSibling获取前后兄弟

contents[]的灵活运用也可以寻找关系节点,寻找祖先或者子孙可以采用findParent(s), findNextSibling(s), findPreviousSibling(s)

4.find/findAll用法详解 函数原型:find(name=None, attrs={}, recursive=True, text=None, **kwargs),findAll会返回所有符合要求的结果,并以list返回。 tag搜索

attrs搜索

text搜索文字的搜索会导致其他搜索给的值如:tag, attrs都失效。方法与搜索tag一致

recursive和limit属性recursive=False表示只搜索直接儿子,否则搜索整个子树,默认为True。当使用findAll或者类似返回list的方法时,limit属性用于限制返回的数量,如findAll('p', limit=2): 返回首先找到的两个tag。

实例本文以博客的文档列表页面为例,利用python对页面中的文章名进行提取。

文章列表页中的文章列表部分的url如下:

代码:

python基于隐马尔可夫模型实现中文拼音输入 在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无

python制作爬虫并将抓取结果保存到excel中 学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。第一步:分析

python文件的md5加密方法 本文实例讲述了python文件的md5加密方法。分享给大家供大家参考,具体如下:简单模式:fromhashlibimportmd5defmd5_file(name):m=md5()a_file=open(name,'rb')#需要使用二

标签: s='python is beautiful!'

本文链接地址:https://www.jiuchutong.com/biancheng/385264.html 转载请保留说明!

上一篇:Python使用Mechanize模块编写爬虫的要点解析(python mem)

下一篇:python基于隐马尔可夫模型实现中文拼音输入(python 隐函数作图)

  • 税控盘280怎么变398了
  • 报考中级会计师怎么报名
  • 软件研发阶段和开发阶段如何区分
  • 公司购买办公用品300元,以现金支付,购入后即被领用
  • 一般纳税人企业所得税税率2023
  • 国家规定先打五联还是麻腮风
  • 收到进项发票已认证,对方冲红重开,我方凭证什么做
  • 产品成本核算需要经过哪些程序
  • 公司向股东借款计入什么科目
  • 冲销无形资产如何会计分录?
  • 个人捐赠如何抵扣个税30%
  • 体检发票开公司还是个人
  • 工会经费电子税务局找不见了
  • 如何根据原始凭证填制记账凭证
  • 固定资产什么时候增加
  • 公司法人如何从公司提钱
  • 筹建期间的开办费包括哪些
  • 银行回单如何做凭证
  • windows家庭版最新版本
  • windows11怎么设置壁纸
  • 期末调汇的会计处理
  • 上年费用未计提
  • 苹果推送最新系统
  • PHP:Memcached::getStats()的用法_Memcached类
  • 非居民所得税代扣代缴
  • 材料费可抵扣进项税计算
  • 金融企业会计计提贷款呆账准备金主要贯彻了
  • 申请代开增值税专用发票有金额限制吗
  • php框架yii
  • 注销报税是什么意思
  • 递归 php
  • 已抄报未反写什么意思
  • yum安装php5
  • 归还本金和利息的分录
  • 人工智能介绍200字
  • 怎样网上抄税
  • 农民工工资专用账户
  • 只有发票没有银行怎么办
  • 帝国cms8.0
  • 财务报表年报应怎么做
  • 成本费用利润率越高越好吗
  • 税款已缴未入库怎么处理
  • 延期付款利息收入要交增值税吗
  • 增值税现代服务业包括哪些内容
  • 收付实现制的适用范围
  • 存货报废应如何进行账务处理
  • 外出经营流程
  • 拿工资要开发票,发票去哪儿开?
  • 单位发给职工的餐费补贴我变卖了违法吗?
  • 应收应付核销的会计科目
  • 存货周转率多少算低
  • 发生的费用
  • 施工人员的工资计入
  • 五金配件生意好做吗
  • 工程预付款如何扣回
  • 其他应收款的认定
  • 开发票的其他要求是?
  • 待摊费用在新会计准则里面有吗
  • sql语句重复
  • Ubuntu系统怎么设置IP
  • win7共享设置(详细图文步骤)
  • windows10秋季更新
  • win8进入电脑休眠后怎么唤醒
  • windows10周年更新
  • linux getuid
  • win8.1桌面图标消失
  • 删除linux系统命令
  • linux用户添加
  • linux012
  • 一个简单的灵魂
  • eclipse安转
  • Linux Shell中判断进程是否存在的方法
  • python strip函数作用
  • 熟悉的拼音
  • 三角进攻怎么打
  • javascript怎么学
  • 开个人发票有什么好处?
  • 支持国税普通发展的原因
  • 医保账户被扣财富怎么办
  • 郑州广电地址
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设