位置: 编程技术 - 正文

Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

编辑:rootadmin

推荐整理分享Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!'),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:pycharm中beautifulsoup,python beautifulsoup用法,python中beautifulsoup,pycharm中beautifulsoup,s='python is beautiful!',python中beautifulsoup,pycharm中beautifulsoup,pycharm中beautifulsoup,内容如对您有帮助,希望把文章链接给更多的朋友!

BeautifulSoup是Python的一个第三方库,可用于帮助解析html/XML等内容,以抓取特定的网页信息。目前最新的是v4版本,这里主要总结一下我使用的v3版本解析html的一些常用方法。

准备

1.Beautiful Soup安装

为了能够对页面中的内容进行解析,本文使用Beautiful Soup。当然,本文的例子需求较简单,完全可以使用分析字符串的方式。

执行

即可安装。

2.requests模块的安装

requests模块用于加载要请求的web页面。

在python的命令行中输入import requests,报错说明requests模块没有安装。

我这里打算采用easy_install的在线安装方式安装,发现系统中并不存在easy_install命令,输入sudo apt-get install python-setuptools来安装easy_install工具。

执行sudo easy_install requests安装requests模块。

基础

1.初始化 导入模块

Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

创建对象:str初始化,常用urllib2或browser返回的html初始化BeautifulSoup对象。

指定编码:当html为其他类型编码(非utf-8和asc ii),比如GB的话,则需要指定相应的字符编码,BeautifulSoup才能正确解析。

2.获取tag内容 寻找感兴趣的tag块内容,返回对应tag块的剖析树

返回内容:hello 说明一下,contents属性是一个列表,里面保存了该剖析树的直接儿子。

3.获取关系节点 使用parent获取父节点

使用nextSibling, previousSibling获取前后兄弟

contents[]的灵活运用也可以寻找关系节点,寻找祖先或者子孙可以采用findParent(s), findNextSibling(s), findPreviousSibling(s)

4.find/findAll用法详解 函数原型:find(name=None, attrs={}, recursive=True, text=None, **kwargs),findAll会返回所有符合要求的结果,并以list返回。 tag搜索

attrs搜索

text搜索文字的搜索会导致其他搜索给的值如:tag, attrs都失效。方法与搜索tag一致

recursive和limit属性recursive=False表示只搜索直接儿子,否则搜索整个子树,默认为True。当使用findAll或者类似返回list的方法时,limit属性用于限制返回的数量,如findAll('p', limit=2): 返回首先找到的两个tag。

实例本文以博客的文档列表页面为例,利用python对页面中的文章名进行提取。

文章列表页中的文章列表部分的url如下:

代码:

python基于隐马尔可夫模型实现中文拼音输入 在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无

python制作爬虫并将抓取结果保存到excel中 学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。第一步:分析

python文件的md5加密方法 本文实例讲述了python文件的md5加密方法。分享给大家供大家参考,具体如下:简单模式:fromhashlibimportmd5defmd5_file(name):m=md5()a_file=open(name,'rb')#需要使用二

标签: s='python is beautiful!'

本文链接地址:https://www.jiuchutong.com/biancheng/385264.html 转载请保留说明!

上一篇:Python使用Mechanize模块编写爬虫的要点解析(python mem)

下一篇:python基于隐马尔可夫模型实现中文拼音输入(python 隐函数作图)

  • 公司法人必须办社保吗?
  • 一般纳税人可以开1%的发票吗
  • 通用机打发票如何验旧
  • 福利费进项税可以抵扣
  • 递延收益为什么要摊销
  • 小规模企业发票跨月可以作废吗?
  • 工伤期间奖金发放标准
  • 单位向个人购买材料没有发票
  • 增值税专票盖章正确位置
  • 电子承兑汇票接收时间是多久
  • sd标准差是什么意思
  • 更正申报增值税会产生滞纳金吗
  • 投资决策中常用的指标有
  • 运输费未取得运输专用发票怎么抵扣?
  • 农业机耕服务是什么税收分类编码
  • 固定资产发票可以抵税吗
  • 增值税进项转出后企业所得税调整是含税价还是不含税价
  • 代扣代缴增值税怎么申报
  • 建筑公司工地买空调
  • 税务稽查可以不罚款的情形
  • 鸿蒙系统桌面布局图片怎么设置
  • win10系统出现蓝屏恢复
  • 身份证信息提取python
  • 充值会员卡送的营销秘诀
  • 不用命令打开组策略
  • 事业单位预付款会计分录
  • PHP:rawurldecode()的用法_url函数
  • uniapp微信小程序头像获取与服务器对接
  • 以前年度应当取得而未取得的发票
  • 黄金期货交易进场规则
  • yolo 源码
  • 销售折扣增值税如何处理
  • 企业为员工缴纳社保标准及流程
  • laravel实战教程
  • php smtp类
  • 工业企业计入制造费用的工资还需要交工会经费吗
  • php中删除文件的函数
  • 到2023年
  • 手撕代码题目集锦
  • uniapp 手写识别
  • vue动态绑定背景图
  • sybaris插件包
  • php自加
  • 对方代垫保险费算不算入账价值
  • 预付账款和预收账款哪个是负债
  • php是免费的吗
  • 电子发票该怎么打印出来
  • 贴现金额的会计分录
  • mysql存储过程的作用
  • 财政应返还额度账务处理
  • 固定资产丢失进哪个科目
  • 开票系统服务费计入什么费用
  • 挂靠工程如何交纳税金帐务处理?
  • 厂家给的返利应该怎么做会计分录
  • 政府无偿划拨土地如何摊销
  • 为什么委托代销业务受托方要反映或有负债
  • 企业固定资产内部控制风险防范体系的构建原则
  • 期间费用率怎么算
  • 固定资产减值损失怎么算
  • 房地产企业会计处理实务
  • mysql数据库输入汉字是问号
  • mysql转移表数据表
  • 微软在印度的投资
  • linux 静态库
  • 此电脑右键
  • win10飞行模式开关是灰色的
  • linux命令行怎么用
  • windows7使用
  • WIN10系统更新文件在哪里
  • gzip: stdin: unexpected end of file tar: Unexpected EOF in archive tar: Unexpect
  • linux创建.c
  • perl快速入门
  • linux反转
  • javascript函数怎么写
  • js复制字符串的方法
  • 闵行税务稽查局
  • 天府新区劳动局投诉电话
  • 江苏宿迁个体户那个园区好
  • 执法事业单位改革最新进展
  • 关于啤酒包装物押金,下列正确的是( )
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设