位置: 编程技术 - 正文

Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

编辑:rootadmin

推荐整理分享Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!'),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:pycharm中beautifulsoup,python beautifulsoup用法,python中beautifulsoup,pycharm中beautifulsoup,s='python is beautiful!',python中beautifulsoup,pycharm中beautifulsoup,pycharm中beautifulsoup,内容如对您有帮助,希望把文章链接给更多的朋友!

BeautifulSoup是Python的一个第三方库,可用于帮助解析html/XML等内容,以抓取特定的网页信息。目前最新的是v4版本,这里主要总结一下我使用的v3版本解析html的一些常用方法。

准备

1.Beautiful Soup安装

为了能够对页面中的内容进行解析,本文使用Beautiful Soup。当然,本文的例子需求较简单,完全可以使用分析字符串的方式。

执行

即可安装。

2.requests模块的安装

requests模块用于加载要请求的web页面。

在python的命令行中输入import requests,报错说明requests模块没有安装。

我这里打算采用easy_install的在线安装方式安装,发现系统中并不存在easy_install命令,输入sudo apt-get install python-setuptools来安装easy_install工具。

执行sudo easy_install requests安装requests模块。

基础

1.初始化 导入模块

Python使用BeautifulSoup库解析HTML基本使用教程(s='python is beautiful!')

创建对象:str初始化,常用urllib2或browser返回的html初始化BeautifulSoup对象。

指定编码:当html为其他类型编码(非utf-8和asc ii),比如GB的话,则需要指定相应的字符编码,BeautifulSoup才能正确解析。

2.获取tag内容 寻找感兴趣的tag块内容,返回对应tag块的剖析树

返回内容:hello 说明一下,contents属性是一个列表,里面保存了该剖析树的直接儿子。

3.获取关系节点 使用parent获取父节点

使用nextSibling, previousSibling获取前后兄弟

contents[]的灵活运用也可以寻找关系节点,寻找祖先或者子孙可以采用findParent(s), findNextSibling(s), findPreviousSibling(s)

4.find/findAll用法详解 函数原型:find(name=None, attrs={}, recursive=True, text=None, **kwargs),findAll会返回所有符合要求的结果,并以list返回。 tag搜索

attrs搜索

text搜索文字的搜索会导致其他搜索给的值如:tag, attrs都失效。方法与搜索tag一致

recursive和limit属性recursive=False表示只搜索直接儿子,否则搜索整个子树,默认为True。当使用findAll或者类似返回list的方法时,limit属性用于限制返回的数量,如findAll('p', limit=2): 返回首先找到的两个tag。

实例本文以博客的文档列表页面为例,利用python对页面中的文章名进行提取。

文章列表页中的文章列表部分的url如下:

代码:

python基于隐马尔可夫模型实现中文拼音输入 在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无

python制作爬虫并将抓取结果保存到excel中 学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。第一步:分析

python文件的md5加密方法 本文实例讲述了python文件的md5加密方法。分享给大家供大家参考,具体如下:简单模式:fromhashlibimportmd5defmd5_file(name):m=md5()a_file=open(name,'rb')#需要使用二

标签: s='python is beautiful!'

本文链接地址:https://www.jiuchutong.com/biancheng/385264.html 转载请保留说明!

上一篇:Python使用Mechanize模块编写爬虫的要点解析(python mem)

下一篇:python基于隐马尔可夫模型实现中文拼音输入(python 隐函数作图)

  • 个人所得税汇算表
  • 公司注册后一直没有营业怎么办
  • 车船税的收据什么样
  • 购买空调算什么费用
  • 固定资产在现金流量表中的体现
  • 公允价值变动损益和投资收益区别
  • 小微企业如何申请土地建厂房
  • 简易征收如何入账
  • 生产出来的次品怎么入账
  • 商贸运费核算到几号结束
  • 股东多人实收资产怎么办
  • 结余资金财政收回如何做账
  • 建筑安装企业成本费用包括哪些
  • 代收代付给个人
  • 固定资产出售税务处理方法
  • 公司支付个人劳务
  • 年终奖金个人所得税计算公式
  • 固定资产折旧从入账时间算还是购入时间算
  • 认证成功次月何时补发
  • 营销策划费用计算公式
  • linux 将一个文件的内容给另一个文件
  • 不计入开办费可以吗
  • 固定资产不入账的后果
  • 工资税后补扣是什么意思
  • tracert命令的用法
  • php接口规则
  • PHP:pcntl_signal_dispatch()的用法_PCNTL函数
  • php cgi
  • 退回已修改是什么意思
  • java本地缓存框架有哪些
  • php自定义表单
  • python结合
  • 如何判断自己风寒还是风热
  • vue中webpack用来干啥
  • 如何在Android中找到关闭的文件
  • 为什么说网络安全靠人民
  • mkv视频制作
  • 补开发票对公司有什么影响
  • 现销和赊销对利润质量的影响
  • 理财产品的分红和收益是分开的吗
  • 盈利性学校收到财政补贴要缴企业所得税吗
  • 银行手续费必须有发票才能入账吗
  • 抵扣是什么意思大白话...举例
  • 入伙和退伙的法律效力
  • PostgreSQL教程(十九):SQL语言函数
  • sqlserver怎么清空表数据
  • 增值税中进项税额转出是什么意思
  • 补缴以前年度所得税怎么做会计分录
  • 临时售楼处需要什么手续
  • 冲红发票如何做账务处理
  • 个人所得税不允许核定的行业
  • 单位经办人给员工发工资
  • 什么是权益性投资企业
  • sqlserver存储过程怎么查看
  • Windows 2008 R2 AD组策略-统一域用户桌面背景详细图文教程
  • 隐藏的系统应用在哪找
  • windows7如何设置电脑不待机
  • win8系统运行在哪里
  • winxp系统占用c盘多少
  • WIN10系统崩溃如何自救?
  • nwtray.exe - nwtray是什么进程 作用是什么
  • win10天气预报设置
  • linux更改
  • cocos creatorapi
  • 开手游游戏
  • 关闭默认共享和共享文件夹
  • vue使用jssdk
  • Android ADB server didn't ACK * failed to start daemon * 简单有效的解决方案
  • Android使用教程
  • Android 判断是否打开了微信
  • Python内置的HTTP协议服务器SimpleHTTPServer使用指南
  • js实现框选
  • 全面解析少女时代关系
  • jQuery+ajax实现滚动到页面底部自动加载图文列表效果(类似图片懒加载)
  • 税控盘开票软件下载官网
  • 企业欠税补交后影响贷款吗
  • 北京共有产权房房源信息
  • 个人工资纳税证明
  • 上饶税务局电话号码
  • 个体户刻公章需要备案吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设