位置: 编程技术 - 正文

Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块)

编辑:rootadmin

推荐整理分享Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python libxml2,python lxml模块,python lxml解析xml,python llvm,python3 lxml,python libxml2,python lxml解析xml,python libxml2,内容如对您有帮助,希望把文章链接给更多的朋友!

Web抓取Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档。有时从中 获取数据同时保持它的结构是有用的。web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的数据。

这正是web抓取出场的时机。Web抓取是使用计算机程序将web页面数据进行收集 并整理成所需格式,同时保存其结构的实践。

lxml和Requestslxml( 即使所处理的标签非常混乱。我们也将使用 Requests ( pip install lxml 与 pip install requests 命令来安装这两个模块。

让我们以下面的导入开始:

下一步我们将使用 requests.get 来从web页面中取得我们的数据, 通过使用 html 模块解析它,并将结果保存到 tree 中。

tree 现在包含了整个HTML文件到一个优雅的树结构中,我们可以使用两种 方法访问:XPath以及CSS选择器。在这个例子中,我们将选择前者。

Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块)

XPath是一种在结构化文档(如HTML或XML)中定位信息的方式。一个关于XPath的 不错的介绍参见 W3Schools 。

有很多工具可以获取元素的XPath,如Firefox的FireBug或者Chrome的Inspector。 如果你使用Chrome,你可以右键元素,选择 ‘Inspect element',高亮这段代码, 再次右击,并选择 ‘Copy XPath'。

在进行一次快速分析后,我们看到在页面中的数据保存在两个元素中,一个是title是 ‘buyer-name' 的div,另一个class是 ‘item-price' 的span:

知道这个后,我们可以创建正确的XPath查询并且使用lxml的 xpath 函数, 像下面这样:

让我们看看我们得到了什么:

恭喜!我们已经成功地通过lxml与Request,从一个web页面中抓取了所有我们想要的 数据。我们将它们以列表的形式存在内存中。现在我们可以对它做各种很酷的事情了: 我们可以使用Python分析它,或者我们可以将之保存为一个文件并向世界分享。

我们可以考虑一些更酷的想法:修改这个脚本来遍历该例数据集中剩余的页面,或者 使用多线程重写这个应用从而提升它的速度。

Win7下搭建python开发环境图文教程(安装Python、pip、解释器) 安装Python1.下载适合系统版本的Python先到网址(

Windows下搭建python开发环境详细步骤 本文为大家分享了Windows下搭建python开发环境详细步骤,供大家参考,具体内容如下1.搭建Java环境(1)直接从官网下载相应版本的JDK或者JRE并点击安装就

Windows下Eclipse+PyDev配置Python+PyQt4开发环境 本文为大家分享了Windows下配置PythonPyQt4开发环境的详细步骤,供大家参考,具体内容如下1.下载相关软件Eclipse下载地址:

标签: python中lxml模块

本文链接地址:https://www.jiuchutong.com/biancheng/386886.html 转载请保留说明!

上一篇:python操作字典类型的常用方法(推荐)(python字典常用操作)

下一篇:Win7下搭建python开发环境图文教程(安装Python、pip、解释器)(win7怎么装python3.8)

  • 中税协是什么意思
  • 办税员的工作职责
  • 增值税专用发票的税率是多少啊
  • 送货单和收据单的区别
  • 年报会计师审计费用
  • 报销单第一页写不完
  • 经常做无票收入没有通过公户收款会有问题吗
  • 已出库未开票未收款会计分录
  • 股东向企业借款属于关联交易吗
  • 一般纳税企业可以变更小微企业吗
  • 房屋租赁合同印花税谁交
  • 跨年确认收入税务风险
  • 自己做的房子可以办房产证吗
  • 非营利组织对外捐赠
  • 上月未申报纳税补申报怎么做不会有罚款吗?
  • 企业所得税税前扣除异常
  • 营改增怎么抵扣
  • 企业购买黄金如何处理
  • 增值税开票资料没有电话可以吗
  • 转售水电收入
  • 应补退所得税额是什么
  • 非营利组织属于企业吗
  • 预付账款如何计提折旧
  • 押金算不算房租
  • 企业注销所得税汇算清缴
  • 工程结算收入的会计分录
  • 薪酬总额包干什么意思
  • 企业增值税征收范围包括
  • 在win7系统中,添加打印机驱动程序
  • php初学者常见问题和答案
  • hpptd.exe
  • 什么是重大会计事务所
  • php new
  • SSD目标检测算法
  • 购入多项固定资产
  • 职工教育经费是不是教育费附加
  • 金税盘显示242104
  • mybatis isnotempty标签
  • vue路由跳转的三种方法
  • 压缩的命令
  • php自加
  • 行政事业性收费是什么意思
  • 个人所得税申报方式选哪个比较好
  • python删除列表的方法
  • 帝国cms8.0
  • 融资租赁租金计算工具使用的主要过程
  • 退货给谁
  • 减免城建税的会计分录
  • 域名 续费
  • 出售不动产账务处理流程
  • 已认证抵扣的发票如何红字信息表
  • 固定资产对外投资通过固定资产清理吗
  • 票据贴现怎么入账
  • 股东之间资金往来
  • 企业职工福利费可用于职工的医疗卫生费用
  • 兼职人员属于雇佣人吗
  • 3%税率专用发票
  • 购买原材料材料尚未验收入库,款项尚未支付
  • 什么是现金流量表
  • 研发一个月多少钱
  • sql server real
  • mysqldump导出csv文件
  • win7开机taskeng
  • win2003安装
  • Win10 Mobile 10572预览版新增了哪些功能? 更新内容汇总
  • mac如何强制退出微信
  • 宽带连接显示重拨
  • mac m1读取ntfs
  • linux find -a
  • centos新加硬盘
  • fssm32.exe是什么进程 有什么作用 fssm32进程查询
  • Extjs407 getValue()和getRawValue()区别介绍
  • unity3d添加组件
  • jquery自定义插件
  • 轻松搞定是什么短语
  • Metaio in Unity3d 教学--- 一. 搭建环境,运行官方案例
  • js怎么定义类
  • 国家税务局广东省电子税务总局手机版
  • 房产契税退税在哪里办理
  • 财务报表怎么填写
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设