位置: 编程技术 - 正文

Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块)

编辑:rootadmin

推荐整理分享Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python libxml2,python lxml模块,python lxml解析xml,python llvm,python3 lxml,python libxml2,python lxml解析xml,python libxml2,内容如对您有帮助,希望把文章链接给更多的朋友!

Web抓取Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档。有时从中 获取数据同时保持它的结构是有用的。web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的数据。

这正是web抓取出场的时机。Web抓取是使用计算机程序将web页面数据进行收集 并整理成所需格式,同时保存其结构的实践。

lxml和Requestslxml( 即使所处理的标签非常混乱。我们也将使用 Requests ( pip install lxml 与 pip install requests 命令来安装这两个模块。

让我们以下面的导入开始:

下一步我们将使用 requests.get 来从web页面中取得我们的数据, 通过使用 html 模块解析它,并将结果保存到 tree 中。

tree 现在包含了整个HTML文件到一个优雅的树结构中,我们可以使用两种 方法访问:XPath以及CSS选择器。在这个例子中,我们将选择前者。

Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块)

XPath是一种在结构化文档(如HTML或XML)中定位信息的方式。一个关于XPath的 不错的介绍参见 W3Schools 。

有很多工具可以获取元素的XPath,如Firefox的FireBug或者Chrome的Inspector。 如果你使用Chrome,你可以右键元素,选择 ‘Inspect element',高亮这段代码, 再次右击,并选择 ‘Copy XPath'。

在进行一次快速分析后,我们看到在页面中的数据保存在两个元素中,一个是title是 ‘buyer-name' 的div,另一个class是 ‘item-price' 的span:

知道这个后,我们可以创建正确的XPath查询并且使用lxml的 xpath 函数, 像下面这样:

让我们看看我们得到了什么:

恭喜!我们已经成功地通过lxml与Request,从一个web页面中抓取了所有我们想要的 数据。我们将它们以列表的形式存在内存中。现在我们可以对它做各种很酷的事情了: 我们可以使用Python分析它,或者我们可以将之保存为一个文件并向世界分享。

我们可以考虑一些更酷的想法:修改这个脚本来遍历该例数据集中剩余的页面,或者 使用多线程重写这个应用从而提升它的速度。

Win7下搭建python开发环境图文教程(安装Python、pip、解释器) 安装Python1.下载适合系统版本的Python先到网址(

Windows下搭建python开发环境详细步骤 本文为大家分享了Windows下搭建python开发环境详细步骤,供大家参考,具体内容如下1.搭建Java环境(1)直接从官网下载相应版本的JDK或者JRE并点击安装就

Windows下Eclipse+PyDev配置Python+PyQt4开发环境 本文为大家分享了Windows下配置PythonPyQt4开发环境的详细步骤,供大家参考,具体内容如下1.下载相关软件Eclipse下载地址:

标签: python中lxml模块

本文链接地址:https://www.jiuchutong.com/biancheng/386886.html 转载请保留说明!

上一篇:python操作字典类型的常用方法(推荐)(python字典常用操作)

下一篇:Win7下搭建python开发环境图文教程(安装Python、pip、解释器)(win7怎么装python3.8)

  • 销售软件系统退货怎么退
  • 什么情况借钱
  • 工程奖励金算收入吗
  • 发票必须用完才可以购买吗
  • 普通折叠发票代码是几位数
  • 商品房的销售方式有哪些
  • 支付结算有哪些工具
  • 基本医疗支付范围
  • 承包经营承包费增值税
  • 累计折旧是费用岗负责的吗
  • 缴纳公积金工资基数
  • 免费的企业
  • 采购运输管理系统
  • 增值税发票含税不含税怎样调整
  • 喷绘广告公司税率是多少
  • 金税盘开票怎么改成含税金额
  • 基建人员工资计入哪个科目
  • 到底如何理解参数方程
  • 查企业有记录吗
  • 小规模纳税申报表
  • 外贸出口的进项可以抵扣吗
  • 小规模开专票可以享受1%吗
  • 外购库存商品
  • 清算期间企业所得税申报期限
  • 增值税普票可以抵扣税吗
  • 应付账款少付怎么做账
  • 全屏游戏键盘一直打字
  • 联想lenovo ideapad 320-15AST
  • 电脑专用电源转换器
  • 固定成本变动成本混合成本的分类
  • 王者荣耀中孙尚香怎么玩
  • win11系统语言修改不了
  • 农民专业合作社税收优惠政策
  • 多交的增值税可以做营业外支出吗?
  • 微博怎么变成大v
  • 税款返还的会计处理方法
  • 出租包装物和出售包装物有什么区别
  • eslint不起作用
  • uniapp使用高德地图直接进行导航
  • vue预览word加水印
  • php多线程与并发
  • 投标代理费是什么意思
  • 专利申请费用能计入无形资产吗
  • 专家咨询费比例不能超过多少
  • 使用xampp建立www服务
  • 公司员工私车公用协议
  • 横幅属于是什么税收大类?
  • 企业年金的功能代理人
  • 少数股东损益会出现负数吗
  • 小规模纳税人出售使用过固定资产
  • 高新技术企业的申报条件
  • 支付销售商品运费
  • 坏账收回来了怎么处理
  • 暂估成本多久要冲掉
  • 建安企业无收入证明模板
  • 出口退税进项票跨月勾选
  • 投资款项是什么意思
  • 支付宝扣手续费是怎么回事
  • 卖出去的货没有发票怎么给人家解释
  • 社保的会计核算方法
  • sqlserver允许一列列值重复
  • winxp系统桌面图片
  • windows7字体安装方法
  • centos中如何查看ip地址
  • mac用ntfs文件夹读写ntfs硬盘
  • windows 7的用户类型
  • 查看mac是否是新的
  • win7系统开机出现英文字母
  • linux extern关键字
  • 笔记本电脑显示英特尔服务未在运行
  • cocos studio
  • jquery的实现原理
  • 优化了一些已知问题是什么意思安不安装
  • CSSvista可同时在IE和Fifrefox调试的CSS编辑提供下载
  • javascript判断题
  • jquery .find()
  • 基于javascript的毕业设计
  • python中如何抛出异常
  • 现在开票可以不去税务局吗
  • 地税网上申报密码
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设