位置: 编程技术 - 正文

Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块)

编辑:rootadmin

推荐整理分享Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python libxml2,python lxml模块,python lxml解析xml,python llvm,python3 lxml,python libxml2,python lxml解析xml,python libxml2,内容如对您有帮助,希望把文章链接给更多的朋友!

Web抓取Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档。有时从中 获取数据同时保持它的结构是有用的。web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的数据。

这正是web抓取出场的时机。Web抓取是使用计算机程序将web页面数据进行收集 并整理成所需格式,同时保存其结构的实践。

lxml和Requestslxml( 即使所处理的标签非常混乱。我们也将使用 Requests ( pip install lxml 与 pip install requests 命令来安装这两个模块。

让我们以下面的导入开始:

下一步我们将使用 requests.get 来从web页面中取得我们的数据, 通过使用 html 模块解析它,并将结果保存到 tree 中。

tree 现在包含了整个HTML文件到一个优雅的树结构中,我们可以使用两种 方法访问:XPath以及CSS选择器。在这个例子中,我们将选择前者。

Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块)

XPath是一种在结构化文档(如HTML或XML)中定位信息的方式。一个关于XPath的 不错的介绍参见 W3Schools 。

有很多工具可以获取元素的XPath,如Firefox的FireBug或者Chrome的Inspector。 如果你使用Chrome,你可以右键元素,选择 ‘Inspect element',高亮这段代码, 再次右击,并选择 ‘Copy XPath'。

在进行一次快速分析后,我们看到在页面中的数据保存在两个元素中,一个是title是 ‘buyer-name' 的div,另一个class是 ‘item-price' 的span:

知道这个后,我们可以创建正确的XPath查询并且使用lxml的 xpath 函数, 像下面这样:

让我们看看我们得到了什么:

恭喜!我们已经成功地通过lxml与Request,从一个web页面中抓取了所有我们想要的 数据。我们将它们以列表的形式存在内存中。现在我们可以对它做各种很酷的事情了: 我们可以使用Python分析它,或者我们可以将之保存为一个文件并向世界分享。

我们可以考虑一些更酷的想法:修改这个脚本来遍历该例数据集中剩余的页面,或者 使用多线程重写这个应用从而提升它的速度。

Win7下搭建python开发环境图文教程(安装Python、pip、解释器) 安装Python1.下载适合系统版本的Python先到网址(

Windows下搭建python开发环境详细步骤 本文为大家分享了Windows下搭建python开发环境详细步骤,供大家参考,具体内容如下1.搭建Java环境(1)直接从官网下载相应版本的JDK或者JRE并点击安装就

Windows下Eclipse+PyDev配置Python+PyQt4开发环境 本文为大家分享了Windows下配置PythonPyQt4开发环境的详细步骤,供大家参考,具体内容如下1.下载相关软件Eclipse下载地址:

标签: python中lxml模块

本文链接地址:https://www.jiuchutong.com/biancheng/386886.html 转载请保留说明!

上一篇:python操作字典类型的常用方法(推荐)(python字典常用操作)

下一篇:Win7下搭建python开发环境图文教程(安装Python、pip、解释器)(win7怎么装python3.8)

  • 个税退回怎么申请
  • 收到税务局税收返还
  • 电子税务局没有发票开具
  • 上市公司收购其他公司要多久
  • 企业无票支出怎么入账
  • 四川网上电子税务局
  • 预付的房租计入什么费用
  • 会计账簿 扉页
  • 小规模纳税人未开票收入如何填申报表
  • 个人出售住房缴纳房产税吗
  • 税法对固定资产大修理
  • 什么是联营商品
  • 以现金形式发放的福利怎么入账
  • 用于购买固定资产的账户
  • 存货残料收入账务处理?
  • 股权转让所得应纳税所得额
  • 进货发票未到怎么做账
  • 携程电子发票可以发到QQ邮箱吗
  • 农牧业没有发票怎么办
  • 增值税附加税计入什么会计科目
  • 承兑汇票贴现怎么记账
  • 企业所得税视同销售的捐赠扣除
  • 收到一张免税发票能抵税吗
  • 个人挂靠公司按揭购车账务怎么处理?
  • 隐藏资源管理器里的cd驱动器
  • 怎么批量给指定条件加入批注
  • photoshop人像磨皮方法
  • ajax不刷新页面
  • 银行承兑汇票开出后多久可以签收
  • 客户申请退款商家拒绝退货退款会有什么效果
  • php23种设计模式
  • 其他应付款结转什么科目
  • php数组转js数组
  • 公债的本质是什么
  • 达拉斯位置
  • 年底有留抵税额怎么结转
  • python自动化selenium
  • 汇兑损益计入哪里
  • 游戏ai模式是什么意思
  • win11设置项改中文
  • 红冲上年度收入怎么做凭证
  • vue3+ts+MicroApp实战教程
  • 年终奖税金怎么扣
  • 其他收益结转到什么账户
  • 采购商品没有进账怎么做账
  • 本年度的进项可以结转到下一年度吗
  • mysql怎么修改
  • 差旅费分摊到各部门
  • 发票票种核定发票种类怎么选
  • 购买银行理财产品的几个必须知道
  • 小型微利企业是小微企业吗
  • 退回企业所得税的账务处理
  • 房屋租赁费可以加计扣除吗
  • 供应合同转让协议
  • 企业房屋折旧年限是多少
  • 投资性房地产公允价值变动借贷方向
  • 购买办公软件的进项发票可以抵扣吗
  • 商业承兑汇票和银行承兑汇票的区别
  • 成本会计主要做什么工作
  • mysql 从库
  • wweb32.exe - wweb32是什么进程
  • windows7 ie
  • ubuntu16.04英文版安装教程
  • 苹果电脑安装中国银行网银助手
  • windows无法访问指定设备路径权限
  • windows7中个性化设置
  • 安装 centos
  • window10提示更新总是
  • 一键修复ie
  • python下三角
  • python用于读取文本文件内容的方法
  • jQuery实现ToolTip元素定位显示功能示例
  • javascript含义
  • node.js mac
  • javascript模板
  • python 字符串
  • python win10
  • 航天金税盘客服电话苏州
  • 摩托车的消费税率
  • 明星征税多少
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设