位置: 编程技术 - 正文

Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块)

编辑:rootadmin

推荐整理分享Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python libxml2,python lxml模块,python lxml解析xml,python llvm,python3 lxml,python libxml2,python lxml解析xml,python libxml2,内容如对您有帮助,希望把文章链接给更多的朋友!

Web抓取Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档。有时从中 获取数据同时保持它的结构是有用的。web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的数据。

这正是web抓取出场的时机。Web抓取是使用计算机程序将web页面数据进行收集 并整理成所需格式,同时保存其结构的实践。

lxml和Requestslxml( 即使所处理的标签非常混乱。我们也将使用 Requests ( pip install lxml 与 pip install requests 命令来安装这两个模块。

让我们以下面的导入开始:

下一步我们将使用 requests.get 来从web页面中取得我们的数据, 通过使用 html 模块解析它,并将结果保存到 tree 中。

tree 现在包含了整个HTML文件到一个优雅的树结构中,我们可以使用两种 方法访问:XPath以及CSS选择器。在这个例子中,我们将选择前者。

Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块)

XPath是一种在结构化文档(如HTML或XML)中定位信息的方式。一个关于XPath的 不错的介绍参见 W3Schools 。

有很多工具可以获取元素的XPath,如Firefox的FireBug或者Chrome的Inspector。 如果你使用Chrome,你可以右键元素,选择 ‘Inspect element',高亮这段代码, 再次右击,并选择 ‘Copy XPath'。

在进行一次快速分析后,我们看到在页面中的数据保存在两个元素中,一个是title是 ‘buyer-name' 的div,另一个class是 ‘item-price' 的span:

知道这个后,我们可以创建正确的XPath查询并且使用lxml的 xpath 函数, 像下面这样:

让我们看看我们得到了什么:

恭喜!我们已经成功地通过lxml与Request,从一个web页面中抓取了所有我们想要的 数据。我们将它们以列表的形式存在内存中。现在我们可以对它做各种很酷的事情了: 我们可以使用Python分析它,或者我们可以将之保存为一个文件并向世界分享。

我们可以考虑一些更酷的想法:修改这个脚本来遍历该例数据集中剩余的页面,或者 使用多线程重写这个应用从而提升它的速度。

Win7下搭建python开发环境图文教程(安装Python、pip、解释器) 安装Python1.下载适合系统版本的Python先到网址(

Windows下搭建python开发环境详细步骤 本文为大家分享了Windows下搭建python开发环境详细步骤,供大家参考,具体内容如下1.搭建Java环境(1)直接从官网下载相应版本的JDK或者JRE并点击安装就

Windows下Eclipse+PyDev配置Python+PyQt4开发环境 本文为大家分享了Windows下配置PythonPyQt4开发环境的详细步骤,供大家参考,具体内容如下1.下载相关软件Eclipse下载地址:

标签: python中lxml模块

本文链接地址:https://www.jiuchutong.com/biancheng/386886.html 转载请保留说明!

上一篇:python操作字典类型的常用方法(推荐)(python字典常用操作)

下一篇:Win7下搭建python开发环境图文教程(安装Python、pip、解释器)(win7怎么装python3.8)

  • 非居民企业享受协定待遇
  • 保险公司支付的赔款计入什么科目
  • 一般纳税人企业所得税多久申报一次
  • 个人提供劳务报酬需要到税务局开发票吗?
  • 贴现法付息的有效年利率
  • 无金额的合同印章有效吗
  • 财务费用属于什么科目借贷方向
  • 普通发票没有明细可以吗
  • 个体户免费发票怎么领
  • 滴滴出行怎么弄电子发票
  • 一般纳税人所得税优惠政策最新2022
  • 年未决算的现金利润怎么算
  • 因小数点造成的误差称为
  • 保证金抵扣货款分录
  • 企业缴纳社保费一个月多少钱
  • 员工对公司造成损失的,可以起诉吗
  • 奖励积分换取商品会计处理
  • 契税与印花税能抵扣吗
  • 净利润含不含所得税
  • 个人出租仓库需交税吗
  • 水费分割单由哪一方出具
  • 旅游服务费可以抵扣增值税
  • 营业额包括增值税吗
  • 关于增值税若干问题的探讨
  • 出口专用发票可抵扣吗
  • 土地返还款土地增值税处理
  • 贷款逾期账务处理流程
  • 1697510006
  • 道路工程施工机械
  • macos10.15.7更新
  • 其他流动负债包含
  • 净资产收益率是什么指标
  • Win11怎么打开网络适配器
  • 桌面级cpu天梯图快科技
  • 进口增值税公式计算公式
  • linux init3
  • PHP:iconv_get_encoding()的用法_iconv函数
  • wordpress恢复主题默认设置
  • 非货币性资产交换和债务重组的区别
  • 交易性金融资产公允价值变动计入
  • thinkphp input
  • 收到待报解预算收入怎么做账
  • 残保金所属期怎么写
  • 深度学习知识点简单概述【更新中】
  • web攻防之业务安全实战指南在线阅读
  • 注意力机制cbam
  • 无形资产转让账务怎么做
  • 固定成本又称什么成本
  • 对外长期投资会计分录?
  • 什么是技术服务工程师
  • 赠送油卡怎么使用
  • 财政零余额账户存款
  • 银行汇票和银行承兑汇票的区别
  • 关于实收资本的表述中,不正确的是
  • 中间人拿回扣是什么行为
  • 个人独资企业怎么交个人所得税
  • 企业盘亏的原因怎么写
  • 房地产开发公司是做什么的
  • 企业中征码怎么生成
  • sql无法用sql身份验证
  • centos7安装MySQL5.6
  • windows vista build
  • linux vps 教程
  • freebsd ports安装
  • ime是什么文件
  • 用指定用户名访问网络
  • windows后台启动VirtualBox虚拟机让界面不在出现
  • win10关闭metro界面
  • cortana win10
  • linux的移植
  • jquery常用api
  • 将txt文件名批量导入excel
  • unity账号登录
  • ping大包丢包小包不丢包
  • 谈一谈你对人与自然关系的认识
  • js选中单选按钮
  • 如何查询自己电子邮件地址
  • 预征率为2%预征税额怎么算
  • 减免性质代码怎么填写才正确
  • 递延所得税资产怎么计算
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设