位置: 编程技术 - 正文

Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块)

编辑:rootadmin

推荐整理分享Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python libxml2,python lxml模块,python lxml解析xml,python llvm,python3 lxml,python libxml2,python lxml解析xml,python libxml2,内容如对您有帮助,希望把文章链接给更多的朋友!

Web抓取Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档。有时从中 获取数据同时保持它的结构是有用的。web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的数据。

这正是web抓取出场的时机。Web抓取是使用计算机程序将web页面数据进行收集 并整理成所需格式,同时保存其结构的实践。

lxml和Requestslxml( 即使所处理的标签非常混乱。我们也将使用 Requests ( pip install lxml 与 pip install requests 命令来安装这两个模块。

让我们以下面的导入开始:

下一步我们将使用 requests.get 来从web页面中取得我们的数据, 通过使用 html 模块解析它,并将结果保存到 tree 中。

tree 现在包含了整个HTML文件到一个优雅的树结构中,我们可以使用两种 方法访问:XPath以及CSS选择器。在这个例子中,我们将选择前者。

Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块)

XPath是一种在结构化文档(如HTML或XML)中定位信息的方式。一个关于XPath的 不错的介绍参见 W3Schools 。

有很多工具可以获取元素的XPath,如Firefox的FireBug或者Chrome的Inspector。 如果你使用Chrome,你可以右键元素,选择 ‘Inspect element',高亮这段代码, 再次右击,并选择 ‘Copy XPath'。

在进行一次快速分析后,我们看到在页面中的数据保存在两个元素中,一个是title是 ‘buyer-name' 的div,另一个class是 ‘item-price' 的span:

知道这个后,我们可以创建正确的XPath查询并且使用lxml的 xpath 函数, 像下面这样:

让我们看看我们得到了什么:

恭喜!我们已经成功地通过lxml与Request,从一个web页面中抓取了所有我们想要的 数据。我们将它们以列表的形式存在内存中。现在我们可以对它做各种很酷的事情了: 我们可以使用Python分析它,或者我们可以将之保存为一个文件并向世界分享。

我们可以考虑一些更酷的想法:修改这个脚本来遍历该例数据集中剩余的页面,或者 使用多线程重写这个应用从而提升它的速度。

Win7下搭建python开发环境图文教程(安装Python、pip、解释器) 安装Python1.下载适合系统版本的Python先到网址(

Windows下搭建python开发环境详细步骤 本文为大家分享了Windows下搭建python开发环境详细步骤,供大家参考,具体内容如下1.搭建Java环境(1)直接从官网下载相应版本的JDK或者JRE并点击安装就

Windows下Eclipse+PyDev配置Python+PyQt4开发环境 本文为大家分享了Windows下配置PythonPyQt4开发环境的详细步骤,供大家参考,具体内容如下1.下载相关软件Eclipse下载地址:

标签: python中lxml模块

本文链接地址:https://www.jiuchutong.com/biancheng/386886.html 转载请保留说明!

上一篇:python操作字典类型的常用方法(推荐)(python字典常用操作)

下一篇:Win7下搭建python开发环境图文教程(安装Python、pip、解释器)(win7怎么装python3.8)

  • 水利建设基金按照增值税征收
  • 价外税怎么理解
  • 宁波财税网会计招聘
  • 驾驶员培训服务税率
  • 小规模纳税人怎么变成一般纳税人
  • 水泥建材公司
  • 税法里面的损耗是什么
  • 房地产收入成本确认
  • 小规模公司缴税以后公转私
  • 免征增值税的免税政策
  • 借款业务的会计分录
  • 递延所得税如何申报
  • etc设备有区别吗
  • 进项税已入账未结转
  • 利润总额递延所得税
  • 打官司赢了再付费叫什么
  • 运输业过路费怎么做账
  • 外购的半成品属于原材料吗
  • 员工借备用金怎么写摘要
  • 公司筹建期间发生的费用没有发票
  • 固定资产管理的三大原则
  • 促销费属于哪个税目
  • 印花税走什么费用
  • 收到未知款项如何做账
  • 交通票报销有哪些
  • 其他应付款如何做账
  • 酒店行业增值税加计抵减是10%还是15%
  • 临时工工资怎么处理
  • 银行承兑找个人怎么操作
  • 纳税申报表怎么打印
  • 建筑公司分包
  • remind32.exe - remind32是什么进程 有什么用
  • 系统太多怎么办
  • 分公司与总公司的关系
  • 税法规定哪些支出不得扣除
  • 有关预收账款的说法正确的是
  • 所得税贷款利息扣除
  • 行政事业单位捐款支出怎么记账
  • php stristr函数
  • 企业备用金管理制度规定
  • 企业缴纳保险的比例
  • 工业设备类型分为以下三类
  • 注册公司时认缴和实缴时间怎么填
  • 进价金额核算法例题
  • php plates
  • 免税是政府补助吗
  • pytorch自定义网络层
  • vue.js简介
  • php事件机制
  • 补提企业所得税财务报表应该如何调整
  • 小规模附加税优惠政策2021
  • 现代服务业加计抵减最新政策2022
  • 递延所得税资产借贷方向
  • 帝国cms8.0
  • mongodb快速入门
  • 预收账款和应收账款可以合并吗
  • 零星采购入什么科目
  • 政府补助的界定
  • 构建固定资产的借款利息资本化文件依据
  • 企业购进货物暂欠货款
  • 单位注销合并劳动合同有效吗
  • 固定资产的印花税费计入什么科目里
  • 开办费入哪个会计科目
  • 收到境外打电话来怎么办
  • 应收账款是否算负债
  • 免征企业所得税的有哪些行业
  • 餐饮会计做账流程图
  • 公司计提减值好吗
  • mysql+php
  • windows xp死亡倒计时
  • linux系统中的一切都归结为
  • OS X Yosemite系统下载失败怎么办?OS X 10.10下载错误解决方法
  • 苹果知识大全
  • linux怎样使用
  • ES6 javascript中class类的get与set用法实例分析
  • jquery 移动端
  • linux命令批量执行
  • androidday3
  • 上海市国家税务局
  • 江西省国家税务局客运定额发票
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设