位置: 编程技术 - 正文

Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块)

编辑:rootadmin

推荐整理分享Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python libxml2,python lxml模块,python lxml解析xml,python llvm,python3 lxml,python libxml2,python lxml解析xml,python libxml2,内容如对您有帮助,希望把文章链接给更多的朋友!

Web抓取Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档。有时从中 获取数据同时保持它的结构是有用的。web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的数据。

这正是web抓取出场的时机。Web抓取是使用计算机程序将web页面数据进行收集 并整理成所需格式,同时保存其结构的实践。

lxml和Requestslxml( 即使所处理的标签非常混乱。我们也将使用 Requests ( pip install lxml 与 pip install requests 命令来安装这两个模块。

让我们以下面的导入开始:

下一步我们将使用 requests.get 来从web页面中取得我们的数据, 通过使用 html 模块解析它,并将结果保存到 tree 中。

tree 现在包含了整个HTML文件到一个优雅的树结构中,我们可以使用两种 方法访问:XPath以及CSS选择器。在这个例子中,我们将选择前者。

Python使用lxml模块和Requests模块抓取HTML页面的教程(python中lxml模块)

XPath是一种在结构化文档(如HTML或XML)中定位信息的方式。一个关于XPath的 不错的介绍参见 W3Schools 。

有很多工具可以获取元素的XPath,如Firefox的FireBug或者Chrome的Inspector。 如果你使用Chrome,你可以右键元素,选择 ‘Inspect element',高亮这段代码, 再次右击,并选择 ‘Copy XPath'。

在进行一次快速分析后,我们看到在页面中的数据保存在两个元素中,一个是title是 ‘buyer-name' 的div,另一个class是 ‘item-price' 的span:

知道这个后,我们可以创建正确的XPath查询并且使用lxml的 xpath 函数, 像下面这样:

让我们看看我们得到了什么:

恭喜!我们已经成功地通过lxml与Request,从一个web页面中抓取了所有我们想要的 数据。我们将它们以列表的形式存在内存中。现在我们可以对它做各种很酷的事情了: 我们可以使用Python分析它,或者我们可以将之保存为一个文件并向世界分享。

我们可以考虑一些更酷的想法:修改这个脚本来遍历该例数据集中剩余的页面,或者 使用多线程重写这个应用从而提升它的速度。

Win7下搭建python开发环境图文教程(安装Python、pip、解释器) 安装Python1.下载适合系统版本的Python先到网址(

Windows下搭建python开发环境详细步骤 本文为大家分享了Windows下搭建python开发环境详细步骤,供大家参考,具体内容如下1.搭建Java环境(1)直接从官网下载相应版本的JDK或者JRE并点击安装就

Windows下Eclipse+PyDev配置Python+PyQt4开发环境 本文为大家分享了Windows下配置PythonPyQt4开发环境的详细步骤,供大家参考,具体内容如下1.下载相关软件Eclipse下载地址:

标签: python中lxml模块

本文链接地址:https://www.jiuchutong.com/biancheng/386886.html 转载请保留说明!

上一篇:python操作字典类型的常用方法(推荐)(python字典常用操作)

下一篇:Win7下搭建python开发环境图文教程(安装Python、pip、解释器)(win7怎么装python3.8)

  • 普票税率错了要收回作废吗
  • 回购股票为什么股价下跌
  • 增值税进项发票认证流程
  • 3%简易征收范围
  • 附加免税额是什么
  • 企业出现亏损的原因有哪些
  • 记载资金的账簿要交印花税吗
  • 货币性短期薪酬影响损益的金额
  • 主营业务收入借方负数表示
  • 制造费用的核算程序是什么
  • 甲供材料工程如何办理结算
  • 税务小规模定律是什么意思
  • 营业执照上能看出来是一般纳税人
  • 房产税的常见四大检查点
  • 电子税务局里的利润表,本月金额是填累计数吗
  • 招待客户产生的住宿费
  • 固定资产报废处理流程图
  • 材料卸车费可计入人工费吗
  • 购进商品没收到货怎么办
  • 仓库存在不足
  • 华为手机如何关闭负一屏
  • 其他流动负债有利息吗
  • 定期存款利息收入怎么算
  • 企业开办费的会计分录
  • 公司购消防器材会计分录
  • 缴纳公积金个人部分会计分录
  • 高新企业研发费用比例
  • 公司付物业费没开发票
  • 农产品销售发票抵扣政策
  • kernel32在哪个文件夹
  • algarin.exe什么意思
  • 预提费用新会计准则叫什么科目
  • 垃圾清运费属于什么服务
  • gridview怎么连接数据库
  • 真实世界人工智能
  • phpcms v9官网
  • 图书的税率有免税的吗
  • 电梯安装行业分类
  • 律师事务所的日记怎么写
  • 企业年度汇算清缴申报表填写
  • 企业合并的定义是什么
  • 申报水利基金的流程
  • 出纳excel基本技能
  • python天气数据的爬取与分析
  • mongodb的基本操作
  • mongodb数据库基本操作
  • 所得税汇算清缴前取得跨年发票
  • 员工加班打车费进项可以抵扣吗
  • 减免税额和抵免税额是什么意思
  • 基本户开立账户清单
  • 鸡蛋的发票
  • 其他综合收益会影响未分配利润吗
  • 异地办理税务登记需要什么资料
  • 职工工资加计扣除
  • 个体户能开增票吗?
  • 筹建期间的利息费用计入什么科目
  • 装订凭证需要注意事项
  • 支付上月采购货款
  • 付境外股东股利要交什么税
  • 工资完税证明怎么开
  • 年初资产总额怎么算
  • 职工福利费核算哪些内容
  • 关于mysql中的字符型数据下面说法正确的是
  • mysql启动时报1067
  • 恢复已删除的聊天记录微信
  • Win10锁屏壁纸怎么换
  • kotlin开发安卓教程
  • 随机色彩
  • Python判断字符串结尾并输出yes或no
  • perl的$_
  • messenger api
  • css新闻页面制作
  • python如何用
  • W3C Group的JavaScript1.8 新特性介绍
  • jquery detach
  • jquery 树结构
  • js 数组处理
  • JavaScript Math.round() 方法
  • 陕西省税务电话是多少
  • 陕西省电子税务局手机app
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设