位置: 编程技术 - 正文

Python爬虫包 BeautifulSoup 递归抓取实例详解(python爬虫系统)

编辑:rootadmin

推荐整理分享Python爬虫包 BeautifulSoup 递归抓取实例详解(python爬虫系统),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫用到的包,python爬虫工具包,python爬虫用到的包,python爬虫常用包,python爬虫工具包,python爬虫常用包,python爬虫包有哪些,python爬虫包下载,内容如对您有帮助,希望把文章链接给更多的朋友!

Python爬虫包 BeautifulSoup 递归抓取实例详解

概要:

爬虫的主要目的就是为了沿着网络抓取需要的内容。它们的本质是一种递归的过程。它们首先需要获得网页的内容,然后分析页面内容并找到另一个URL,然后获得这个URL的页面内容,不断重复这一个过程。

让我们以维基百科为一个例子。

我们想要将维基百科中凯文·贝肯词条里所有指向别的词条的链接提取出来。

上面这个代码能够将页面上的所有超链接都提取出来。

Python爬虫包 BeautifulSoup  递归抓取实例详解(python爬虫系统)

首先,提取出来的URL可能会有一些重复的

其次,有一些URL是我们不需要的,如侧边栏、页眉、页脚、目录栏链接等等。

所以通过观察,我们可以发现所有指向词条页面的链接都有三个特点:

它们都在id是bodyContent的div标签里 URL链接不包含冒号 URL链接都是以/wiki/开头的相对路径(也会爬到完整的有http开头的绝对路径)

其中getLinks的参数是/wiki/<词条名称>,并通过和维基百科的绝对路径合并得到页面的URL。通过正则表达式捕获所有指向其他词条的URL,并返回给主函数。

主函数则通过调用递归getlinks并随机访问一条没有访问过的URL,直到没有了词条或者主动停止为止。

这份代码可以将整个维基百科都抓取下来

一般来说Python的递归限制是次,所以需要人为地设置一个较大的递归计数器,或者用其他手段让代码在迭代次之后还能运行。

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

利用python实现命令行有道词典的方法示例 前言由于一直用Linux系统,对于词典的支持特别不好,对于我这英语渣渣的人来说,当看英文文档就一直卡壳,之前用惯了有道词典,感觉很不错,虽然

利用Python脚本生成sitemap.xml的实现方法 安装lxml首先需要pipinstalllxml安装lxml库。如果你在ubuntu上遇到了以下错误:#include"libxml/xmlversion.h"compilationterminated.error:command'x_-linux-gnu-gcc'failedwithexitstatu

利用python画一颗心的方法示例 前言Python一般使用Matplotlib制作统计图形,用它自己的说法是‘让简单的事情简单,让复杂的事情变得可能'。用它可以制作折线图,直方图,条形图,散

标签: python爬虫系统

本文链接地址:https://www.jiuchutong.com/biancheng/380024.html 转载请保留说明!

上一篇:python 编程之twisted详解及简单实例(python twinter)

下一篇:利用python实现命令行有道词典的方法示例(python中的命名规范)

  • 设备检验检测
  • 什么是所得税税负
  • 快递费包不包括送货上门
  • 企业个人所得税税率表2023
  • 补缴所得税的账务处理
  • 销售金银首饰交什么税
  • 生产车间用电产品有哪些
  • 长期股权投资会减值损失吗
  • 净资产利润率等于净资产收益率吗
  • 怎么根据进销存做账
  • 收到公益性捐赠所得税
  • 聘用人员工资福利待遇
  • 免抵退办法出口销售额和免税销售额的区别
  • 免税企业收到的专用发票要怎么转出
  • 营改增后建筑安装发票
  • 简易计税 增值税专用发票
  • 请问高人们旧房子要装修应怎样装
  • 网上银行转账被骗能追回吗
  • 差旅费可以支取现金吗
  • 外购商品用于招待怎么做账
  • 收取手续费的委托代销 发票谁来开
  • 主营业务收入和其他业务收入的区别
  • 领用库存商品的消费税
  • 现金支出有哪些项目
  • 年末提取盈余公积的会计分录怎么写
  • 房地产开发项目土地使用权的取得方式
  • 手机连不上wifi显示已停用是怎么回事
  • linux文件管理与常用命令实验报告
  • Win10版本21H2卡死
  • 若依框架前端框架
  • 最高成本的手机是哪款
  • 若依框架前端如何通过后端加载页面
  • 分包缴纳的个税怎么算
  • 营改增后土地增值税如何计算
  • php调用微信扫描二维码
  • lsscsi命令详解
  • 选择相邻兄弟需要使用下列哪个符号
  • 帝国cms图片显示不了
  • vue组件怎么使用
  • php中的this
  • 销售折扣购物卡怎么做账
  • 物流公司可以作为货物收货人吗
  • 帝国cms标题生成图片
  • 新政府会计制度与旧制度区别
  • 筹办期发生业务怎么办
  • sqlserver 比较时间
  • 短期借款属于经营活动还是筹资活动
  • 本期应补退税额就是交钱吗
  • 普通发票需要做合同才能开吗
  • 代征税款手续费规定
  • 委托加工物资的消费税
  • 库存商品结转成本的金额怎么计算
  • 律师事务所账务处理例题
  • 公司的车过户到个人名下需要什么手续
  • 合作社注销麻烦吗
  • 销售款退回会计分录
  • 自营工程的账务处理
  • 调整以前年度的费用怎么做
  • 附加税减半征收从什么时候开始
  • 什么是经营所得现金
  • 电梯在固定资产里属于什么设备类别
  • 现金日记账月末怎么结账图片
  • 机票行程单可以抵扣进项税吗?
  • sql分组having
  • mysql 临时表
  • ubuntu 12.04 intel集成显卡设置分辨率的步骤分享
  • mac上itunes
  • Win7/Win8.1/Win10命令行配置静态IP地址方法
  • win7装win8系统教程
  • win7系统怎么禁用开机启动项
  • kernel headers not found for target kernel
  • jquery自执行
  • (cocs2dx)二、 利用Eclipse编译apk应用
  • javascript总结
  • vuex的理解
  • 守护进程和普通进程
  • 使用jQuery加载html页面到指定的div实现方法
  • 中国税务主旨是什么?
  • 国税云厅官网
  • 北京西城区税务所
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设