位置: 编程技术 - 正文

Python网络爬虫实例讲解(python网络爬虫总结)

编辑:rootadmin

推荐整理分享Python网络爬虫实例讲解(python网络爬虫总结),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫总结,网络爬虫 python,python的网络爬虫,python网络爬虫技术案例教程,python3.7网络爬虫快速入门,python网络爬虫视频教程,python网络爬虫程序,python网络爬虫技术案例教程,内容如对您有帮助,希望把文章链接给更多的朋友!

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫:自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

Python网络爬虫实例讲解(python网络爬虫总结)

URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取。URL管理器的主要职能如下图所示:

URL管理器在实现方式上,Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序,一般在内存中实现,Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序,一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库,这是python自带的模块。对于2.x版本中的urllib2库,在python3.x中集成到urllib中,在其request等子模块中。urllib中的urlopen函数用于打开url,并获取url数据。urlopen函数的参数可以是url链接,也可以使request对象,对于简单的网页,直接使用url字符串做参数就已足够,但对于复杂的网页,设有防爬虫机制的网页,再使用urlopen函数时,需要添加http header。对于带有登录机制的网页,需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取,可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配,对于特点比较鲜明的目标数据具有较好的作用,但通用性不高。BeautifulSoup是第三方模块,用于结构化解析url内容。将下载到的网页内容解析为DOM树,下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用,在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条,并将这些词条保存在新建的excel中。上代码:

输出的部分截图如下:

excel部分的截图如下:

标签: python网络爬虫总结

本文链接地址:https://www.jiuchutong.com/biancheng/386120.html 转载请保留说明!

上一篇:Python脚本实现自动发带图的微博(如何用python写自动化脚本)

下一篇:python遍历目录的方法小结(python遍历文件目录)

  • 增值税专用发票的税率是多少啊
  • 地方教育附加税税率多少?
  • 政府转让土地使用权
  • 员工充值饭卡的收入如何做账
  • 在建工程明细账采用什么账簿
  • 残保金2018
  • 提供劳务企业所得税纳税义务发生时间
  • 应付债券利息计入哪里
  • 嵌入式软件运行的主要流程是什么
  • 多扣了离职人员的钱
  • 不动产初始登记流程
  • 纯外贸企业进项要转出吗为啥
  • 所得税审核费计入什么科目
  • 百分百控股股东叫什么
  • 交通费汇算清缴怎么做账
  • 投资性房地产收入属于什么收入
  • 一般纳税人销售二手车增值税税率
  • 不占股权投资如何做账
  • 自己去税务局开票怎么开
  • 银行承兑第一手怎么盖章
  • 免抵退免抵额何时申报附加税?
  • ukey开票界面
  • 广告联系电话
  • 计提长期债券利息分录
  • 幼儿园收入如何计算
  • 收购自然人股东的股权要注意什么
  • 金税三期怎么更正申报
  • Win11 Build 22000.282正式版推送: 附更新修复内容汇总
  • 曼哈顿公园大道432号
  • 黑马程序员前端工程师简历
  • 本年利润怎么结转到未分配利润分录
  • 不抵扣的进项税怎么做账
  • vue process.env.node_env
  • 公司汽车折旧计算方法用那种
  • php用户登录界面代码
  • 2022年电子设计大赛F题
  • 新版本idea怎么创建javaweb
  • 底薪和提成分开发合法吗
  • 所得税预缴申报表怎么填
  • 发票开具的常见错误以及盖章问题
  • 材料采购会计科目怎么使用
  • dede织梦怎么转成zblog
  • SQL server 2008安装程序遇到以下错误 sku
  • 内账收入和成本怎样做
  • 红字更正法适用于更正什么样的错误
  • 职工福利费支出不超过工资薪金总额的
  • 购买产品样品计入什么科目
  • 公司注销退回投资款如何账务处理
  • 什么情况下可以待岗
  • 民营医院的发票在哪里领
  • 公司购买汽车的购置税可以抵税吗
  • 公司买茶具帐务处理流程
  • 零余额账户出纳日记账
  • 生产性生物资产折旧计入什么科目
  • 没有发票的费用怎么做凭证
  • 领购发票的方式有哪些
  • 成本会计做什么工作内容
  • win 10如何安装
  • Mac OS10.11下mysql5.7.12 安装配置方法图文教程
  • 如何看xp系统
  • xp系统运行怎么打开
  • xp桌面消失 右击无反应
  • mac u盘启动盘
  • ghost后恢复数据
  • windows 7的用户类型
  • macbook怎么新建txt文件
  • nginx sbin目录
  • cocos资源释放
  • JavaScript实现QQ列表展开收缩扩展功能
  • great 搬运工
  • javascript文字特效
  • js math.js
  • python async
  • 重庆电子税务局网页版登录
  • 合肥地税局客服电话
  • pageoffice控件安装不上
  • 国家税务总局商洛市税务局
  • 成都国税发票领取地点
  • 个人所得税计算扣除五险一金吗
  • steam充值码生成
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设