位置: 编程技术 - 正文

Python网络爬虫实例讲解(python网络爬虫总结)

编辑:rootadmin

推荐整理分享Python网络爬虫实例讲解(python网络爬虫总结),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫总结,网络爬虫 python,python的网络爬虫,python网络爬虫技术案例教程,python3.7网络爬虫快速入门,python网络爬虫视频教程,python网络爬虫程序,python网络爬虫技术案例教程,内容如对您有帮助,希望把文章链接给更多的朋友!

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫:自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

Python网络爬虫实例讲解(python网络爬虫总结)

URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取。URL管理器的主要职能如下图所示:

URL管理器在实现方式上,Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序,一般在内存中实现,Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序,一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库,这是python自带的模块。对于2.x版本中的urllib2库,在python3.x中集成到urllib中,在其request等子模块中。urllib中的urlopen函数用于打开url,并获取url数据。urlopen函数的参数可以是url链接,也可以使request对象,对于简单的网页,直接使用url字符串做参数就已足够,但对于复杂的网页,设有防爬虫机制的网页,再使用urlopen函数时,需要添加http header。对于带有登录机制的网页,需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取,可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配,对于特点比较鲜明的目标数据具有较好的作用,但通用性不高。BeautifulSoup是第三方模块,用于结构化解析url内容。将下载到的网页内容解析为DOM树,下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用,在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条,并将这些词条保存在新建的excel中。上代码:

输出的部分截图如下:

excel部分的截图如下:

标签: python网络爬虫总结

本文链接地址:https://www.jiuchutong.com/biancheng/386120.html 转载请保留说明!

上一篇:Python脚本实现自动发带图的微博(如何用python写自动化脚本)

下一篇:python遍历目录的方法小结(python遍历文件目录)

  • 房产税的计税基础包括契税吗
  • 贴现怎么计算公式
  • 其他项目工会筹备金怎么报税
  • 外币实收资本入账汇率
  • 公司用的摄像头
  • 资本化研发费用在本年的摊销
  • 出售固定资产的净收益
  • 单位处置车辆账务处理
  • 建筑企业升资质主管单位
  • 查税是按基本账户吗
  • 法律规定临时工工资最迟多久结清
  • 机票上exempt yqcny是什么意思?
  • 以旧换新的销售方式怎样确定销售额
  • 美元结汇需要多长时间
  • 核销外管证需要什么手续
  • 国资委是什么
  • 个人独资企业出资额是注册资本吗
  • 自然人税收系统怎么添加人员
  • 电脑的c盘变红怎么回事
  • smtplib教程
  • 媒体文件不能播放
  • 事业单位投资收回账务处理
  • 禁用的网络在哪里开启
  • 银承到期扣款会计分录
  • 剪切快捷键ctrl加什么?
  • neoDVDstd.exe - neoDVDstd是什么进程 有什么用
  • mom.exe是什么进程
  • debian配置
  • 保险业营改增
  • PHP:imagepalettecopy()的用法_GD库图像处理函数
  • 建筑企业跨区域还需预缴增值税吗
  • 圣何塞在哪
  • 待抵扣进项税的限额是什么
  • php解析接口
  • 以前年度少记税金及附加
  • 预算会计与财务会计适度分离
  • 商誉减值后
  • 【第三趴】uni-app页面搭建与路由配置(了解工程目录结构、学会搭建页面、配置路由并成功运行)
  • 出售土地账务如何处理
  • vue全局组件和局部组件
  • css3栅格布局
  • 年末应交税费怎么算
  • 公司租用员工的车辆交什么税
  • python gitpython
  • 冲以前年度管理费用
  • 邮电通信企业业务收入包括哪些内容?
  • 应付利息什么时候确认收入
  • 企业的管理费用,财务费用和销售费用计不计成本呢
  • 购买的金税盘可以抵扣吗
  • 免征增值税和增值税区别
  • 完工产品成本计算表怎么填
  • 运费会计科目怎么做
  • 油卡办理需要多久?
  • 收到政府的奖励企业需要纳税吗?
  • 财务费用贷方余额怎么结转本年利润
  • 预计销售收入增长率怎么算
  • 发货就要开票吗
  • 水利建设基金可以零申报吗
  • 任务管理器已被管理员禁用怎么办
  • solaris删除文件命令
  • 电脑提示Windows照片查看器无法打开此图片
  • 苹果电脑重新安装macos失败
  • smon进程
  • xp系统进入桌面后没反应
  • mac连电视
  • win1020h2版本怎么更新
  • 如何提升windows版本
  • xp装windows7
  • win7系统关机很慢什么原因
  • windows8应用商店在哪
  • cocos2d
  • javascript标题
  • 并结合案例进行深入剖析
  • 网络很强大
  • javascript中的类型转换
  • jquery遍历元素并赋值
  • javascript代码大全
  • 申请税务增票怎么写
  • 顺德中学校徽图片大全1998年
  • 无锡车辆购置税缴纳地点
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设