位置: 编程技术 - 正文

Python网络爬虫实例讲解(python网络爬虫总结)

编辑:rootadmin

推荐整理分享Python网络爬虫实例讲解(python网络爬虫总结),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫总结,网络爬虫 python,python的网络爬虫,python网络爬虫技术案例教程,python3.7网络爬虫快速入门,python网络爬虫视频教程,python网络爬虫程序,python网络爬虫技术案例教程,内容如对您有帮助,希望把文章链接给更多的朋友!

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫:自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

Python网络爬虫实例讲解(python网络爬虫总结)

URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取。URL管理器的主要职能如下图所示:

URL管理器在实现方式上,Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序,一般在内存中实现,Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序,一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库,这是python自带的模块。对于2.x版本中的urllib2库,在python3.x中集成到urllib中,在其request等子模块中。urllib中的urlopen函数用于打开url,并获取url数据。urlopen函数的参数可以是url链接,也可以使request对象,对于简单的网页,直接使用url字符串做参数就已足够,但对于复杂的网页,设有防爬虫机制的网页,再使用urlopen函数时,需要添加http header。对于带有登录机制的网页,需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取,可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配,对于特点比较鲜明的目标数据具有较好的作用,但通用性不高。BeautifulSoup是第三方模块,用于结构化解析url内容。将下载到的网页内容解析为DOM树,下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用,在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条,并将这些词条保存在新建的excel中。上代码:

输出的部分截图如下:

excel部分的截图如下:

标签: python网络爬虫总结

本文链接地址:https://www.jiuchutong.com/biancheng/386120.html 转载请保留说明!

上一篇:Python脚本实现自动发带图的微博(如何用python写自动化脚本)

下一篇:python遍历目录的方法小结(python遍历文件目录)

  • 过路费抵扣进项税填在申报表哪里
  • 在建无形资产入账
  • 货币基金分红交什么税
  • 公司销户本金转到哪里
  • 研发项目增值税税率
  • 废机油处理多少钱一吨
  • 企业入库流程图
  • 广告业务增值税税率
  • 怎么算应纳企业所得税
  • 工程施工企业人工成本最高多少
  • 服务业工资计入成本还是营业费用
  • 自收自支事业单位是什么意思
  • 出售固定资产要做收入吗
  • 航天服务费530是什么?
  • 小微企业免征增值税的账务处理
  • 退关税怎么入账
  • 金融服务收入怎么算
  • 已做了进项的发票金额错了怎么处理
  • 应纳税所得额未减上季度所得税,下季度可补减吗
  • 营业外支出汇算清缴调增填哪
  • 工程施工余额怎么处理
  • 电脑每次开机都要选择系统怎么办
  • php glob
  • 股权转让协议合同
  • 净资产收益率怎么求
  • 家具折旧费是什么意思
  • 特种商品劳务税
  • 我国居民企业甲在境外进行了投资
  • 易北河流量
  • 苏格兰高地什么意思
  • php框架symfony
  • 增值税纳税申报表附列资料(一)
  • ci框架api版本
  • php 密码
  • 命令行怎么管理员运行
  • 发行债券支付的费用要减吗
  • 旅行社差额纳税的规定
  • 纳什理论是什么
  • 购入固定资产应该怎么做账
  • python怎么查看文件路径
  • 生产销售库存的会计科目
  • 公司开一般户经办人是会计还是出纳好
  • opengl环境光参数
  • mysql有几种
  • 小规模企业免征增值税如何做账
  • 预付开发票加油后还能开吗?
  • sql 判断字符串中是否包含数字
  • mysql索引之间的区别
  • 企业所得税汇算清缴扣除标准2023
  • 跨年度发票能否税前扣除
  • 关于出售使用过的产品
  • 工程预付款发票开什么明细项目
  • 增值税普票跨月作废怎么操作
  • 纳税人去税务局办什么
  • 交去年的企业所得税吗
  • 公司基本户可以变更吗
  • 成本会计和管理会计哪个好
  • sql添加后返回主键
  • linux的日志文件
  • xp系统无法启动怎么办
  • linux获取进程启动时间
  • etcfstab文件修改
  • windowxp音频驱动
  • ubuntu20.04安装配置
  • windows英文版本
  • Win7怎么关闭自动更新
  • 边学边玩的游戏
  • opengl做简单的模型
  • 实例讲解命局与大运流年作用
  • android layer
  • 我是如何从0开始做到年入1000+万的
  • cocos2048
  • javascript控制语句
  • jquery删除一个标签
  • dom基础知识
  • python sco
  • 贵州省网上税务局要那个版本
  • 卷烟批发环节的税率
  • 土地增值税分期清算条件?
  • 降低税率的坏处
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设