位置: 编程技术 - 正文

Python网络爬虫实例讲解(python网络爬虫总结)

编辑:rootadmin

推荐整理分享Python网络爬虫实例讲解(python网络爬虫总结),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫总结,网络爬虫 python,python的网络爬虫,python网络爬虫技术案例教程,python3.7网络爬虫快速入门,python网络爬虫视频教程,python网络爬虫程序,python网络爬虫技术案例教程,内容如对您有帮助,希望把文章链接给更多的朋友!

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫:自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

Python网络爬虫实例讲解(python网络爬虫总结)

URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取。URL管理器的主要职能如下图所示:

URL管理器在实现方式上,Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序,一般在内存中实现,Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序,一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库,这是python自带的模块。对于2.x版本中的urllib2库,在python3.x中集成到urllib中,在其request等子模块中。urllib中的urlopen函数用于打开url,并获取url数据。urlopen函数的参数可以是url链接,也可以使request对象,对于简单的网页,直接使用url字符串做参数就已足够,但对于复杂的网页,设有防爬虫机制的网页,再使用urlopen函数时,需要添加http header。对于带有登录机制的网页,需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取,可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配,对于特点比较鲜明的目标数据具有较好的作用,但通用性不高。BeautifulSoup是第三方模块,用于结构化解析url内容。将下载到的网页内容解析为DOM树,下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用,在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条,并将这些词条保存在新建的excel中。上代码:

输出的部分截图如下:

excel部分的截图如下:

标签: python网络爬虫总结

本文链接地址:https://www.jiuchutong.com/biancheng/386120.html 转载请保留说明!

上一篇:Python脚本实现自动发带图的微博(如何用python写自动化脚本)

下一篇:python遍历目录的方法小结(python遍历文件目录)

  • 已申报税额和已缴纳税额
  • 纳税人办理退税流程
  • 预收账款开票怎么做账
  • 税前利润等于应纳税所得额吗
  • 财务报表一季度销售大福下降
  • 资产负债表的累计折旧期末数怎么填
  • 查找出资产负债表的软件
  • 完税证明可以代替契税发票吗
  • 个体工商户怎样纳税
  • 什么叫发票分割单
  • 增值税清卡失败什么原因
  • 企业为什么产生
  • 物业代收费:有关法律
  • 增值税都有哪些科目
  • 对外销售的材料的成本应计入什么账户
  • 税控机减免税额怎么算
  • 企业自用房要交契税吗
  • 借款合同印花税减免优惠政策
  • 购销企业
  • 跨地区经营怎么交税
  • 工商年检社保缴费基数按什么标准填
  • 转让非独占许可使用权调整
  • 应收账款减值准备计提比例
  • 所得税按利润总额的25%计算缴纳
  • 津贴证明是让单位开吗
  • 返回的工会经费如何做账最新
  • 收到转账支票 转给下一家
  • 研发费用入账
  • 其他债权投资的交易费用计入什么科目
  • 怎样查一个银行的行号
  • 多计提的房产税怎么做分录
  • 系统浏览器
  • 事业单位基建账并入大账规定
  • 库存退回
  • vite config
  • PHP:mcrypt_module_is_block_algorithm()的用法_Mcrypt函数
  • php生成时间戳
  • 企业之间拆借资金
  • 未履行的应税合同缴纳印花税
  • 同一控制下企业合并报表编制
  • pytorch基础
  • html表单合并行
  • 一般纳税人企业所得税多久申报一次
  • 目标追踪模型
  • 用jsp实现用户登录验证
  • spring integration使用:消息转换器
  • vue动态绑定背景图
  • ipcrm命令
  • rf-kill
  • 小企业会计准则财务报表至少包括
  • 增值税发票上多了一个点能刮掉吗
  • 公司借给股东的钱金额较大股东可以在年底现金归还吗
  • 新公司建账初始数据
  • 股权转让分期付款风险
  • 免交增值税应该计入什么科目
  • sql2005安装方法
  • 使用SQL查询学生的姓名
  • 租金收入会计科目
  • 制作费用和管理费用
  • 货物赔偿款如何计算
  • 单位保险柜里都放些什么
  • 免征印花税的6个项目
  • 建造合同收入
  • eclipse连接mysql代码
  • mysql子查询嵌套查询
  • win10系统安装了打印机驱动找不到打印机
  • window10自带的软件有哪些
  • linux系统的
  • ksysslim.exe是什么
  • windows 7中,执行应用程序的方法有哪几种?
  • win7 windows安全中心
  • linux系统设置
  • Win7摄像头驱动程序
  • perl -pi
  • unity3D游戏开发
  • node javascript
  • 60后歌手有哪些
  • 新办企业没有员工要报个人所得税吗
  • 雅阁交强险和车船税多少
  • 简易计税方法开的是普票还是专票
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设