位置: 编程技术 - 正文

Python网络爬虫实例讲解(python网络爬虫总结)

编辑:rootadmin

推荐整理分享Python网络爬虫实例讲解(python网络爬虫总结),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫总结,网络爬虫 python,python的网络爬虫,python网络爬虫技术案例教程,python3.7网络爬虫快速入门,python网络爬虫视频教程,python网络爬虫程序,python网络爬虫技术案例教程,内容如对您有帮助,希望把文章链接给更多的朋友!

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫:自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

Python网络爬虫实例讲解(python网络爬虫总结)

URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取。URL管理器的主要职能如下图所示:

URL管理器在实现方式上,Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序,一般在内存中实现,Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序,一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库,这是python自带的模块。对于2.x版本中的urllib2库,在python3.x中集成到urllib中,在其request等子模块中。urllib中的urlopen函数用于打开url,并获取url数据。urlopen函数的参数可以是url链接,也可以使request对象,对于简单的网页,直接使用url字符串做参数就已足够,但对于复杂的网页,设有防爬虫机制的网页,再使用urlopen函数时,需要添加http header。对于带有登录机制的网页,需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取,可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配,对于特点比较鲜明的目标数据具有较好的作用,但通用性不高。BeautifulSoup是第三方模块,用于结构化解析url内容。将下载到的网页内容解析为DOM树,下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用,在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条,并将这些词条保存在新建的excel中。上代码:

输出的部分截图如下:

excel部分的截图如下:

标签: python网络爬虫总结

本文链接地址:https://www.jiuchutong.com/biancheng/386120.html 转载请保留说明!

上一篇:Python脚本实现自动发带图的微博(如何用python写自动化脚本)

下一篇:python遍历目录的方法小结(python遍历文件目录)

  • 收益性支出和资产的区别
  • 已抵扣的进项税发票怎么查询明细
  • 印花税购销合同改为买卖合同
  • 动产租赁适用税率
  • 分销佣金税务处理
  • 红字冲回账务处理
  • 白酒消费税最低计税价格
  • 生产车间财产保险费计入什么费用
  • 水利建设专项收入怎么计算
  • 煤炭企业会计制度
  • 预算管理的方法及应用
  • 预付租金就要交增值税吗
  • 无形资产没有了
  • 家电公司销售电器赠送小礼品如何做账?
  • 出口抵减内销产品应纳税额是借方还是贷方
  • 管理费用月末怎么结账
  • 金税三期个人所得税怎么下载
  • 无形资产的初始计量和后续计量
  • 发票专用章在哪里盖章
  • 不能抵扣的进项税额转出会计分录
  • 免征增值税和附加税区别
  • 充电话费送的
  • 暂估商品入库跨年收到发票怎么做账?
  • 结算会计和往来账的区别
  • 不动产进项税为什么不能抵扣
  • 收到工会经费返还属于现金流量表哪
  • 公司注销时账面处理
  • Secure Boot什么意思?BIOS中Secure Boot灰色无法更改解决方法详解
  • 如何自己打造一台高赛摩托车
  • PHP:stream_context_get_params()的用法_Stream函数
  • PHP:pg_get_notify()的用法_PostgreSQL函数
  • 社保挂靠会计处理?
  • 进项税额转出可以填负数吗
  • 微信小程序计算器代码
  • 微信小程序开发一个多少钱
  • rep p
  • showmount命令安装
  • 检测费可以抵扣增值税吗
  • 车辆过完户保险还能下浮吗
  • 个体工商户开增值税专用发票
  • 以前年度损益调整是什么意思
  • 自由会计服务类工作者
  • SQL Server 跨库同步数据
  • 银行结算方式有哪几种?其具体内容是什么
  • 个体户交个税新政策
  • 财务软件怎么做红冲分录
  • PostgreSQL教程(八):索引详解
  • 工资薪金税务缴纳
  • 律师事务所收到专票能抵扣吗合法吗
  • 增值税期末留抵退税
  • 建造合同信息表
  • 暂估入库的账务处理含税吗
  • 一台设备分期开票数量
  • 事业单位零余额账户使用流程
  • 收到专利权投资的票据
  • 航天金穗服务费可以抵扣吗
  • 税收优惠退回的税金怎么入账
  • 建筑企业结转成本能不能不分人材机
  • 销项税额是负数怎么做账
  • 中介收取中介费的法律依据
  • 不同利益主体之间的利益如何协调
  • 教育行业的成本怎么做账
  • 登记三栏式现金日记账和银行存款日记账的依据
  • oracle和sqlserver的区别
  • 如何优化sql语句执行效率
  • 电脑操作系统32位和62位怎么升级
  • win10更新dx
  • linux crontab命令详解
  • window7qq登录失败
  • 向Windows8靠拢 全新的个性化库页面
  • w10系统每次启动都要选择系统
  • 平板电脑安装的是什么格式的软件
  • jquery的show和hide
  • python 聚类算法包
  • js的变量
  • 前端闭包函数
  • 预征率为2%预征税额怎么算
  • 北京市地方税务局2015第10号文件
  • 船舶税由谁代征
  • 内审工作流程及内审中常见的问题
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设