位置: 编程技术 - 正文

Python网络爬虫实例讲解(python网络爬虫总结)

编辑:rootadmin

推荐整理分享Python网络爬虫实例讲解(python网络爬虫总结),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫总结,网络爬虫 python,python的网络爬虫,python网络爬虫技术案例教程,python3.7网络爬虫快速入门,python网络爬虫视频教程,python网络爬虫程序,python网络爬虫技术案例教程,内容如对您有帮助,希望把文章链接给更多的朋友!

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫:自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

Python网络爬虫实例讲解(python网络爬虫总结)

URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取。URL管理器的主要职能如下图所示:

URL管理器在实现方式上,Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序,一般在内存中实现,Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序,一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库,这是python自带的模块。对于2.x版本中的urllib2库,在python3.x中集成到urllib中,在其request等子模块中。urllib中的urlopen函数用于打开url,并获取url数据。urlopen函数的参数可以是url链接,也可以使request对象,对于简单的网页,直接使用url字符串做参数就已足够,但对于复杂的网页,设有防爬虫机制的网页,再使用urlopen函数时,需要添加http header。对于带有登录机制的网页,需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取,可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配,对于特点比较鲜明的目标数据具有较好的作用,但通用性不高。BeautifulSoup是第三方模块,用于结构化解析url内容。将下载到的网页内容解析为DOM树,下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用,在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条,并将这些词条保存在新建的excel中。上代码:

输出的部分截图如下:

excel部分的截图如下:

标签: python网络爬虫总结

本文链接地址:https://www.jiuchutong.com/biancheng/386120.html 转载请保留说明!

上一篇:Python脚本实现自动发带图的微博(如何用python写自动化脚本)

下一篇:python遍历目录的方法小结(python遍历文件目录)

  • 企业向红十字会捐赠可以抵扣所得税吗
  • 用于非增值税应税项目、免征增值税项目
  • 实际发放股票股利是什么意思
  • 费用多报销了,但已经给了,怎么办
  • 发票该如何打印
  • 税收优惠抵扣
  • 集团公司收到的发票
  • 已收款未开票未发货能确认收入吗
  • 当月发票开错了已经红冲怎么做分录?
  • 应付职工薪酬科目有余额怎么调整
  • 营改增后银行增值税如何缴纳
  • 期末未缴税额为什么会有数据
  • 由母公司承担子公司债务的财务处理怎么做?
  • 利息股息红利所得个人所得税怎么算
  • 企业交城建税的分录
  • 印花税的计税依据含增值税吗
  • 关于7.1号增值税普通发票新规
  • 资产负债表应收账款是负数怎么回事
  • 可供出售金融资产属于流动资产吗
  • 货车的折旧率
  • 合同取得成本和增量成本有什么区别
  • mac怎么调整网页大小
  • 新版edge浏览器如何恢复设置
  • 在linux中使用什么命令可以动态查看文件内容
  • PHP:mb_convert_kana()的用法_mbstring函数
  • 汽车维修行业会计分录
  • 企业扣除内容有哪些
  • 发票已认证还能作废吗2020
  • 进程aissca.exe
  • 支付银行借款利息可以全额扣除吗
  • 苏门答腊岛海岸线多少
  • 企业信用贷款还款方式
  • 销售购置的房产税怎么算
  • php批量处理数据
  • 个人所得税现金流量表属于哪一项
  • 基于MATLAB的车牌识别
  • 判别是否属于劳务报酬
  • 小规模纳税人能开6%增值税专用发票吗
  • 增值税主要内容
  • c语言中使用指针的好处
  • php判断数据类型
  • pythonif嵌套语句
  • 营业税减免会计分录
  • 税率5个点是什么意思
  • 长期股权投资实现的净利润权益法
  • 社保当月没扣
  • 未分配利润是怎么来的
  • 开发成本的会计科目编码
  • 其他单位无偿过账合法吗
  • 坏账核销在企业所得税汇算清缴的填写
  • 清算中的企业能恢复吗
  • 车辆保险费算什么费用
  • 购入研发设备可以抵扣吗
  • 包含个人社保的保险
  • 代收通行费不征税吗
  • 小规模纳税人季度申报哪些税
  • 一次性收入怎么计税
  • 材料暂估分录
  • 五险怎么做账
  • mac mysql密码忘记了怎么办
  • 直接内存访问控制器是什么
  • 服务器centos版本选择
  • macbook备份数据
  • 如何关闭win10自动升级win11
  • linux系统的内存分配和回收采用什么算法?
  • linux使用curl进行接口测试
  • 按住鼠标右键拖动文件
  • qt底层绘图引擎
  • perl 获取参数
  • 阿里云一键建站
  • 如何用python编写一个程序
  • JavaScript中数组长度的属性
  • python jose
  • 安卓设备分辨率查看
  • 使用粗盐热敷十大危害
  • 使用应用程序的好处
  • 是否开具发票就要确认企业所得税收入?
  • 供暖企业所涉及的行业
  • 车辆购置税已缴款未入库可以上牌吗
  • 企业职工病退后一般能领多少钱
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设