位置: 编程技术 - 正文

Python网络爬虫实例讲解(python网络爬虫总结)

编辑:rootadmin

推荐整理分享Python网络爬虫实例讲解(python网络爬虫总结),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫总结,网络爬虫 python,python的网络爬虫,python网络爬虫技术案例教程,python3.7网络爬虫快速入门,python网络爬虫视频教程,python网络爬虫程序,python网络爬虫技术案例教程,内容如对您有帮助,希望把文章链接给更多的朋友!

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫:自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

Python网络爬虫实例讲解(python网络爬虫总结)

URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取。URL管理器的主要职能如下图所示:

URL管理器在实现方式上,Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序,一般在内存中实现,Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序,一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库,这是python自带的模块。对于2.x版本中的urllib2库,在python3.x中集成到urllib中,在其request等子模块中。urllib中的urlopen函数用于打开url,并获取url数据。urlopen函数的参数可以是url链接,也可以使request对象,对于简单的网页,直接使用url字符串做参数就已足够,但对于复杂的网页,设有防爬虫机制的网页,再使用urlopen函数时,需要添加http header。对于带有登录机制的网页,需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取,可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配,对于特点比较鲜明的目标数据具有较好的作用,但通用性不高。BeautifulSoup是第三方模块,用于结构化解析url内容。将下载到的网页内容解析为DOM树,下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用,在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条,并将这些词条保存在新建的excel中。上代码:

输出的部分截图如下:

excel部分的截图如下:

标签: python网络爬虫总结

本文链接地址:https://www.jiuchutong.com/biancheng/386120.html 转载请保留说明!

上一篇:Python脚本实现自动发带图的微博(如何用python写自动化脚本)

下一篇:python遍历目录的方法小结(python遍历文件目录)

  • 详述关税的种类和征收方法
  • 关税完税价格是指什么意思
  • 公司替个人交的水电费计入哪里了
  • 民办非企业单位可以盈利吗
  • 进口消费税为什么一定要组价
  • 会计账簿 扉页
  • 为员工购买商业保险专票可以抵扣吗
  • 车间购买灯会计怎么做账
  • 房地产企业实收资本要求
  • 已发货未收款怎么做会计分录
  • 企业所得税汇算清缴申报表
  • 用现金暂付职工差旅费3000元
  • 房租租金收入都缴纳什么税金
  • 公司办理食品许可证
  • 充值给予的优惠怎么用
  • 收到供应商违约金 发票
  • 员工拓展培训进度怎么写
  • 汽车公司场地租金怎么算
  • 预交了一个季度的社保
  • 进项大于销项的分录怎么写
  • 专票密码区出来了一点有关系吗
  • 财产收购的税务处理
  • 旅行社成本票没有收到,怎么挂账
  • 注销税务财务报表模板
  • 用企业资本金购物违法吗
  • 劳务外包业务外包的区别
  • 有哪些固定资产可以抵税
  • 公司开一般户弊端
  • win10更新补丁怎么关闭
  • 电脑屏幕保护不能设置
  • 笔记本最新windows
  • u盘启动盘如何分区
  • 预提费用年终有余额怎么办
  • 同一张发票可以分两次报销吗
  • 报销各种费用怎么做分录
  • php

  • 陆家嘴金融贸易区管委会主任
  • 股票的红利
  • php网站能实现什么效果
  • css字体加粗怎么弄
  • python编程100例
  • 食堂员工自己吃饭违法吗
  • 每月计提的工资包含社保吗
  • 一件代发退货如何处理
  • 服务费减免税款怎么算
  • 金税盘怎么写入发票
  • 建筑企业提供建筑服务适用一般计税方法的,以取得
  • 公司收到保险公司退保费怎么账务处理
  • 一般纳税人必须有办公地点吗
  • 其他应付款辅助是供应商还是客户
  • sql server数据库异地备份
  • 车船税和保险在一张发票怎么做账
  • php图片格式转换
  • 销售自己使用过的固定资产
  • 坏账准备的账务处理
  • 汇算清缴是不是一定要做
  • 农民专业合作社法
  • 外贸公司收取客户的费用
  • 勘察设计费是否可以进入在建工程
  • 收到实收资本会计摘要
  • 递延所得税资产和递延所得税负债
  • 网上打印的电子机票可以报销不
  • 美国支票上的收款人地址不对怎么办
  • 代理记账企业如何通过互联网创新发展
  • 请问在哪里可以买到震楼器
  • u盘ghost装机
  • mac取消开机启动项
  • macbookair文档怎么变成word
  • linux开启samba服务
  • window10重置和做系统的区别
  • win7 c盘打不开
  • Extjs的FileUploadField文件上传出现了两个上传按钮
  • div+css网页布局实例
  • 批量管理远程桌面
  • python文本处理教程
  • 我的自定义计划怎么删除
  • 跨年的增值税专用发票怎么冲红或者是作废
  • steam 申请
  • 九江税务总局
  • 云南省电子税务局登录入口
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设