位置: 编程技术 - 正文

Python网络爬虫实例讲解(python网络爬虫总结)

编辑:rootadmin

推荐整理分享Python网络爬虫实例讲解(python网络爬虫总结),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫总结,网络爬虫 python,python的网络爬虫,python网络爬虫技术案例教程,python3.7网络爬虫快速入门,python网络爬虫视频教程,python网络爬虫程序,python网络爬虫技术案例教程,内容如对您有帮助,希望把文章链接给更多的朋友!

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫:自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

Python网络爬虫实例讲解(python网络爬虫总结)

URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取。URL管理器的主要职能如下图所示:

URL管理器在实现方式上,Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序,一般在内存中实现,Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序,一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库,这是python自带的模块。对于2.x版本中的urllib2库,在python3.x中集成到urllib中,在其request等子模块中。urllib中的urlopen函数用于打开url,并获取url数据。urlopen函数的参数可以是url链接,也可以使request对象,对于简单的网页,直接使用url字符串做参数就已足够,但对于复杂的网页,设有防爬虫机制的网页,再使用urlopen函数时,需要添加http header。对于带有登录机制的网页,需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取,可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配,对于特点比较鲜明的目标数据具有较好的作用,但通用性不高。BeautifulSoup是第三方模块,用于结构化解析url内容。将下载到的网页内容解析为DOM树,下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用,在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条,并将这些词条保存在新建的excel中。上代码:

输出的部分截图如下:

excel部分的截图如下:

标签: python网络爬虫总结

本文链接地址:https://www.jiuchutong.com/biancheng/386120.html 转载请保留说明!

上一篇:Python脚本实现自动发带图的微博(如何用python写自动化脚本)

下一篇:python遍历目录的方法小结(python遍历文件目录)

  • 施工合同的印花税需要合同双方都缴纳吗?
  • 应付职工薪酬在资产负债表怎么填
  • 出口销售收入要交增值税吗
  • 购入不动产进项税额抵扣
  • 金蝶入账流程
  • 网上申购到发行多长时间
  • 营业成本占营业收入比重较低的原因
  • 收到税收返还会计分录
  • 差额开票如何入账
  • 出口货物当期免抵退税不得免征和抵扣税额,应计入
  • 存货损失
  • 长期股权投资超过50%
  • 出口货款收不回来怎么办
  • 公交补贴收入账务处理怎么做?
  • 代扣代缴附加税怎么做账
  • 招待费的增值税专用发票可以抵扣吗
  • 机动车发票如何抵扣进项税
  • 待处理财产损益的二级科目
  • 财务费用中的利息收入指什么
  • 付款账号姓名是什么意思
  • 赞助贫困学生的语句
  • 如何开锅
  • 金税盘增值税减免税申报明细表怎么填
  • macbookpro磁盘需要分区吗
  • 坏账准备冲回是借方还是贷方
  • 企业支付工商年费怎么查
  • wifi上传速度为0的解决方法
  • win11怎么下载手机应用
  • linux怎么操作
  • windows闹钟
  • 政府搬迁补偿款不够建房怎么办
  • 股东已转让股权还可以追究出资吗
  • 房屋装修补偿款 避税
  • 潘塔纳尔湿地的主要成因
  • 含工资表的会计科目
  • 工会经费是按应发工资还是实发工资申报
  • 存货降价销售的会计分录
  • 研发费用资本化可以加计扣除吗
  • 建安企业确认收入的依据
  • 固定资产报废该怎么处理
  • sqlserver2008r2评估期已过
  • MySQL提示The InnoDB feature is disabled需要开启InnoDB的解决方法
  • 外企可以申请高新技术
  • 资本公积的账务处理例题
  • 年末资产减值损失可以税前扣除吗
  • 非公司员工机票能报销吗
  • 年度纳税总额包括个税吗
  • 经费收入经费支出怎样记账
  • 工程施工借款如何做会计分录
  • 没交税的发票可以抵扣吗
  • 会计凭证移交凭证需要哪些程序
  • sql查询界面怎么做
  • 微型创新是什么
  • Win7系统进入桌面后点每个文件都会打转
  • win8 设置
  • microsoft window vista
  • w3dbsmgr.exe是什么进程
  • win8怎么关闭系统更新
  • windows createfile
  • windows远程登录命令
  • mac系统怎么设置字体大小
  • koeidsnd.dll
  • linux 查找语句
  • win8系统恢复
  • jquery实现表单验证
  • css 之 background-position-x
  • 如何搭建node服务器
  • python列表讲解
  • actionscript与javascript的区别
  • node的express
  • 完美解决usb电涌15秒后关机
  • 在jquery中使用什么方法获取和设置属性
  • js编写一个标准的单例模式类
  • android studio怎么清除缓存
  • 福建2021年水利水电招聘
  • 深圳市的各区域排名
  • 电子税务局企业账号是税号吗
  • 公司欠税款,还不上,怎么办
  • 水利工程税金的计算公式
  • 山西省国家税务总局山西省电子税务局
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设