位置: 编程技术 - 正文

Python网络爬虫实例讲解(python网络爬虫总结)

编辑:rootadmin

推荐整理分享Python网络爬虫实例讲解(python网络爬虫总结),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫总结,网络爬虫 python,python的网络爬虫,python网络爬虫技术案例教程,python3.7网络爬虫快速入门,python网络爬虫视频教程,python网络爬虫程序,python网络爬虫技术案例教程,内容如对您有帮助,希望把文章链接给更多的朋友!

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫:自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示,爬虫调度端通过URL管理器获取待爬取的URL链接,若URL管理器中存在待爬取的URL链接,爬虫调度器调用网页下载器下载相应网页,然后调用网页解析器解析该网页,并将该网页中新的URL添加到URL管理器中,将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

Python网络爬虫实例讲解(python网络爬虫总结)

URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取与循环抓取。URL管理器的主要职能如下图所示:

URL管理器在实现方式上,Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序,一般在内存中实现,Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序,一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库,这是python自带的模块。对于2.x版本中的urllib2库,在python3.x中集成到urllib中,在其request等子模块中。urllib中的urlopen函数用于打开url,并获取url数据。urlopen函数的参数可以是url链接,也可以使request对象,对于简单的网页,直接使用url字符串做参数就已足够,但对于复杂的网页,设有防爬虫机制的网页,再使用urlopen函数时,需要添加http header。对于带有登录机制的网页,需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取,可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配,对于特点比较鲜明的目标数据具有较好的作用,但通用性不高。BeautifulSoup是第三方模块,用于结构化解析url内容。将下载到的网页内容解析为DOM树,下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用,在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条,并将这些词条保存在新建的excel中。上代码:

输出的部分截图如下:

excel部分的截图如下:

标签: python网络爬虫总结

本文链接地址:https://www.jiuchutong.com/biancheng/386120.html 转载请保留说明!

上一篇:Python脚本实现自动发带图的微博(如何用python写自动化脚本)

下一篇:python遍历目录的方法小结(python遍历文件目录)

  • 转出未交增值税最终怎么转平
  • 增值税和附加税一共几个点
  • 母公司与子公司的区别
  • 生产成本存货会计分录
  • 进项发票认证后暂不抵扣
  • 公司购入汽车分录
  • 高新企业帐务流程
  • 自用房产税如何计算
  • 企业工资薪酬包括哪些内容
  • 季度企业所得税申报表怎么填写
  • 增值税专用发票有效期是多长时间
  • 车辆购置税入什么科目?
  • 不能远程补报之前的税款所属期
  • 生产企业低值高报骗税
  • 税控设备抵减如何填写报表
  • 公司没有进出口权 如何进行业务
  • linux对硬件的要求
  • 新版edge浏览器历史记录
  • html5 video标签
  • windows10如何调出虚拟键盘
  • windows所有应用
  • 王者荣耀中孙膑是男的女的
  • win10通知怎么打开
  • Win11怎么设置屏幕熄灭时间
  • 固定资产账面价值是什么意思
  • 无形资产摊销是什么科目
  • php获取指定日期是星期几
  • 企业在建工程领用自产的应税消费品
  • cvpr2020结果
  • 发票开具的有哪些原则
  • 小规模纳税人广告费是什么票据类型的
  • php日期计算器
  • 危废处理需要哪些手续
  • 常见反爬策略
  • atq命令 显示用户待执行任务列表
  • 软件开发增值税减免政策
  • Blog2N如何计算
  • 异地工程预缴税款时间
  • 事业单位电费应该谁交
  • 企业之间的借款计入什么科目
  • 农业种植公司有补贴吗
  • 织梦cms要钱吗
  • 研发费用怎么体现
  • 关联方计提坏账吗
  • 出口业务的会计处理
  • 企业哪些支出可以用现金支付
  • 小规模公司都交哪些税
  • 小规模纳税人怎么申报增值税报表
  • 税控系统技术维护费会计处理280
  • 哪些属于费用发票类型
  • 应交税金应交增值税年底转平吗
  • 公司给员工的购房补贴
  • 维修费成本怎么结转
  • 油费预付卡如何办理
  • 承兑汇票兑现怎么填写
  • 以前年度销售退回买方账务处理
  • 上个月库存没用完的下个月怎么计算
  • 公交充值卡发票能报销吗
  • 母公司与子公司关系
  • 其他应付款转实收资本走什么程序
  • sql1068错误
  • linux软件安装源
  • ghost后不能启动
  • QQPCTray.exe是什么进程 QQPCTray.exe文件介绍
  • win7右键管理工具
  • win10访问局域网电脑需要用户名和密码
  • ubuntu系统中怎么安装mathematica13.1.0
  • winadslave.exe - winadslave是什么进程
  • directx device
  • win7无法双击打开软件
  • mac火狐浏览器flash插件设置
  • win8系统怎么重新安装系统
  • linux批量管理平台
  • android studio 新建项目只有.idea文件
  • django实时刷新日志前端
  • node.js 配置
  • python灰度变换
  • 置顶pyq会被自己屏蔽的人看到吗
  • 广东省国税局长是谁
  • 深圳监狱在哪个位置
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设