位置: 编程技术 - 正文

详解Python网络爬虫功能的基本写法(python网络爬虫的流程图)

编辑:rootadmin

推荐整理分享详解Python网络爬虫功能的基本写法(python网络爬虫的流程图),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python网络爬虫步骤,python网络爬虫教程,python3.7网络爬虫快速入门,python爬网络数据,python网络爬虫步骤,python爬网络数据,150讲轻松搞定python网络爬虫,150讲轻松搞定python网络爬虫,内容如对您有帮助,希望把文章链接给更多的朋友!

网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。

1. 网络爬虫的定义

网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来,网络爬虫就是一个爬行程序,一个抓取网页的程序。网络爬虫的基本操作是抓取网页。

2. 浏览网页的过程

抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏览器的地址栏中输入 www.baidu.com 这个地址。

打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。

HTML是一种标记语言,用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。

3. 基于python实现的网络爬虫功能

1). python获取html页面

详解Python网络爬虫功能的基本写法(python网络爬虫的流程图)

其实,最基本的抓站,两句话就可以了:

这样可以得到整个 html 文档,关键的问题是我们可能需要从这个文档中获取我们需要的有用信息,而不是整个文档。这就需要解析充满了各种标签的 html。

2). python爬虫抓取页面后解析html方法

python爬虫html解析库SGMLParser

Python 默认自带 HTMLParser 以及 SGMLParser 等等解析器,前者实在是太难用了,我就用 SGMLParser 写了一个示例程序:

很简单,这里定义了一个叫做 ListName 的类,继承 SGMLParser 里面的方法。使用一个变量 is_h4 做标记判定 html 文件中的 h4 标签,如果遇到 h4 标签,则将标签内的内容加入到 List 变量 name 中。解释一下 start_h4() 和 end_h4() 函数,他们原型是 SGMLParser 中的

tagname 就是标签名称,比如当遇到 <pre>,就会调用 start_pre,遇到 </pre>,就会调用 end_pre。attrs 为标签的参数,以 [(attribute, value), (attribute, value), ...] 的形式传回。

python爬虫html解析库pyQuery

pyQuery 是 jQuery 在 python 中的实现,能够以 jQuery 的语法来操作解析 HTML 文档,十分方便。使用前需要安装,easy_install pyquery 即可,或者 Ubuntu 下

以下例子:

python爬虫html解析库BeautifulSoup

有个头痛的问题是,大部分的网页都没有完全遵照标准来写,各种莫名其妙的错误令人想要找出那个写网页的人痛打一顿。为了解决这个问题,我们可以选择著名的 BeautifulSoup 来解析html 文档,它具有很好的容错能力。

标签: python网络爬虫的流程图

本文链接地址:https://www.jiuchutong.com/biancheng/381327.html 转载请保留说明!

上一篇:Python3实现Web网页图片下载(用python做web)

下一篇:python生成验证码图片代码分享(python自动化验证码)

  • 待抵扣进项税额和待认证进项税额的区别
  • 增值税电子发票怎么领用
  • 仓库盘亏怎么处理
  • 资源税的征税对象都是原矿和选矿
  • 企业变更法人的流程网上申请变更
  • 个独企业缴纳个人经营所得税额的会计分录
  • 开普票要个人身份证号吗
  • 去年的进项发票今年还能抵扣吗
  • 购销印花税会计分录
  • 用友怎么结转本期损益
  • 个体工商户核定应税所得率
  • 制造企业售后服务方案
  • 订单式生产管理
  • 外币报表折算差额在会计报表中应作为
  • 营改增后土地使用税计入什么科目
  • 物管费开票可以开公司名称吗
  • 人机料法环是什么方法
  • 金融资产包括哪三大类及会计科目
  • 公司减少注册资本的程序
  • 维修费属于哪个类别
  • 进项票入账但是不抵扣怎么做账
  • 普通发票上个月的怎么作废
  • 多交附加税怎么做账
  • 出口退税的条件包括
  • PHP:oci_lob_is_equal()的用法_Oracle函数
  • php基础入门教程
  • 空调拆卸安装怎么找师傅
  • 【2023亲测可用】JS 获取电脑本地IP 和 电脑网络IP(外网IP|公网IP)
  • 关于灵活就业人员待遇享受政策
  • 期间费用计算公式
  • vue中是如何划分的,每个区域的作用是什么
  • 深度测试软件
  • 真实世界人工智能
  • vue中的echarts
  • 【Netty系列・高级篇】Netty核心源码解析
  • 跨域问题是什么
  • 个人所得税年度申报什么意思
  • 在建工程业务核算
  • 体检费专票可以抵扣吗
  • 古腾堡中文官网
  • 进销存使用视频
  • python中字典的键有何要求
  • python socketio
  • 进项票和销项票金额一样可以吗
  • 国税里货币资金怎么算
  • 代理记账的业务规范
  • 个人独资企业是小规模纳税人吗
  • 金税四期的主要功能
  • 润滑油消费税计算公式
  • 房地产开发企业分为几个等级
  • 单位保险柜里都放些什么
  • 固定资产的折旧方法有哪些
  • 其他应收款和其他应付款可以通用吗
  • 铁路运费印花税谁承担
  • 更新改造过程中的固定资产需要计提折旧吗
  • 施工企业的具体工作有哪些
  • 印花税新政策
  • 申报个税劳务报酬按20%扣
  • 固定资产的残值率是什么意思
  • SmoothView.exe - SmoothView是什么进程
  • win7怎么启用显卡
  • centos搭建v2
  • win7架设ftp服务器
  • win8鼠标指针不见了
  • windows 10预览版
  • python socket操作
  • cocos2dx 3.4 Label中文显示
  • 【学习ARToolkit小记之初】 ARToolkit在VS2010(Win7 64位)下的配置及第一个开发程序的编译与运行
  • js实现用户登录
  • Android游戏开发案例教程小小弹球
  • shell脚本实现输出字母个数大于5的单词
  • JavaScript中的变量名不区分大小写
  • 用shell脚本实现菜单页面
  • 用python做web
  • 友盟的功能
  • 用python做一个贪吃蛇
  • Python的二维列表存储
  • 吉林省电子税务局官网
  • 深圳蛇口社保局在哪里
  • 查询发票号码
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设