位置: 编程技术 - 正文

Python 爬虫学习笔记之单线程爬虫(python爬虫从入门到精通)

编辑:rootadmin

推荐整理分享Python 爬虫学习笔记之单线程爬虫(python爬虫从入门到精通),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫入门教程,python爬虫自学系列,python爬虫基础教程,python爬虫快速入门,python爬虫入门,python爬虫自学系列,python爬虫基础教程,python爬虫入门,内容如对您有帮助,希望把文章链接给更多的朋友!

介绍

本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图

怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像下面这样

这个时候进行翻页,观看网址的变化,首先,第一页的网址是 第二页变成了 第三页变成了 ,可以看到,每次翻一页,0后面的数字就会递增1,然后就有人会想到了,拿第一页呢?我们尝试着将 放进浏览器的地址栏,发现可以打开第一栏,那就好办了,我们只需要使用 re.sub() 就可以很轻松的获取到任何一页的内容。获取到网址链接之后,下面要做的就是获取网页的源代码,首先右击查看审查或者是检查元素,就可以看到以下界面

找到课程所在的位置以后,就可以很轻松的利用正则表达式将我们需要的内容提取出来,至于怎么提取,那就要靠你自己了,尝试着自己去找规律才能有更大的收获。如果你实在不知道怎么提取,那么继续往下,看我的源代码吧

实战源代码

以上代码并不难懂,基本就是正则表达式的使用,然后直接运行就可以看到开头我们的截图内容了,由于这是单线程爬虫,所以运行速度感觉有点慢,接下来还会继续更新多线程爬虫。

Python 爬虫学习笔记之单线程爬虫(python爬虫从入门到精通)

应小伙伴们的要求,下面附上requests爬虫库的安装和简单示例

首先安装pip包管理工具,下载get-pip.py. 我的机器上安装的既有python2也有python3。

安装pip到python2:

python get-pip.py

安装到python3:

python3 get-pip.py

pip安装完成以后,安装requests库开启python爬虫学习。

安装requests

pip3 install requests

我使用的python3,python2可以直接用pip install requests.

入门例子

第一行引入requests库,第二行使用requests的get方法获取网页源代码,第三行设置编码格式,第四行文本输出。 把获取到的网页源代码保存到文本文件中:

Python 爬虫学习笔记之多线程爬虫 XPath的安装以及使用1.XPath的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用XPath,有人表示这太坑爹了,早知道刚上来就学习XPa

浅析Python中MySQLdb的事务处理功能 前言任何应用都离不开数据,所以在学习python的时候,当然也要学习一个如何用python操作数据库了。MySQLdb就是python对mysql数据库操作的模块。今天写了

Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理) 我们可以利用urllib来抓取远程的数据进行保存哦,以下是python3抓取网页资源的多种方法,有需要的可以参考借鉴。1、最简单importurllib.requestresponse=urllib.

标签: python爬虫从入门到精通

本文链接地址:https://www.jiuchutong.com/biancheng/384469.html 转载请保留说明!

上一篇:Python 爬虫学习笔记之正则表达式(python爬虫快速入门)

下一篇:Python 爬虫学习笔记之多线程爬虫(python爬虫教程推荐)

  • 出口抵减内销产品应纳税额为什么在借方
  • 本月无销售额,但是有进项,需要认证吗
  • 企业所得税年报过了申报期还能修改吗
  • 年终奖报表怎么做
  • 挖掘机要交多少个人所得税
  • 小规模企业应交增值税的二级科目
  • 企业名称变更后原名称还能使用吗
  • 增值税发票可以抵税吗
  • 资产折旧摊销扣什么税
  • 专票可以当费用票吗
  • 递延所得税费用为负数是什么意思
  • 小规模30万免税政策
  • 账表不一致的原因和根源
  • 发票抵扣后对方恶意冲红
  • 取消票种核定需什么手续
  • 已做了进项的发票金额错了怎么处理
  • 残保金和工会经费需要计提吗
  • 财务费用年末有余额吗
  • 苹果设置输入法在哪里设置
  • 联想怎么进入bios设置u盘启动
  • 农业公司收到项目资金
  • 未分配利润怎么处理
  • 所得税补税怎么申报
  • 限制浏览器打开网页
  • 原版win10系统安装方法
  • win11电脑硬盘分区
  • zmweb.exe是什么进程
  • 金融资产包括哪三大类及会计科目
  • 分公司改为子公司的所得税业务处理?
  • 以银行存款交纳欠缴税金会计分录
  • vue 右键菜单
  • php简单么
  • php验证身份证号
  • 带你看看房间英语怎么写
  • thinkphp框架介绍
  • vue父子组件传值方法
  • opencv制作训练数据集
  • php怎么定义全局变量
  • 织梦如何给栏目增加缩略图
  • 小规模普票免税的会计分录
  • 金税盘减免税额
  • 报税网页打不开报表怎么办
  • mongodb备份策略
  • 存货的成本包括哪几项
  • 固定资产是不是非货币性资产
  • 购买汽车抵扣增值税
  • 融资租入的固定资产视为自有固定资产
  • 实收资本报表怎么填
  • 外购产品用于职工福利企业所得税视作销售吗
  • t3怎么查资产负债表
  • 资本公积金转增股本是利好吗
  • 应付职工薪酬完整会计处理
  • 样品 报关
  • 供应合同转让协议
  • 收到增值税发票后该如何处理啊?
  • 发票 发票专用章
  • 工程款结清确认书模板
  • 海关发票丢失怎么处理
  • SQL Server Parameter Sniffing及其改进方法
  • xp系统玩游戏卡吗
  • 苹果mac没有声音怎么办
  • Windows开关机音乐-哔哩哔哩biibii
  • RHCE心得3 基于VSFTP的本地YUM源及光盘YUM源搭建步骤分享
  • win8系统如何查看文件浏览痕迹记录
  • windows 10 正式版
  • WIN10更新失败
  • Extjs4 GridPanel 的几种样式使用介绍
  • node.js基础入门
  • dos命令检测硬盘坏道
  • re engine引擎
  • [置顶]公主大人接下来是拷问时间31
  • 基于单片机的毕业设计题目
  • 交互式shell是什么意思
  • js制作网站
  • JavaScript中的变量名不区分大小写
  • JavaScript indexOf方法入门实例(计算指定字符在字符串中首次出现的位置)
  • 珠宝加工费骗局
  • 股权转让查账重点查什么
  • 试运行期间的收入应如何处理
  • 湖南省税务举报
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设