位置: 编程技术 - 正文
推荐整理分享Python 爬虫学习笔记之单线程爬虫(python爬虫从入门到精通),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:python爬虫入门教程,python爬虫自学系列,python爬虫基础教程,python爬虫快速入门,python爬虫入门,python爬虫自学系列,python爬虫基础教程,python爬虫入门,内容如对您有帮助,希望把文章链接给更多的朋友!
介绍
本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图
怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像下面这样
这个时候进行翻页,观看网址的变化,首先,第一页的网址是 第二页变成了 第三页变成了 ,可以看到,每次翻一页,0后面的数字就会递增1,然后就有人会想到了,拿第一页呢?我们尝试着将 放进浏览器的地址栏,发现可以打开第一栏,那就好办了,我们只需要使用 re.sub() 就可以很轻松的获取到任何一页的内容。获取到网址链接之后,下面要做的就是获取网页的源代码,首先右击查看审查或者是检查元素,就可以看到以下界面
找到课程所在的位置以后,就可以很轻松的利用正则表达式将我们需要的内容提取出来,至于怎么提取,那就要靠你自己了,尝试着自己去找规律才能有更大的收获。如果你实在不知道怎么提取,那么继续往下,看我的源代码吧
实战源代码
以上代码并不难懂,基本就是正则表达式的使用,然后直接运行就可以看到开头我们的截图内容了,由于这是单线程爬虫,所以运行速度感觉有点慢,接下来还会继续更新多线程爬虫。
应小伙伴们的要求,下面附上requests爬虫库的安装和简单示例
首先安装pip包管理工具,下载get-pip.py. 我的机器上安装的既有python2也有python3。
安装pip到python2:
python get-pip.py
安装到python3:
python3 get-pip.py
pip安装完成以后,安装requests库开启python爬虫学习。
安装requests
pip3 install requests
我使用的python3,python2可以直接用pip install requests.
入门例子
第一行引入requests库,第二行使用requests的get方法获取网页源代码,第三行设置编码格式,第四行文本输出。 把获取到的网页源代码保存到文本文件中:
Python 爬虫学习笔记之多线程爬虫 XPath的安装以及使用1.XPath的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用XPath,有人表示这太坑爹了,早知道刚上来就学习XPa
浅析Python中MySQLdb的事务处理功能 前言任何应用都离不开数据,所以在学习python的时候,当然也要学习一个如何用python操作数据库了。MySQLdb就是python对mysql数据库操作的模块。今天写了
Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理) 我们可以利用urllib来抓取远程的数据进行保存哦,以下是python3抓取网页资源的多种方法,有需要的可以参考借鉴。1、最简单importurllib.requestresponse=urllib.
标签: python爬虫从入门到精通
本文链接地址:https://www.jiuchutong.com/biancheng/384469.html 转载请保留说明!友情链接: 武汉网站建设