位置: 编程技术 - 正文

Python 爬虫学习笔记之单线程爬虫(python爬虫从入门到精通)

编辑:rootadmin

推荐整理分享Python 爬虫学习笔记之单线程爬虫(python爬虫从入门到精通),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫入门教程,python爬虫自学系列,python爬虫基础教程,python爬虫快速入门,python爬虫入门,python爬虫自学系列,python爬虫基础教程,python爬虫入门,内容如对您有帮助,希望把文章链接给更多的朋友!

介绍

本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图

怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像下面这样

这个时候进行翻页,观看网址的变化,首先,第一页的网址是 第二页变成了 第三页变成了 ,可以看到,每次翻一页,0后面的数字就会递增1,然后就有人会想到了,拿第一页呢?我们尝试着将 放进浏览器的地址栏,发现可以打开第一栏,那就好办了,我们只需要使用 re.sub() 就可以很轻松的获取到任何一页的内容。获取到网址链接之后,下面要做的就是获取网页的源代码,首先右击查看审查或者是检查元素,就可以看到以下界面

找到课程所在的位置以后,就可以很轻松的利用正则表达式将我们需要的内容提取出来,至于怎么提取,那就要靠你自己了,尝试着自己去找规律才能有更大的收获。如果你实在不知道怎么提取,那么继续往下,看我的源代码吧

实战源代码

以上代码并不难懂,基本就是正则表达式的使用,然后直接运行就可以看到开头我们的截图内容了,由于这是单线程爬虫,所以运行速度感觉有点慢,接下来还会继续更新多线程爬虫。

Python 爬虫学习笔记之单线程爬虫(python爬虫从入门到精通)

应小伙伴们的要求,下面附上requests爬虫库的安装和简单示例

首先安装pip包管理工具,下载get-pip.py. 我的机器上安装的既有python2也有python3。

安装pip到python2:

python get-pip.py

安装到python3:

python3 get-pip.py

pip安装完成以后,安装requests库开启python爬虫学习。

安装requests

pip3 install requests

我使用的python3,python2可以直接用pip install requests.

入门例子

第一行引入requests库,第二行使用requests的get方法获取网页源代码,第三行设置编码格式,第四行文本输出。 把获取到的网页源代码保存到文本文件中:

Python 爬虫学习笔记之多线程爬虫 XPath的安装以及使用1.XPath的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用XPath,有人表示这太坑爹了,早知道刚上来就学习XPa

浅析Python中MySQLdb的事务处理功能 前言任何应用都离不开数据,所以在学习python的时候,当然也要学习一个如何用python操作数据库了。MySQLdb就是python对mysql数据库操作的模块。今天写了

Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理) 我们可以利用urllib来抓取远程的数据进行保存哦,以下是python3抓取网页资源的多种方法,有需要的可以参考借鉴。1、最简单importurllib.requestresponse=urllib.

标签: python爬虫从入门到精通

本文链接地址:https://www.jiuchutong.com/biancheng/384469.html 转载请保留说明!

上一篇:Python 爬虫学习笔记之正则表达式(python爬虫快速入门)

下一篇:Python 爬虫学习笔记之多线程爬虫(python爬虫教程推荐)

  • 税务局开票需要交钱吗
  • 出售股票税费处理投资收益在贷方
  • 房产税从价改从租,多缴税款要加收滞纳金吗
  • 小规模公司用什么会计准则
  • 生产经营年度汇缴申报时间
  • 公司用的摄像头
  • 个体户银行开户是开公户还是私户
  • 银行存款缴纳所得税费用会计分录
  • 销项负数发票原发票还有用吗?
  • 企业所得税分公司先报还是总部先报
  • 季度收取租金会计分录怎么写?
  • 公司预支了然后来报销的帐怎么做?
  • 库存商品变价出现原因
  • 增值税进项没收到必须开销项怎么办?
  • 代办会议费是否允许差额纳税
  • 企业所得税发票在哪里打印
  • 预缴企业所得税怎么算
  • 公司缴纳社保部分从个人扣除 犯法吗
  • 无票收入如何抵税
  • 计税工资和实发工资比例
  • 软件企业即征即退账务处理
  • 企业把活承包给个人,和企业有劳动关系吗?
  • 预付账款为什么是资产
  • 税金及附加怎么登明细账
  • 非货币性资产交换和债务重组的区别
  • php中字符串函数
  • 其他应付款和其他应付款对冲
  • 公司装修款怎么做分录
  • 以公允价值计量是什么意思
  • wamp使用
  • 特殊性税务处理的条件
  • web渗透实战
  • 环境检测费做什么科目
  • 年报中投资总额怎么填
  • php的foreach循环语句
  • 总公司签合同后将工程给分公司可以吗
  • 权限管理实现的功能包括
  • 【超直白讲解opencv RGB与BGR】RGB模式与BGR模式有什么不同,如何相互转换?
  • 管家婆软件如何做账
  • php上传不了文件
  • 工会保障工作的主要任务有哪些
  • 公司贷款买车有什么风险
  • 如何对php网站页面进行修改
  • mongo 更新数据
  • 事业单位财政拨款收入会计分录
  • 商品流通企业的含义
  • 计算业务招待费扣除限额的基础包括营业外收入
  • 印花税记入哪个费用
  • 贷款转入账号
  • 发票金额与实际金额不符怎么举报
  • 应付账款平账调到哪个科目
  • 旅行社代订机票便宜吗
  • 报税中反写是什么意思
  • 基金账户托管
  • 如何调整银行存款余额
  • 接手前往年的银行余额不平怎么办?
  • 公司无形资产可以作为公司注册资金吗
  • 企业开了发票
  • 查询一个字段有哪些值
  • CREATE FUNCTION sqlserver用户定义函数
  • mysql5.7安装教程详细
  • Windows Server 2008与2012建立林信任详细步骤
  • macbook取消弹出框阻止
  • 操作系统有哪些
  • ubuntu20开机自启动
  • 盗版win7怎么升级
  • win8的应用商店在哪
  • win8系统隐藏文件怎么查看
  • [置顶] [寒江孤叶丶的Cocos2d-x之旅_27]CocoStudio导出的LUA文件怎么使用?
  • cocos2dx游戏开发教程
  • nodejs爬虫框架crawler
  • bat批处理命令大全
  • nodejs调用c++函数
  • android.intent.extra.text
  • android连接手机
  • js function函数
  • jQuery 3.0 的 setter和getter 模式详解
  • python dj
  • 美股印花税如何收取
  • 增值税征税范围口诀
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设