位置: 编程技术 - 正文

Python 爬虫学习笔记之单线程爬虫(python爬虫从入门到精通)

编辑:rootadmin

推荐整理分享Python 爬虫学习笔记之单线程爬虫(python爬虫从入门到精通),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫入门教程,python爬虫自学系列,python爬虫基础教程,python爬虫快速入门,python爬虫入门,python爬虫自学系列,python爬虫基础教程,python爬虫入门,内容如对您有帮助,希望把文章链接给更多的朋友!

介绍

本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图

怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像下面这样

这个时候进行翻页,观看网址的变化,首先,第一页的网址是 第二页变成了 第三页变成了 ,可以看到,每次翻一页,0后面的数字就会递增1,然后就有人会想到了,拿第一页呢?我们尝试着将 放进浏览器的地址栏,发现可以打开第一栏,那就好办了,我们只需要使用 re.sub() 就可以很轻松的获取到任何一页的内容。获取到网址链接之后,下面要做的就是获取网页的源代码,首先右击查看审查或者是检查元素,就可以看到以下界面

找到课程所在的位置以后,就可以很轻松的利用正则表达式将我们需要的内容提取出来,至于怎么提取,那就要靠你自己了,尝试着自己去找规律才能有更大的收获。如果你实在不知道怎么提取,那么继续往下,看我的源代码吧

实战源代码

以上代码并不难懂,基本就是正则表达式的使用,然后直接运行就可以看到开头我们的截图内容了,由于这是单线程爬虫,所以运行速度感觉有点慢,接下来还会继续更新多线程爬虫。

Python 爬虫学习笔记之单线程爬虫(python爬虫从入门到精通)

应小伙伴们的要求,下面附上requests爬虫库的安装和简单示例

首先安装pip包管理工具,下载get-pip.py. 我的机器上安装的既有python2也有python3。

安装pip到python2:

python get-pip.py

安装到python3:

python3 get-pip.py

pip安装完成以后,安装requests库开启python爬虫学习。

安装requests

pip3 install requests

我使用的python3,python2可以直接用pip install requests.

入门例子

第一行引入requests库,第二行使用requests的get方法获取网页源代码,第三行设置编码格式,第四行文本输出。 把获取到的网页源代码保存到文本文件中:

Python 爬虫学习笔记之多线程爬虫 XPath的安装以及使用1.XPath的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用XPath,有人表示这太坑爹了,早知道刚上来就学习XPa

浅析Python中MySQLdb的事务处理功能 前言任何应用都离不开数据,所以在学习python的时候,当然也要学习一个如何用python操作数据库了。MySQLdb就是python对mysql数据库操作的模块。今天写了

Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理) 我们可以利用urllib来抓取远程的数据进行保存哦,以下是python3抓取网页资源的多种方法,有需要的可以参考借鉴。1、最简单importurllib.requestresponse=urllib.

标签: python爬虫从入门到精通

本文链接地址:https://www.jiuchutong.com/biancheng/384469.html 转载请保留说明!

上一篇:Python 爬虫学习笔记之正则表达式(python爬虫快速入门)

下一篇:Python 爬虫学习笔记之多线程爬虫(python爬虫教程推荐)

  • 企业支付的租金在汇算时可一次性税前扣除
  • 企业资产损失税前扣除管理办法2011215号第46条
  • 契税的具体适用税率是多少
  • 企业支付宝买东西
  • 事务所和公司的专利工程师
  • 未开票收入改为开票收入做账
  • 企业取得政府财政资金,收入时间如何确认?
  • 双倍余额递减法折旧公式
  • 哪些营业外收入需要缴纳增值税
  • 营改增后哪些进项不能抵扣
  • 水利建设专项收入计入什么科目
  • 补发工资如何申请
  • 滴滴客运服务费免税
  • 股东认缴和实缴的会计分录
  • 委托进口代理协议
  • 营业外收入政府补贴要交税吗
  • 苹果手机键盘剪切板在哪里打开
  • 产生的投资收益怎么算
  • 报销货物运输费需要什么凭证
  • 去年年终奖
  • php输出一维数组
  • 筹建期无形资产土地要摊销吗
  • 不征税收入税收政策
  • Laravel 5.5官方推荐的Nginx配置学习教程
  • 复现开源论文代码总结
  • php实现递归
  • PHP中empty,isset,is_null用法和区别
  • 前端微信小程序支付功能怎么实现
  • JavaScript(WebAPI)+具体案例
  • 钉钉防止撤回
  • 小客车能用多少年
  • mysql ndb innodb
  • 企业自建房出售给员工个人后还需要缴纳土地使用税么
  • 固定资产清理产生的费用入什么科目
  • 累计折旧是当月提还是下月提
  • go语言ui
  • 补计提个税分录
  • 税控盘技术服务费抵扣期限
  • 房屋出租收到的发票
  • 如何进行会计制度改革
  • 如何在个人所得税app上修改扣缴义务人
  • sql server提示不允许保存更改
  • PostgreSQL 查看数据库,索引,表,表空间大小的示例代码
  • 公款私存个人检讨
  • 公户的结算卡是否可以转账
  • 对企业发票的监管
  • 开具发票涉及到哪些会计科目?
  • 处置固定资产会计处理
  • 外国专家经费管理办法
  • 补提折旧以前年度损益调整
  • 有留抵税额的会计处理
  • 机床上的配件计入什么费用
  • 营业外支出罚没支出包括
  • 汽车属于固定资产类吗
  • 未确认融资费用计算公式
  • 抵扣认证的发票需要还回去吗
  • 交易性金融资产的入账价值
  • slmgr.vbs /dli
  • bios如何设置关机键开机
  • Win7怎么把桌面文件迁移到D盘中
  • win7开机过程中黑屏
  • Ubuntu系统怎么截图
  • winpatrol.exe - winpatrol是什么进程
  • win101909玩dnf怎么样
  • csinsm32.exe是安全的进程吗 csinsm32进程有哪些用处
  • winxp回收站清空了怎么恢复
  • 微软推送win11
  • unity跨脚本调用函数
  • unity软件设计
  • unet遥感图像分割
  • shell 字符操作
  • jquery form serialize
  • jquery倒计时60秒
  • unity 控件
  • python设计二叉树结构
  • 以下关于android应用程序的目录结构描述中,不正确的是
  • 关联企业之间借款的税收处理
  • 车辆购置税去哪个税务局交
  • 杨浦区办理健康证地点
  • 全国城管改革什么时候结束
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设