位置: IT常识 - 正文

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

发布时间:2024-01-26
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两: import requests //用于请求网页 import re / ...

推荐整理分享python爬虫入门教程:爬取网页图片(python爬虫入门教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫快速入门,python爬虫全套教程,python爬虫教程,python爬虫:入门+进阶,python爬虫入门教程,python爬虫入门教程pdf,python爬虫教程,python爬虫入门教程pdf,内容如对您有帮助,希望把文章链接给更多的朋友!

在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:

首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两:

import requests //用于请求网页import re //正则表达式,用于解析筛选网页中的信息

其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。

然后随便找一个网站,注意不要尝试爬取隐私敏感信息,这里找了个表情包网站:

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

注:此处表情包网站中的内容本来就可以免费下载,所以爬虫只是简化了我们一个个点的流程,注意不能去爬取付费资源。

我们要做的就是通过爬虫把这些表情包下载到我们电脑里。

编写爬虫程序首先肯定要通过python访问这个网站,代码如下:headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页

其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。

然后我们要找到我们要爬取的图片在网页代码里的位置,f12查看源代码,找到表情包如下:

然后建立匹配规则,用正则表达式把中间那串替换掉,最简单的就是.*?

t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'

像这样。

然后就可以调用re库里的findall方法把相关内容爬下来了:

result = re.findall(t, response.text)

返回的内容是由字符串组成的列表,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。

程序代码import requestsimport reimport osimage = '表情包'if not os.path.exists(image): os.mkdir(image)headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)response.encoding = 'GBK'response.encoding = 'utf-8'print(response.request.headers)print(response.status_code)t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'result = re.findall(t, response.text)for img in result: print(img) res = requests.get(img[0]) print(res.status_code) s = img[0].split('.')[-1] #截取图片后缀,得到表情包格式,如jpg ,gif with open(image + '/' + img[1] + '.' + s, mode='wb') as file: file.write(res.content)

最后结果就是这个样子:

本文链接地址:https://www.jiuchutong.com/zhishi/310334.html 转载请保留说明!

上一篇:python包和文件夹有什么区别(python27文件夹)

下一篇:长篇图解etcd核心应用场景及编码实战(etcd4)

  • 二手房交易税费2023新规定
  • 投资者投入固定资产的合同或协议约定
  • 营业执照是怎么样子的
  • 税盘抵扣的会计分录
  • 土地增值税计税依据
  • 持有至到期投资是什么意思
  • 公司给员工发的工资要交税吗
  • 公允价值变动损益是什么意思
  • 企业所得税补充申报怎么报
  • 购买防疫物资计划
  • 外购机器设备
  • 关于燃油消费税征收范围及税率
  • 以前年度多做了收入怎样调账
  • 不是公户付的款开发票可以做账吗
  • 房产公司增值税怎么交
  • 退休职员工伤补助金放哪个科目?
  • 一般纳税人建筑服务税率是多少
  • 兼营行为的含义
  • 资产处置收益期末有余额吗
  • 月末计提固定资产折旧时,应借记
  • win10关闭自动更新方法永久
  • ICCV, ECCV, CVPR,IEEE的关系
  • 房地产开发企业增值税怎么算
  • 盈余公积金可以用来扩大公司生产经营
  • 数据库操作实例
  • 浅谈如何培养孩子的注意力
  • 一个用于表示特定的web页的标识符url称为
  • php返回数组
  • php图片库
  • 销项税比进项税多怎么办
  • 工业企业成本核算的一般程序
  • 互联网+文本格式
  • 自由会计服务类工作者
  • 消费税为什么要除以1减税率推导公式
  • 汽修厂利润能达到一半吗
  • 税控盘锁死日期是什么意思
  • 营业总成本包括投资收益吗
  • sqlserver2008r2评估期已过
  • 电子税务局能不能逾期申报个税
  • 增量留抵税额怎么算
  • 限售股算不算账户资产
  • 退休人员的返聘协议模板
  • 去年亏损今年盈利同比怎么算
  • 小规模纳税人购进商品会计分录
  • 外经证是怎么样的
  • 结转固定资产清理科目
  • 包装袋制版费
  • 没有报关单可以出口吗
  • 独立核算的重要性
  • 小规模企业所得税优惠政策最新2023
  • 如何填写记账凭证视频
  • 发票作废了还能恢复吗?
  • 成本核算应设置哪些会计账户
  • mysql5.7.32免安装教程
  • Centos7.3下mysql5.7.18安装并修改初始密码的方法
  • windows命令行使用
  • Solaris 远程磁带备份步骤
  • 安装fedora33
  • ubuntu怎么禁用nouveau
  • rasman.exe - rasman是什么进程 有什么作用
  • Android 中的guideline
  • [置顶] [笔记]
  • Node.js中的construct
  • 表单jsp
  • 15个常用的excel函数公式
  • 详解JavaScript对W3C DOM模版的支持情况
  • unity二段跳
  • 2020 unity
  • 使用Raygun来自动追踪AngularJS中的异常
  • jquery日历框有长期的选项
  • Python 常用库
  • 怎么利用python爬虫爬数据
  • Jar mismatch! Fix your dependencies
  • python读入txt
  • adb shell命令
  • python生产
  • 公民海外收入纳税
  • 12366的客服辛苦吗
  • 重庆新电子税务局入口
  • 马尼拉清关HS几位
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号