位置: IT常识 - 正文

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

编辑:rootadmin
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两: import requests //用于请求网页 import re / ...

推荐整理分享python爬虫入门教程:爬取网页图片(python爬虫入门教程),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python爬虫快速入门,python爬虫全套教程,python爬虫教程,python爬虫:入门+进阶,python爬虫入门教程,python爬虫入门教程pdf,python爬虫教程,python爬虫入门教程pdf,内容如对您有帮助,希望把文章链接给更多的朋友!

在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:

首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两:

import requests //用于请求网页import re //正则表达式,用于解析筛选网页中的信息

其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。

然后随便找一个网站,注意不要尝试爬取隐私敏感信息,这里找了个表情包网站:

python爬虫入门教程:爬取网页图片(python爬虫入门教程)

注:此处表情包网站中的内容本来就可以免费下载,所以爬虫只是简化了我们一个个点的流程,注意不能去爬取付费资源。

我们要做的就是通过爬虫把这些表情包下载到我们电脑里。

编写爬虫程序首先肯定要通过python访问这个网站,代码如下:headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页

其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。

然后我们要找到我们要爬取的图片在网页代码里的位置,f12查看源代码,找到表情包如下:

然后建立匹配规则,用正则表达式把中间那串替换掉,最简单的就是.*?

t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'

像这样。

然后就可以调用re库里的findall方法把相关内容爬下来了:

result = re.findall(t, response.text)

返回的内容是由字符串组成的列表,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。

程序代码import requestsimport reimport osimage = '表情包'if not os.path.exists(image): os.mkdir(image)headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0' }response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)response.encoding = 'GBK'response.encoding = 'utf-8'print(response.request.headers)print(response.status_code)t = '<img src="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" alt="https://www.cnblogs.com/tuixiulaozhou/p/(.*?)" width="160" height="120">'result = re.findall(t, response.text)for img in result: print(img) res = requests.get(img[0]) print(res.status_code) s = img[0].split('.')[-1] #截取图片后缀,得到表情包格式,如jpg ,gif with open(image + '/' + img[1] + '.' + s, mode='wb') as file: file.write(res.content)

最后结果就是这个样子:

本文链接地址:https://www.jiuchutong.com/zhishi/310334.html 转载请保留说明!

上一篇:python包和文件夹有什么区别(python27文件夹)

下一篇:长篇图解etcd核心应用场景及编码实战(etcd4)

  • 微信公众平台开发多的常见问题解惑(微信公众平台在哪里打开)

    微信公众平台开发多的常见问题解惑(微信公众平台在哪里打开)

  • 192.168.223.1无线设置(1921682231无线设置向导手机)

    192.168.223.1无线设置(1921682231无线设置向导手机)

  • 优酷0.1元7天会员怎么解约(优酷0.1元7天会员是真的吗)

    优酷0.1元7天会员怎么解约(优酷0.1元7天会员是真的吗)

  • 快手商家号不认证可以吗(快手商家号不认证会限流吗)

    快手商家号不认证可以吗(快手商家号不认证会限流吗)

  • 白盘和黑盘区别(白盘是啥)

    白盘和黑盘区别(白盘是啥)

  • 快手精选专区是从哪里设置(快手精选专区是真的吗)

    快手精选专区是从哪里设置(快手精选专区是真的吗)

  • 电脑排序方式怎么自由排序(电脑排序方式怎么弄)

    电脑排序方式怎么自由排序(电脑排序方式怎么弄)

  • 华为nova6智能遥控在哪里(华为手机智能遥控在哪nova6)

    华为nova6智能遥控在哪里(华为手机智能遥控在哪nova6)

  • 苹果手机为什么闹钟设置了却不响(苹果手机为什么屏幕会突然变暗)

    苹果手机为什么闹钟设置了却不响(苹果手机为什么屏幕会突然变暗)

  • 抖音怎么上传30张照片(抖音怎么上传30秒以上的照片)

    抖音怎么上传30张照片(抖音怎么上传30秒以上的照片)

  • 硬盘存储原理(硬盘存储原理 容量极限)

    硬盘存储原理(硬盘存储原理 容量极限)

  • 手机分身占内存吗(手机分身占内存大吗)

    手机分身占内存吗(手机分身占内存大吗)

  • 苹果a1567是什么版本(苹果a1568是什么型号)

    苹果a1567是什么版本(苹果a1568是什么型号)

  • 计算机最普遍的汉字字符编码(计算机分为哪几类)

    计算机最普遍的汉字字符编码(计算机分为哪几类)

  • 天猫方糖可以不插电吗(天猫方糖不能播放歌曲)

    天猫方糖可以不插电吗(天猫方糖不能播放歌曲)

  • 手机里的压缩包可以删除吗(手机里的压缩包怎么传到电脑)

    手机里的压缩包可以删除吗(手机里的压缩包怎么传到电脑)

  • 抖音怎么查看长视频(抖音怎么看长视频?)

    抖音怎么查看长视频(抖音怎么看长视频?)

  • word怎么添加目录内容(word怎么添加目录和页码)

    word怎么添加目录内容(word怎么添加目录和页码)

  • 苹果x清理缓存怎么清理(苹果x清理缓存怎么清理方法)

    苹果x清理缓存怎么清理(苹果x清理缓存怎么清理方法)

  • 苹果手机怎么截屏(苹果手机怎么截长图)

    苹果手机怎么截屏(苹果手机怎么截长图)

  • 港版iphone7怎么用电信打电话(港版iphone7价格)

    港版iphone7怎么用电信打电话(港版iphone7价格)

  • 途牛旅游如何取消订单(途牛旅游订单怎么退款)

    途牛旅游如何取消订单(途牛旅游订单怎么退款)

  • 权重确定方法五:CRITIC权重法(权重值的确定可以依据什么)

    权重确定方法五:CRITIC权重法(权重值的确定可以依据什么)

  • 退回的所得税与增值税的财务处理?
  • 税务局开专票作废重开流程
  • 个人出租住房需要缴纳哪些税
  • 一般纳税企业所得税税率是多少2019
  • 后期装修改造费用计入什么科目
  • 全年一次性奖金税率表
  • 增值税专用发票可以开电子发票吗
  • 农产品一般纳税人开普票免税吗
  • 法人可不可以办信用卡
  • 税款状态已缴款未入库
  • 核定征收企业怎么申报
  • 增值税专用发票怎么开
  • 固定资产被盗报警
  • 收到政府补助的固定资产的账务处理
  • 背书转让的电子承兑汇票开收据还是发票
  • 股票投资及收益计算公式
  • 个人承包经营所得是什么意思
  • 交增值税入什么科目
  • 税务局查账征收转为核定征收之程序
  • 公车私用情形有哪些
  • 转让股权应具备什么条件
  • 财务软件没有税务登记
  • 核定征收取消了
  • 每期折旧怎么算
  • 子公司借款给母公司要交税吗
  • 加盟商的作用
  • 受委托研发企业可以享受研发支出吗
  • 贴息收据税前扣除是什么
  • 汇算清缴补交所得税后报表需要调整吗
  • 微信公众号开发php源码
  • 年度汇算清缴收入应该填什么
  • 360se进程太多
  • Windows 11 CO-21H2 22000.194 正式版官方下载地址(附esd微软三语直链下载x64+arm64)
  • 辅助生产成本如何结转
  • 管理费用的会计编码
  • 存放同业属于什么业务
  • 中拍网拍卖
  • 招行网银专业版怎么登陆
  • 涨点是什么意思
  • 小规模纳税人是否可以开专票
  • php数组内容替换
  • 国内版的chatpdf
  • 预提的管理费用,汇算清缴怎么做
  • 销售防疫物资是什么意思
  • 权益工具是金融资产还是非金融资产
  • 印花税已缴税额
  • 无形资产界定
  • 子公司与母公司资质能相互借用吗
  • 过账怎么操作
  • 劳务费入什么费用
  • 增值税零税率发票怎么开
  • 上月未抵扣完的进项税额分录
  • 库存商品盘亏计哪个科目
  • 汽车销售公司办理贷款重点调查哪些
  • 账务处理程序是指什么
  • 年金现值的公式是怎么推导出来的
  • 企业汇算清缴需要提供什么资料
  • 母公司销售给控股子公司
  • 生产车间的保险有哪些
  • 费用分割单是什么
  • 可供出售金融资产是指什么
  • 个人如何进行股票交易
  • 盈亏平衡点怎么计算公式
  • mysql内存占用一直增高不释放
  • win10系统的邮件和日历跟outlook一样嘛
  • wsinspector.exe是什么进程
  • ssh远程连接linux
  • linux编译安装php扩展命令
  • Centos 6.4 安装dnsmasq的方法
  • win7系统电脑开热点
  • jquery验证码
  • node.js获取文件信息的方法是什么
  • cocos2dx游戏开发
  • js移动元素位置
  • jquery的优点和缺点
  • 广东电子税务局手机版
  • 文化公司税务筹划
  • 北京国税局开票流程
  • 安全生产管理局和应急局
  • 西安新公司税务注销流程
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设