位置: IT常识 - 正文

pytorch初学笔记(六):DataLoader的使用(pytorch入门教程(非常详细))

编辑:rootadmin
pytorch初学笔记(六):DataLoader的使用

目录

一、DataLoader介绍

1. DataLoader作用

2. 常用参数介绍 

二、DataLoader的使用

1. 导入并实例化DataLoader

2. 具体使用

2.1 数据集中数据的读取

2.2 DataLoader中数据的读取

3. 使用tensorboard可视化效果

3.1 改变batchsize 

3.2 改变drop_last

3.3 改变shuffle


一、DataLoader介绍1. DataLoader作用

推荐整理分享pytorch初学笔记(六):DataLoader的使用(pytorch入门教程(非常详细)),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:pytorch零基础,pytorch教程,pytorch零基础入门,pytorch 入门,pytorch 快速入门,pytorch零基础入门,pytorch零基础入门,pytorch 入门教程,内容如对您有帮助,希望把文章链接给更多的朋友!

        DataLoader是一个可迭代的数据装载器,组合了数据集和采样器,并在给定数据集上提供可迭代对象。可以完成对数据集中多个对象的集成。

2. 常用参数介绍 

torch.utils.data — PyTorch 1.13 documentation

CLASS  DataLoader

torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=None, sampler=None, 

batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, 

drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None, 

generator=None, *, prefetch_factor=2, persistent_workers=False, pin_memory_device='') 

先导概念介绍:

Epoch: 所有训练样本都已输入到模型中,称为一个epochIteration: 一批样本(batch_size)输入到模型中,称为一个Iteration,Batchsize: 一批样本的大小, 决定一个epoch有多少个Iteration

常用的主要有以下五个参数:

dataset(数据集):需要提取数据的数据集,Dataset对象batch_size(批大小):每一次装载样本的个数,int型 shuffle(洗牌):进行新一轮epoch时是否要重新洗牌,Boolean型num_workers:是否多进程读取机制drop_last:当样本数不能被batchsize整除时, 是否舍弃最后一批数据

二、DataLoader的使用

        我们使用CIFAR10的测试数据集来完成DataLoader的使用。

1. 导入并实例化DataLoader

        创建一个dataloader,设置批大小为4,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次。

#导入数据集的包import torchvision.datasets#导入dataloader的包from torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriter#创建测试数据集test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False,transform=torchvision.transforms.ToTensor())#创建一个dataloader,设置批大小为4,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次test_dataloader = DataLoader(dataset=test_dataset,batch_size=4,shuffle=True,num_workers=0,drop_last=False)2. 具体使用2.1 数据集中数据的读取

        由于数据集中的数据已经被我们转换成了tensor型,我们用dataset[0]输出第一张图片,使用shape属性输出tensor类型的大小,target代表图片的标签。 

img,target = test_dataset[0]print(img.shape,target)

        可以看到图片有RGB3个通道,大小为32*32,target为3。

2.2 DataLoader中数据的读取

        在dataset中,每一个对象元组由一张图片对象img和一个标签target组成;

        而dataloader中会分别对一个批次中的图片和标签进行打包,因此dataloader中,每一个对象由元组由batchsize张图片对象imgs和batchsize个标签targets组成。

对一个批次中的所有图片对象进行打包,形成一个对象,我们叫它imgs对一个批次中所有的标签进行打包,形成一个对象,我们叫它targets

        我们需要通过for循环来取出loader中的对象,loader中的对象个数=数据集中对象个数/batch_size,故应为10000/4=2500个对象。

        核心代码:

for data in test_dataloader: imgs,targets = data print(imgs.shape) print(targets) #导入数据集的包import torchvision.datasets#导入dataloader的包from torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriter#创建测试数据集test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False,transform=torchvision.transforms.ToTensor())#创建一个dataloader,设置批大小为4,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次test_dataloader = DataLoader(dataset=test_dataset,batch_size=4,shuffle=True,num_workers=0,drop_last=False)#测试数据集中第一张图片对象img,target = test_dataset[0]print(img.shape,target)#打印数据集中图片数量print(len(test_dataset))#loader中对象for data in test_dataloader: imgs,targets = data print(imgs.shape) print(targets)#dataloader中对象个数print(len(test_dataloader))

        loader中的对象格式:

imgs的维度变成了4*3*32*32,即四张图片,每张图片3个通道,每张图片大小为32*32。targets里有4个target,分别是四张图片的target。pytorch初学笔记(六):DataLoader的使用(pytorch入门教程(非常详细))

       loader中的对象个数:

        2500个,数据集中图片个数为10000,10000/4=2500,验证正确。说明loader中数据按4个一组打包。 

3. 使用tensorboard可视化效果3.1 改变batchsize 

        修改数据集的batchsize为64,writer中调用的方法为add_images(),因为需要读取的图片有多张。

#导入数据集的包import torchvision.datasets#导入dataloader的包from torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriter#创建测试数据集test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False,transform=torchvision.transforms.ToTensor())#创建一个dataloader,设置批大小为64,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次test_dataloader = DataLoader(dataset=test_dataset,batch_size=64,shuffle=True,num_workers=0,drop_last=False)writer = SummaryWriter("log")#loader中对象step = 0for data in test_dataloader: imgs,targets = data writer.add_images("loader",imgs,step) step+=1writer.close()

结果如下所示,可以看到一个step中有64张图片。

        但是我们发现step156时只取了16张图片,是因为10000张图片每次取64张是不能整除的,因此最后剩下了16张,单独放在最后一个step中,对最后剩余数量的图片进行保留是因为我们设置的drop_last=False。

 

3.2 改变drop_last

        如果我们改变drop_last=True,则不会保留最后的16张图片,会被舍弃,只保留能被整除的批次。

 

        结果如下所示,可以看到最后一步为155步,没了最后的16张图片,只保留了所有能整除的64的step。 

3.3 改变shuffle

        每一轮epoch之后就是分配完了一次数据,而shuffle决定了是否在新一轮epoch开始时打乱所有图片的属性进行分配。

        在代码中epoch就是最外层的循环,假设我们的epoch=2,即需要分配两次数据:

shuffle=TRUE代表第一轮循环结束后会打乱数据集中所有图片的顺序重新进行分配。shuffle=FALSE代表第一轮循环结束后不打乱数据集中所有图片的顺序,还是按原顺序进行分配。

3.3.1 shuffle=False时

#导入数据集的包import torchvision.datasets#导入dataloader的包from torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriter#创建测试数据集test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False,transform=torchvision.transforms.ToTensor())#创建一个dataloader,设置批大小为64,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次test_dataloader = DataLoader(dataset=test_dataset,batch_size=64,shuffle=False,num_workers=0,drop_last=True)writer = SummaryWriter("log")#loader中对象for epoch in range(2): step = 0 for data in test_dataloader: imgs, targets = data writer.add_images("Epoch:{}".format(epoch), imgs, step) step += 1writer.close()

        可以看到epoch=0和epoch=1的每一个step中的图片都是分配的相同的,说明每一轮大循环开始前没有在数据集中重新打乱顺序。

3.3.2 shuffle=True时

       可以看到epoch=0和epoch=1的每一个step中的图片不同了,说明每一轮大循环开始前都在数据集中重新打乱了顺序。

参考资料 

系统学习Pytorch笔记三:Pytorch数据读取机制(DataLoader)与图像预处理模块(transforms)_翻滚的小@强的博客-CSDN博客_dataloader读取顺序

DataLoader的使用_哔哩哔哩_bilibili 

本文链接地址:https://www.jiuchutong.com/zhishi/289781.html 转载请保留说明!

上一篇:如何自己搭建一个ai画图系统? 从0开始云服务器部署novelai(如何自己搭建一个邮箱服务器)

下一篇:【UML】-- 顺序图练习题含答案(自动售货机、学生选课、提款机、购买地铁票、洗衣机工作)(uml中的顺序图由什么组成)

  • 微信解封为什么要刷脸(微信解封为什么显示绑卡信息不一致)

    微信解封为什么要刷脸(微信解封为什么显示绑卡信息不一致)

  • 苹果电池83%用不用换(苹果电池 83%)

    苹果电池83%用不用换(苹果电池 83%)

  • iphone11可以设置几个面容(iPhone11可以设置两个面容吗)

    iphone11可以设置几个面容(iPhone11可以设置两个面容吗)

  • 抖音号可以两个人同时登吗(抖音号可以两个人用吗)

    抖音号可以两个人同时登吗(抖音号可以两个人用吗)

  • 抖音授权管理是什么意思(抖音授权管理是空的怎么添加)

    抖音授权管理是什么意思(抖音授权管理是空的怎么添加)

  • OPPOR15电量旁边那个图标是什么意思(oppo手机电量旁边有个圆圈如何关闭)

    OPPOR15电量旁边那个图标是什么意思(oppo手机电量旁边有个圆圈如何关闭)

  • 诺基亚n系列所有型号(诺基亚n系列所有型号图片)

    诺基亚n系列所有型号(诺基亚n系列所有型号图片)

  • wps固定值在哪里设置(wps表格固定值在哪里设置)

    wps固定值在哪里设置(wps表格固定值在哪里设置)

  • 电商和网店有什么区别(电商与淘宝店有何区别)

    电商和网店有什么区别(电商与淘宝店有何区别)

  • 华为闹钟响了一直不关闭(华为闹钟响了一次怎么关)

    华为闹钟响了一直不关闭(华为闹钟响了一次怎么关)

  • 网易云自动续费能退吗(网易云自动续费在哪里关闭)

    网易云自动续费能退吗(网易云自动续费在哪里关闭)

  • 华为nova5pro像素为什么不清晰(华为nova5pro像素在哪里看)

    华为nova5pro像素为什么不清晰(华为nova5pro像素在哪里看)

  • word文档是什么意思(Word文档是什么格式的文件)

    word文档是什么意思(Word文档是什么格式的文件)

  • 探探为什么开不了直播(为什么我的探探点不进去)

    探探为什么开不了直播(为什么我的探探点不进去)

  • 快手通过标签添加是什么意思(快手标签添加你是什么意思)

    快手通过标签添加是什么意思(快手标签添加你是什么意思)

  • 支付宝好友请求有效期(支付宝好友请求能看到时间吗)

    支付宝好友请求有效期(支付宝好友请求能看到时间吗)

  • 数据分析能力是指什么(数据分析能力体现在哪些方面)

    数据分析能力是指什么(数据分析能力体现在哪些方面)

  • 拼多多怎么二次追加(拼多多怎么二次修改地址)

    拼多多怎么二次追加(拼多多怎么二次修改地址)

  • 小米ai音箱能控制格力空调吗(小米ai音箱能远程控制吗)

    小米ai音箱能控制格力空调吗(小米ai音箱能远程控制吗)

  • 表格怎么设置成双面打印(表格怎么设置成10×10的)

    表格怎么设置成双面打印(表格怎么设置成10×10的)

  • 腾讯视频可不可以同时登两个手机(腾讯视频可不可以多人登录)

    腾讯视频可不可以同时登两个手机(腾讯视频可不可以多人登录)

  • 微信语音删了能恢复吗(微信语音删除后能不能恢复)

    微信语音删了能恢复吗(微信语音删除后能不能恢复)

  • 天猫魔盒怎么查看信息(天猫魔盒怎么查看wifi密码)

    天猫魔盒怎么查看信息(天猫魔盒怎么查看wifi密码)

  • 误卸载了微信怎么恢复(不小心卸载了微信)

    误卸载了微信怎么恢复(不小心卸载了微信)

  • 小米cc9什么时候更新miui11(小米cc9什么时候发布的)

    小米cc9什么时候更新miui11(小米cc9什么时候发布的)

  • 数字证书的主要内容(数字证书的主要原理是什么?有哪些用途?)

    数字证书的主要内容(数字证书的主要原理是什么?有哪些用途?)

  • paperwhite4上市时间(paperwhite4怎么样)

    paperwhite4上市时间(paperwhite4怎么样)

  • 华为备胎芯片指什么(就华为的备胎计划,命运掌握在自己手中)

    华为备胎芯片指什么(就华为的备胎计划,命运掌握在自己手中)

  • 怎么取消vivo自动优化(怎么取消vivo自动续费)

    怎么取消vivo自动优化(怎么取消vivo自动续费)

  • 微博怎么隐藏超话(微博怎么隐藏超话显示主页)

    微博怎么隐藏超话(微博怎么隐藏超话显示主页)

  • Vue插槽(vue插槽的使用场景)

    Vue插槽(vue插槽的使用场景)

  • 企业所得税年度汇算
  • 库存股增加为什么资产减少
  • 公司购买办公用品300元,以现金支付,购入后即被领用
  • 劳务报酬和工资薪金哪个税率高
  • 差旅费津贴怎么报税
  • 建筑业预缴税款是什么意思
  • 由于生产工艺改进引起建筑物设备陈旧
  • 银行开户时存入的现金怎么做账
  • 购买沙子违法吗
  • 未摊销的费用怎样处理
  • 上级单位给的奖金叫什么
  • 营改增后开餐厅需要交什么税?
  • 有限合伙企业收益分配
  • 出口退税总是差进项票怎么处理
  • 所得税会计核算要点及程序
  • 税务季报都报啥
  • 收到银行承兑汇票计入什么科目
  • 1697509479
  • 苹果电脑怎么升级系统到最新版本
  • 网络适配器感叹号代码43
  • 企业出租经营权是否征税
  • 如何解决心脏供血不足
  • python中函数的可变参数有哪几种?各有什么特点?
  • 所得税费用怎么缴纳
  • 如何卸载win10
  • 投资收益怎么算例题
  • php数组函数 菜鸟
  • Fort Rock Valley Historical Homestead博物馆,俄勒冈 (© Prisma by Dukas Presseagentur GmbH/Alamy)
  • 无形资产摊销的会计及账务处理
  • 机动处置什么意思
  • 教案的近义词是什么
  • php延迟静态绑定
  • 退教育附加税会计分录
  • 成本费用科目包括
  • 季报的利润表本月金额填的是当月数可以吗
  • 文心一格百度
  • yii框架搭建
  • 补开发票对公司有什么影响
  • 长期股权投资种类
  • 公司的现金收入包括
  • 出版社出版带有编码吗
  • 应收补贴款是什么
  • 生产成本制造费用借贷方向
  • 金税四期监控什么
  • 一般纳税人之外还有什么
  • 公司注销时退还实收资本要交个税吗
  • 社保应该如何缴纳
  • 审计库存现金盘点表
  • 递延收益属于哪个报表项目
  • 探望公司员工现金费用报销怎么写
  • 购方收到红字发票怎么开
  • 建造合同收入
  • mysql安装出问题
  • mysql8.0 json
  • Windows Server 2008如何改动服务器名称与管理员密码?
  • kvm虚拟机性能调优
  • linux常用命令修改
  • gsicon.exe是什么进程 作用是什么 gsicon进程查询
  • 一招让你的wifi网速翻倍
  • winxp鼠标右键菜单栏怎么改
  • iptables添加规则立即生效
  • nodejs实战教程
  • 腾讯im sdk
  • jquery判断控件是否存在
  • 使用jquery操作dom
  • linux多线程编程实例
  • shell脚本编程100例
  • 详解各种汽油一吨等于多少升
  • node.js django
  • javascript基础书
  • jquery兼容ie
  • PYTHON使用缩进来体现代码之间的逻辑关系
  • js中生成随机数
  • javascript面向对象 第三方类库
  • js实现复制文本
  • jQuery通过ajax请求php遍历json数组到table中的代码(推荐)
  • 江苏国家税务局电子税务局
  • 贵阳国家高新技术产业开发区管理委员会
  • 广州地税局官网办事点
  • 回迁房办房产证需要交多少钱
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设