位置: IT常识 - 正文

pytorch初学笔记(六):DataLoader的使用(pytorch入门教程(非常详细))

编辑:rootadmin
pytorch初学笔记(六):DataLoader的使用

目录

一、DataLoader介绍

1. DataLoader作用

2. 常用参数介绍 

二、DataLoader的使用

1. 导入并实例化DataLoader

2. 具体使用

2.1 数据集中数据的读取

2.2 DataLoader中数据的读取

3. 使用tensorboard可视化效果

3.1 改变batchsize 

3.2 改变drop_last

3.3 改变shuffle


一、DataLoader介绍1. DataLoader作用

推荐整理分享pytorch初学笔记(六):DataLoader的使用(pytorch入门教程(非常详细)),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:pytorch零基础,pytorch教程,pytorch零基础入门,pytorch 入门,pytorch 快速入门,pytorch零基础入门,pytorch零基础入门,pytorch 入门教程,内容如对您有帮助,希望把文章链接给更多的朋友!

        DataLoader是一个可迭代的数据装载器,组合了数据集和采样器,并在给定数据集上提供可迭代对象。可以完成对数据集中多个对象的集成。

2. 常用参数介绍 

torch.utils.data — PyTorch 1.13 documentation

CLASS  DataLoader

torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=None, sampler=None, 

batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, 

drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None, 

generator=None, *, prefetch_factor=2, persistent_workers=False, pin_memory_device='') 

先导概念介绍:

Epoch: 所有训练样本都已输入到模型中,称为一个epochIteration: 一批样本(batch_size)输入到模型中,称为一个Iteration,Batchsize: 一批样本的大小, 决定一个epoch有多少个Iteration

常用的主要有以下五个参数:

dataset(数据集):需要提取数据的数据集,Dataset对象batch_size(批大小):每一次装载样本的个数,int型 shuffle(洗牌):进行新一轮epoch时是否要重新洗牌,Boolean型num_workers:是否多进程读取机制drop_last:当样本数不能被batchsize整除时, 是否舍弃最后一批数据

二、DataLoader的使用

        我们使用CIFAR10的测试数据集来完成DataLoader的使用。

1. 导入并实例化DataLoader

        创建一个dataloader,设置批大小为4,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次。

#导入数据集的包import torchvision.datasets#导入dataloader的包from torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriter#创建测试数据集test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False,transform=torchvision.transforms.ToTensor())#创建一个dataloader,设置批大小为4,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次test_dataloader = DataLoader(dataset=test_dataset,batch_size=4,shuffle=True,num_workers=0,drop_last=False)2. 具体使用2.1 数据集中数据的读取

        由于数据集中的数据已经被我们转换成了tensor型,我们用dataset[0]输出第一张图片,使用shape属性输出tensor类型的大小,target代表图片的标签。 

img,target = test_dataset[0]print(img.shape,target)

        可以看到图片有RGB3个通道,大小为32*32,target为3。

2.2 DataLoader中数据的读取

        在dataset中,每一个对象元组由一张图片对象img和一个标签target组成;

        而dataloader中会分别对一个批次中的图片和标签进行打包,因此dataloader中,每一个对象由元组由batchsize张图片对象imgs和batchsize个标签targets组成。

对一个批次中的所有图片对象进行打包,形成一个对象,我们叫它imgs对一个批次中所有的标签进行打包,形成一个对象,我们叫它targets

        我们需要通过for循环来取出loader中的对象,loader中的对象个数=数据集中对象个数/batch_size,故应为10000/4=2500个对象。

        核心代码:

for data in test_dataloader: imgs,targets = data print(imgs.shape) print(targets) #导入数据集的包import torchvision.datasets#导入dataloader的包from torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriter#创建测试数据集test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False,transform=torchvision.transforms.ToTensor())#创建一个dataloader,设置批大小为4,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次test_dataloader = DataLoader(dataset=test_dataset,batch_size=4,shuffle=True,num_workers=0,drop_last=False)#测试数据集中第一张图片对象img,target = test_dataset[0]print(img.shape,target)#打印数据集中图片数量print(len(test_dataset))#loader中对象for data in test_dataloader: imgs,targets = data print(imgs.shape) print(targets)#dataloader中对象个数print(len(test_dataloader))

        loader中的对象格式:

imgs的维度变成了4*3*32*32,即四张图片,每张图片3个通道,每张图片大小为32*32。targets里有4个target,分别是四张图片的target。pytorch初学笔记(六):DataLoader的使用(pytorch入门教程(非常详细))

       loader中的对象个数:

        2500个,数据集中图片个数为10000,10000/4=2500,验证正确。说明loader中数据按4个一组打包。 

3. 使用tensorboard可视化效果3.1 改变batchsize 

        修改数据集的batchsize为64,writer中调用的方法为add_images(),因为需要读取的图片有多张。

#导入数据集的包import torchvision.datasets#导入dataloader的包from torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriter#创建测试数据集test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False,transform=torchvision.transforms.ToTensor())#创建一个dataloader,设置批大小为64,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次test_dataloader = DataLoader(dataset=test_dataset,batch_size=64,shuffle=True,num_workers=0,drop_last=False)writer = SummaryWriter("log")#loader中对象step = 0for data in test_dataloader: imgs,targets = data writer.add_images("loader",imgs,step) step+=1writer.close()

结果如下所示,可以看到一个step中有64张图片。

        但是我们发现step156时只取了16张图片,是因为10000张图片每次取64张是不能整除的,因此最后剩下了16张,单独放在最后一个step中,对最后剩余数量的图片进行保留是因为我们设置的drop_last=False。

 

3.2 改变drop_last

        如果我们改变drop_last=True,则不会保留最后的16张图片,会被舍弃,只保留能被整除的批次。

 

        结果如下所示,可以看到最后一步为155步,没了最后的16张图片,只保留了所有能整除的64的step。 

3.3 改变shuffle

        每一轮epoch之后就是分配完了一次数据,而shuffle决定了是否在新一轮epoch开始时打乱所有图片的属性进行分配。

        在代码中epoch就是最外层的循环,假设我们的epoch=2,即需要分配两次数据:

shuffle=TRUE代表第一轮循环结束后会打乱数据集中所有图片的顺序重新进行分配。shuffle=FALSE代表第一轮循环结束后不打乱数据集中所有图片的顺序,还是按原顺序进行分配。

3.3.1 shuffle=False时

#导入数据集的包import torchvision.datasets#导入dataloader的包from torch.utils.data import DataLoaderfrom torch.utils.tensorboard import SummaryWriter#创建测试数据集test_dataset = torchvision.datasets.CIFAR10(root="./CIRFA10",train=False,transform=torchvision.transforms.ToTensor())#创建一个dataloader,设置批大小为64,每一个epoch重新洗牌,不进行多进程读取机制,不舍弃不能被整除的批次test_dataloader = DataLoader(dataset=test_dataset,batch_size=64,shuffle=False,num_workers=0,drop_last=True)writer = SummaryWriter("log")#loader中对象for epoch in range(2): step = 0 for data in test_dataloader: imgs, targets = data writer.add_images("Epoch:{}".format(epoch), imgs, step) step += 1writer.close()

        可以看到epoch=0和epoch=1的每一个step中的图片都是分配的相同的,说明每一轮大循环开始前没有在数据集中重新打乱顺序。

3.3.2 shuffle=True时

       可以看到epoch=0和epoch=1的每一个step中的图片不同了,说明每一轮大循环开始前都在数据集中重新打乱了顺序。

参考资料 

系统学习Pytorch笔记三:Pytorch数据读取机制(DataLoader)与图像预处理模块(transforms)_翻滚的小@强的博客-CSDN博客_dataloader读取顺序

DataLoader的使用_哔哩哔哩_bilibili 

本文链接地址:https://www.jiuchutong.com/zhishi/289781.html 转载请保留说明!

上一篇:如何自己搭建一个ai画图系统? 从0开始云服务器部署novelai(如何自己搭建一个邮箱服务器)

下一篇:【UML】-- 顺序图练习题含答案(自动售货机、学生选课、提款机、购买地铁票、洗衣机工作)(uml中的顺序图由什么组成)

  • 英伟达录屏怎么开(英伟达录屏怎么设置中文)

    英伟达录屏怎么开(英伟达录屏怎么设置中文)

  • potato为什么加载这么慢(potato为什么加载不出来)

    potato为什么加载这么慢(potato为什么加载不出来)

  • oppo如何使用小爱同学(OPPO如何使用小布)

    oppo如何使用小爱同学(OPPO如何使用小布)

  • 一体机怎么强制开机(一体机怎么强制关机)

    一体机怎么强制开机(一体机怎么强制关机)

  • 微信怎么取消发送(微信怎么取消发送视频)

    微信怎么取消发送(微信怎么取消发送视频)

  • 蓝牙耳机触摸键在哪(蓝牙耳机触摸键功能介绍)

    蓝牙耳机触摸键在哪(蓝牙耳机触摸键功能介绍)

  • main menu是什么基带(menu表示什么)

    main menu是什么基带(menu表示什么)

  • 苹果手机温度低自动关机(苹果手机温度低充电会变慢吗)

    苹果手机温度低自动关机(苹果手机温度低充电会变慢吗)

  • 无记忆功能的计算器长什么样(无记忆功能的计算器可以解方程吗)

    无记忆功能的计算器长什么样(无记忆功能的计算器可以解方程吗)

  • 注销了微信号手机号多久能申请新微信(注销了微信号手机号码还能用吗)

    注销了微信号手机号多久能申请新微信(注销了微信号手机号码还能用吗)

  • 8g内存开机占用一半(8g内存开机占用多少正常)

    8g内存开机占用一半(8g内存开机占用多少正常)

  • 华为充电头有pd协议吗(华为充电头有电流声)

    华为充电头有pd协议吗(华为充电头有电流声)

  • 罗马仕充电宝充不进去电灯一直闪(罗马仕充电宝充满电需要多久?)

    罗马仕充电宝充不进去电灯一直闪(罗马仕充电宝充满电需要多久?)

  • qq隐藏会话对方发消息会显示吗(qq隐藏会话对方知道吗)

    qq隐藏会话对方发消息会显示吗(qq隐藏会话对方知道吗)

  • 雷神笔记本键盘灯设置(雷神笔记本键盘灯怎么关)

    雷神笔记本键盘灯设置(雷神笔记本键盘灯怎么关)

  • 华为手机人工智能叫什么(华为手机人工智能语音助手怎么打开)

    华为手机人工智能叫什么(华为手机人工智能语音助手怎么打开)

  • 苹果x有快充吗(苹果x有快充吗手机)

    苹果x有快充吗(苹果x有快充吗手机)

  • 无法连接到网关是什么意思(小米电视无法连接到网关)

    无法连接到网关是什么意思(小米电视无法连接到网关)

  • vivo手机root权限在哪(vivo手机root权限怎么设置)

    vivo手机root权限在哪(vivo手机root权限怎么设置)

  • 手机优酷怎么取消自动续费(手机优酷怎么取消自动支付功能)

    手机优酷怎么取消自动续费(手机优酷怎么取消自动支付功能)

  • 淘宝短信提醒怎么取消(淘宝短信提醒怎么关?)

    淘宝短信提醒怎么取消(淘宝短信提醒怎么关?)

  • mix2s有红外吗(mix2s有没有红外)

    mix2s有红外吗(mix2s有没有红外)

  • iphonexs支持电信4g吗(苹果xs支持电信)

    iphonexs支持电信4g吗(苹果xs支持电信)

  • 手机设备清空是什么意思(手机设备清空会怎么样)

    手机设备清空是什么意思(手机设备清空会怎么样)

  • 360手机怎么强制开机(360手机怎么双清)

    360手机怎么强制开机(360手机怎么双清)

  • iphone怎么看照片拍摄时间(iPhone怎么看照片信息)

    iphone怎么看照片拍摄时间(iPhone怎么看照片信息)

  • 金蝶新建帐套的步骤(金蝶新建帐套的密码)

    金蝶新建帐套的步骤(金蝶新建帐套的密码)

  • canny边缘检测算法(canny边缘检测算法基本步骤)

    canny边缘检测算法(canny边缘检测算法基本步骤)

  • 预提所得税的计税依据
  • 没有成本发票怎么缴纳企业所得税
  • 湖南税务申报期限2023年1月
  • 2021年白酒新政策
  • 综合所得减除费用标准
  • 固定资产的原值是含税价?
  • 出差怎么订机票
  • 托收承付是收到钱了吗
  • 一般纳税人购进鸡蛋怎样抵扣
  • 增值税专票给客户的是第几联
  • 营改增后固定资产报废处置收入计税
  • 小规模季度超过30万怎么填报增值税
  • 对公提回贷算收入吗
  • 以前固定资产入账折旧怎么提
  • 企业扶贫款怎么做账
  • 怎么用苹果电脑查找苹果手机
  • 硬件设施不完备
  • 荣耀路由器怎么重置
  • 银行罚息计入什么会计科目
  • 兼职如何交税款
  • yii2开发文档
  • 国外供应商如何审核
  • yolov5 入门
  • php命名空间和自由空间
  • 捐款怎么处理
  • vue生命周期图解
  • vue状态机
  • 物流公司开几个点的发票
  • 个税申报需要什么资料
  • SQLite数据库安装及基本操作指南
  • 认缴制注册资金不交可以吗
  • 个人所得税申报教程
  • 恢复从回收站已经清除的文件
  • SQL中Exists的用法
  • sqlserver函数语法
  • 企业所得税年度纳税申报表A类怎么填
  • 信用减值损失和公允价值变动的区别
  • 工程异地施工缴什么税
  • 营利性养老机构有补贴吗
  • 退回货款给客户怎么做会计分录
  • 公司分期付款买车怎么抵税
  • 公司需要现金
  • 代扣代缴的个人所得税在现金流量表
  • 买二手设备需要签合同吗
  • 哪种飞机票可以抵扣进项税
  • 什么是预收账款的正常余额
  • 劳务派遣差额征税如何开票
  • 个体工商户如何注销网上
  • 房产开发企业以什么为主
  • 备查账包括哪些
  • sql server语句查询
  • mysql索引作用的简单理解
  • win7系统开启telnet服务
  • windows tasks文件夹
  • 如何禁止mac adobe acrobat联网
  • 图解在OS X中管理窗口大小的多种方法
  • linux配置java环境变量无法保存并退出
  • win双系统怎么切换
  • linux磁盘格式化后一定会清空数据吗
  • win7系统桌面图标变大了怎样恢复
  • 苹果笔记本安装win10
  • windows xp系
  • macosmajove
  • win7系统存储在哪
  • win10系统锁屏广告怎么取消
  • win10mobile下载官网
  • android系统架构图
  • easyui multiple
  • node.js wss
  • 改变图片透明度怎么调
  • python开发的程序怎么运行
  • 基于unity的游戏开发
  • 知道金额和税额怎么求
  • 最新印花税税目表2022
  • 怎么查询开票信息呢
  • 地税局网站查询发票
  • 车船税完税证明开具如何开具
  • 即征即退的留抵税额是否可以抵一般计税的税额
  • 企业如何网上申报税
  • 学校经费审批流程
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设