位置: IT常识 - 正文

Pytorch DataLoader中的num_workers (选择最合适的num_workers值)

编辑:rootadmin
Pytorch DataLoader中的num_workers (选择最合适的num_workers值) 一、概念

推荐整理分享Pytorch DataLoader中的num_workers (选择最合适的num_workers值),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

num_workers是Dataloader的概念,默认值是0。是告诉DataLoader实例要使用多少个子进程进行数据加载(和CPU有关,和GPU无关) 如果num_worker设为0,意味着每一轮迭代时,dataloader不再有自主加载数据到RAM这一步骤(因为没有worker了),而是在RAM中找batch,找不到时再加载相应的batch。缺点当然是速度慢。

当num_worker不为0时,每轮到dataloader加载数据时,dataloader一次性创建num_worker个worker,并用batch_sampler将指定batch分配给指定worker,worker将它负责的batch加载进RAM。

Pytorch DataLoader中的num_workers (选择最合适的num_workers值)

num_worker设置得大,好处是寻batch速度快,因为下一轮迭代的batch很可能在上一轮/上上一轮…迭代时已经加载好了。坏处是内存开销大,也加重了CPU负担(worker加载数据到RAM的进程是CPU复制的嘛)。num_workers的经验设置值是自己电脑/服务器的CPU核心数,如果CPU很强、RAM也很充足,就可以设置得更大些。

num_worker小了的情况,主进程采集完最后一个worker的batch。此时需要回去采集第一个worker产生的第二个batch。如果该worker此时没有采集完,主线程会卡在这里等。(这种情况出现在,num_works数量少或者batchsize 比较小,显卡很快就计算完了,CPU对GPU供不应求。)

即,num_workers的值和模型训练快慢有关,和训练出的模型的performance无关

Detectron2的num_workers默认是4

二、选择最合适的num_workers值

最合适的num_works值与数据集有关 最好是跑代码之前先用这段script跑一下,选择最合适的num_workers值

from time import timeimport multiprocessing as mpimport torchimport torchvisionfrom torchvision import transformstransform = transforms.Compose([ torchvision.transforms.ToTensor(), torchvision.transforms.Normalize((0.1307,), (0.3081,))])trainset = torchvision.datasets.MNIST( root='dataset/', train=True, #如果为True,从 training.pt 创建数据,否则从 test.pt 创建数据。 download=True, #如果为true,则从 Internet 下载数据集并将其放在根目录中。 如果已下载数据集,则不会再次下载。 transform=transform)print(f"num of CPU: {mp.cpu_count()}")for num_workers in range(2, mp.cpu_count(), 2): train_loader = torch.utils.data.DataLoader(trainset, shuffle=True, num_workers=num_workers, batch_size=64, pin_memory=True) start = time() for epoch in range(1, 3): for i, data in enumerate(train_loader, 0): pass end = time() print("Finish with:{} second, num_workers={}".format(end - start, num_workers))

可以看到,这个服务器24个CPU, 最合适的num_workers值是14

三、可能出现的问题

linux系统中可以使用多个子进程加载数据,windows系统里是不可以的,可以发现报错时产生在DataLoader文件中的。我们找到自己调用DataLoader的文件中num_workers的设置,设置为0或者采用默认为0的设置。

本文链接地址:https://www.jiuchutong.com/zhishi/289634.html 转载请保留说明!

上一篇:苏格兰高地上的欧亚红松鼠,苏格兰 (© Scotland: The Big Picture/Minden Pictures)(苏格兰高地什么意思)

下一篇:威尼斯海滩滑板公园鸟瞰图,洛杉矶 (© Ingus Kruklitis/Getty Images)(威尼斯海滩滑板场)

  • 企业所得税年度汇算清缴时间
  • 暂估入账纳税调整填哪里
  • 白酒消费税税率多少钱一吨
  • 合并报表会计未分配利润怎么填写?
  • 非员工私车公用怎么进行账务处理
  • 建筑公司跨区域迁入
  • 出口退税增值税账务处理
  • 年度财务报表和季度财务报表一样吗
  • 进项税加计扣除账务处理
  • 非货币投资如何缴纳企业所得税
  • 代扣代缴车船税手续费比例
  • 股东无偿借款给公司需要交税吗
  • 企业股权融资方式有
  • 保险收入如何做账务处理?
  • 微信支付工资怎么做账
  • 核定征收是每个月都要交税吗
  • 起征点是什么意思举例子说明
  • 为什么发票查验不出
  • 当前中国有什么企业在国外
  • 管理费用明细是什么意思
  • 其他货币资金怎么做账
  • macos10.10.5怎么升级
  • 判断自己的眉型
  • windows11结束任务快捷键
  • 文本模式是什么意思?
  • 太超过了
  • 有留抵税额怎么做分录
  • phpfread
  • 企业收到政府奖励会计分录
  • 招待费计入哪里
  • 收到厂家赠送商品入库
  • vue 使用高德地图
  • 三级菜单python
  • 百度飞桨paddle
  • framework模块
  • php 截断
  • 公司收到财政补贴款的会计分录
  • Pytorch深度学习实战3-5:详解计算图与自动微分机(附实例)
  • python中的count函数
  • 小型微利企业税收
  • 单位收的房租可以发工资吗
  • mongodb分页查询count太慢
  • 结转在建工程的会计分录
  • 发票验真伪需要盖章吗
  • 零申报失败什么原因
  • 股东买房能在银行贷款吗
  • 小卖部铺货首次送货流程
  • 一般纳税人购入需要安装的生产设备,其入账价值包括
  • sql服务如何自动启动
  • 小企业会计准则跨年红冲
  • 固定资产被盗怎么处理
  • 建筑行业每月报税
  • 商业会计怎么做会计分录
  • 党费返还款怎么做分录
  • 房地产开发公司是做什么的
  • 无形资产摊销方法应反映其经济利益的预期实现方式
  • 逾期未缴税款法律依据
  • 母子公司资金往来财税问题
  • 没有发票就不能保修吗
  • 预付账款的账务处理例题
  • 备份数据还原不了怎么办
  • win10系统找不到mrt
  • smsss.exe - smsss是什么进程
  • centos6.5升级到7.2
  • win7系统删除密码
  • win10多用户独立
  • 安卓listview的用法
  • opengl纹理贴图正方体六个面
  • nginx日志路径配置
  • Unity导出的webgl能做AR吗
  • js实现左右拖动功能
  • unity获取ui
  • 教大家使用灭火器
  • Android shape 梯形
  • android listview数据动态加载
  • 沉浸式模式
  • 税务稽查追溯时间是什么意思
  • 大渡口在重庆吗
  • 一般纳税人资格是什么意思
  • 购旧设备增值税能不能抵扣
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设