位置: IT常识 - 正文

Pytorch DataLoader中的num_workers (选择最合适的num_workers值)

编辑:rootadmin
Pytorch DataLoader中的num_workers (选择最合适的num_workers值) 一、概念

推荐整理分享Pytorch DataLoader中的num_workers (选择最合适的num_workers值),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

num_workers是Dataloader的概念,默认值是0。是告诉DataLoader实例要使用多少个子进程进行数据加载(和CPU有关,和GPU无关) 如果num_worker设为0,意味着每一轮迭代时,dataloader不再有自主加载数据到RAM这一步骤(因为没有worker了),而是在RAM中找batch,找不到时再加载相应的batch。缺点当然是速度慢。

当num_worker不为0时,每轮到dataloader加载数据时,dataloader一次性创建num_worker个worker,并用batch_sampler将指定batch分配给指定worker,worker将它负责的batch加载进RAM。

Pytorch DataLoader中的num_workers (选择最合适的num_workers值)

num_worker设置得大,好处是寻batch速度快,因为下一轮迭代的batch很可能在上一轮/上上一轮…迭代时已经加载好了。坏处是内存开销大,也加重了CPU负担(worker加载数据到RAM的进程是CPU复制的嘛)。num_workers的经验设置值是自己电脑/服务器的CPU核心数,如果CPU很强、RAM也很充足,就可以设置得更大些。

num_worker小了的情况,主进程采集完最后一个worker的batch。此时需要回去采集第一个worker产生的第二个batch。如果该worker此时没有采集完,主线程会卡在这里等。(这种情况出现在,num_works数量少或者batchsize 比较小,显卡很快就计算完了,CPU对GPU供不应求。)

即,num_workers的值和模型训练快慢有关,和训练出的模型的performance无关

Detectron2的num_workers默认是4

二、选择最合适的num_workers值

最合适的num_works值与数据集有关 最好是跑代码之前先用这段script跑一下,选择最合适的num_workers值

from time import timeimport multiprocessing as mpimport torchimport torchvisionfrom torchvision import transformstransform = transforms.Compose([ torchvision.transforms.ToTensor(), torchvision.transforms.Normalize((0.1307,), (0.3081,))])trainset = torchvision.datasets.MNIST( root='dataset/', train=True, #如果为True,从 training.pt 创建数据,否则从 test.pt 创建数据。 download=True, #如果为true,则从 Internet 下载数据集并将其放在根目录中。 如果已下载数据集,则不会再次下载。 transform=transform)print(f"num of CPU: {mp.cpu_count()}")for num_workers in range(2, mp.cpu_count(), 2): train_loader = torch.utils.data.DataLoader(trainset, shuffle=True, num_workers=num_workers, batch_size=64, pin_memory=True) start = time() for epoch in range(1, 3): for i, data in enumerate(train_loader, 0): pass end = time() print("Finish with:{} second, num_workers={}".format(end - start, num_workers))

可以看到,这个服务器24个CPU, 最合适的num_workers值是14

三、可能出现的问题

linux系统中可以使用多个子进程加载数据,windows系统里是不可以的,可以发现报错时产生在DataLoader文件中的。我们找到自己调用DataLoader的文件中num_workers的设置,设置为0或者采用默认为0的设置。

本文链接地址:https://www.jiuchutong.com/zhishi/289634.html 转载请保留说明!

上一篇:苏格兰高地上的欧亚红松鼠,苏格兰 (© Scotland: The Big Picture/Minden Pictures)(苏格兰高地什么意思)

下一篇:威尼斯海滩滑板公园鸟瞰图,洛杉矶 (© Ingus Kruklitis/Getty Images)(威尼斯海滩滑板场)

  • 所得税季报中营业外收入填哪里
  • 车辆审验费的会计分录
  • 叉车维修费计什么费用
  • 小规模纳税人销售农产品税率是多少
  • 现金支票存根如何填写
  • 收到个税返还计入成本吗
  • 商用住房出租需要交什么税?
  • 预提费用入账依据
  • 购买理财产品是不是非法集资
  • 发票签收单怎么填
  • 生育津贴报销流程是怎么样的要去社保局问吗
  • 汇兑损失的原因
  • 研发人员奖金的会计分录
  • 企业汇算清缴后税务局会不会查
  • 旅行社开具的发票能否作废
  • 行政单位代管资金怎么做账
  • 研发费用加计扣除最新政策2023
  • 对公账户长期不用怎么收费
  • 鸿蒙系统垃圾清理
  • 主办会计工作注意什么
  • 只交社保不发工资可以吗
  • 结转已经销售商品成本的分录
  • 无票费用 规定
  • 发放工资不计提可以吗
  • 公司委托第三方缴纳社保合法吗
  • 修改php.ini
  • php字符串函数大全
  • pdv文件什么意思
  • Linux系统中sort排序命令的使用教程
  • mcshield.exe是什么进程
  • 企业迁址如何办理手续
  • 小规模纳税人工资要每月申报
  • 开具增值税专用发票的要求
  • 中小企业应交税费
  • typescript中文文档
  • 税务局规定500元以下收据的要求
  • 合并范围外关联方是什么
  • ps怎么怎么用
  • 已抵扣增值税进项税额
  • 不应确认增值税销项税额的
  • 配件及修理费
  • SQL server 2008中的数据库能否只包含数据文件
  • 劳务外包会计分录最新
  • 小规模纳税人差额征税
  • 企业存货核算范围
  • 预收账款还可以用吗
  • 纳税人发生应税行为
  • 资产减少的方式有哪些?
  • 事业单位哪些收入要上交国库
  • 福利费发票抵扣了有什么后果
  • 超市现金券模板
  • 库存现金管理是财务分析的吗
  • 一般纳税人主表中的25是怎么来的
  • 装修费用税法规定有哪些
  • 发票认证申报期是什么时候
  • 公司开办期间的住宿费会计分录
  • 销售商品一批,销售价格为4520000
  • 非正常损失进项税额转出计算
  • 托收承付是什么科目
  • sqlserver 查询锁
  • SQLServer Top语句参数化方法
  • win10系统预览版
  • ubuntu20.04设置
  • centos ssh permission denied
  • win10不能显示桌面
  • Linux操作系统分为
  • win10 20h2 v2
  • win8系统损坏怎么修复
  • mongoose怎么用
  • cocos2dx schedule
  • unity3d官方案例
  • 简述javascript的作用
  • jquery增删改查方法
  • jquery如何调用
  • jquery中有几种方法可以来设置和获取样式
  • python数组定义方法
  • 差额征税全额开票是什么意思
  • 获得感幸福感还有什么
  • 化妆品的消费税税率为15%的比例税率
  • 按季申报印花税怎么申报
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设