位置: IT常识 - 正文

Pytorch DataLoader中的num_workers (选择最合适的num_workers值)

编辑:rootadmin
Pytorch DataLoader中的num_workers (选择最合适的num_workers值) 一、概念

推荐整理分享Pytorch DataLoader中的num_workers (选择最合适的num_workers值),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

num_workers是Dataloader的概念,默认值是0。是告诉DataLoader实例要使用多少个子进程进行数据加载(和CPU有关,和GPU无关) 如果num_worker设为0,意味着每一轮迭代时,dataloader不再有自主加载数据到RAM这一步骤(因为没有worker了),而是在RAM中找batch,找不到时再加载相应的batch。缺点当然是速度慢。

当num_worker不为0时,每轮到dataloader加载数据时,dataloader一次性创建num_worker个worker,并用batch_sampler将指定batch分配给指定worker,worker将它负责的batch加载进RAM。

Pytorch DataLoader中的num_workers (选择最合适的num_workers值)

num_worker设置得大,好处是寻batch速度快,因为下一轮迭代的batch很可能在上一轮/上上一轮…迭代时已经加载好了。坏处是内存开销大,也加重了CPU负担(worker加载数据到RAM的进程是CPU复制的嘛)。num_workers的经验设置值是自己电脑/服务器的CPU核心数,如果CPU很强、RAM也很充足,就可以设置得更大些。

num_worker小了的情况,主进程采集完最后一个worker的batch。此时需要回去采集第一个worker产生的第二个batch。如果该worker此时没有采集完,主线程会卡在这里等。(这种情况出现在,num_works数量少或者batchsize 比较小,显卡很快就计算完了,CPU对GPU供不应求。)

即,num_workers的值和模型训练快慢有关,和训练出的模型的performance无关

Detectron2的num_workers默认是4

二、选择最合适的num_workers值

最合适的num_works值与数据集有关 最好是跑代码之前先用这段script跑一下,选择最合适的num_workers值

from time import timeimport multiprocessing as mpimport torchimport torchvisionfrom torchvision import transformstransform = transforms.Compose([ torchvision.transforms.ToTensor(), torchvision.transforms.Normalize((0.1307,), (0.3081,))])trainset = torchvision.datasets.MNIST( root='dataset/', train=True, #如果为True,从 training.pt 创建数据,否则从 test.pt 创建数据。 download=True, #如果为true,则从 Internet 下载数据集并将其放在根目录中。 如果已下载数据集,则不会再次下载。 transform=transform)print(f"num of CPU: {mp.cpu_count()}")for num_workers in range(2, mp.cpu_count(), 2): train_loader = torch.utils.data.DataLoader(trainset, shuffle=True, num_workers=num_workers, batch_size=64, pin_memory=True) start = time() for epoch in range(1, 3): for i, data in enumerate(train_loader, 0): pass end = time() print("Finish with:{} second, num_workers={}".format(end - start, num_workers))

可以看到,这个服务器24个CPU, 最合适的num_workers值是14

三、可能出现的问题

linux系统中可以使用多个子进程加载数据,windows系统里是不可以的,可以发现报错时产生在DataLoader文件中的。我们找到自己调用DataLoader的文件中num_workers的设置,设置为0或者采用默认为0的设置。

本文链接地址:https://www.jiuchutong.com/zhishi/289634.html 转载请保留说明!

上一篇:苏格兰高地上的欧亚红松鼠,苏格兰 (© Scotland: The Big Picture/Minden Pictures)(苏格兰高地什么意思)

下一篇:威尼斯海滩滑板公园鸟瞰图,洛杉矶 (© Ingus Kruklitis/Getty Images)(威尼斯海滩滑板场)

  • 所得税费用会计分录
  • 纳税等级是指什么意思
  • 今日头条测试收款如何记账?
  • 领用自产产品用于职工食堂
  • 新的企业所得税暂行条例
  • 被投资方减资的会计处理
  • 递延所得税如何申报
  • 进口代理费取费标准
  • 开票交税当月不确认收入如何做账?
  • 企业工资薪酬包括哪些内容
  • 银行代扣水电费要手续费吗
  • 企业计提长期借款的利息
  • 偷税罪立案标准最新
  • 继承房产出售时交个人所得税税率是多少
  • 政府回收土地要交土地增值税吗
  • 混合销售举例说明
  • 在建工程转固定资产凭证附件
  • 附加税增值税免抵税额的数据从哪里提取的
  • 国税地税合并后叫什么名称
  • 哪些外籍个人应在中国缴纳个税?
  • 软件著作权认证查询
  • 单位购买金税盘的分录
  • php fork
  • Laravle eloquent 多对多模型关联实例详解
  • 抖音自动抢福袋挂机软件哪个好
  • 销售货物支付运杂费要交增值税吗
  • 电脑密码解除步数怎么弄
  • msg0.db是什么文件
  • 什么是两免一补的条件
  • 准予在企业所得税税前扣除的有
  • 黑色金属冶炼压延品的税收编码是多少
  • php自定义函数的关键字是什么
  • node js m1
  • 资产负债表应收账款怎么计算
  • ai当前的发展
  • 前端资源浏览器下载
  • php中array用法
  • day12-Servlet02
  • mysql修改表结构会锁表吗
  • 个人社保交错了怎么办
  • 信息技术服务费怎么做会计分录
  • 费用的分摊要注意什么
  • 期初在产品怎么算
  • 资产负债表应收账款期末余额公式
  • 应收账款和应付账款属于什么科目
  • 短信收到电子退库收入什么意思
  • 权益法的股权比例
  • 所得税费用科目的期末余额应直接转入
  • 三年期定期存款利率怎么算
  • 城乡居民死亡后需要办理什么手续
  • 税票是什么意思
  • 固定资产的特点有哪几个
  • 转账到银行卡是从哪转的
  • centos rpm包存放位置
  • Linux安装MySQL5.6.24使用文字说明
  • centos6.5设置网络
  • win8系统怎么查看隐藏文件
  • 鼠标右键一直锁定一个应用
  • linux内容查找
  • assoc .exe=exefile是什么
  • linux命令git
  • js筛选器
  • android中的布局分为6种,分别是
  • net命令用法
  • css浮动和清除浮动
  • Node.js中的construct构造函数
  • cmd pushd
  • js dom方法
  • 生成ssh
  • js中写html代码
  • android使用方法
  • js实现字符串和数字对齐
  • jquery mvvm框架
  • 税务机关的情况说明
  • 国家税务局申请电子发票怎么申请
  • 成都市武侯区税务局官网
  • 北京西城税务局
  • 城市维护建设税怎么算
  • 梦幻西游新版登录方式
  • 威科先行个人一年费用
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设