位置: IT常识 - 正文

AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略

编辑:rootadmin
AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略

推荐整理分享AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略

目录

DeepSpeed Chat的简介

DeepSpeed-Chat的产生背景

DeepSpeed-Chat的简介

DeepSpeed-Chat的三大功能

DeepSpeed-RLHF 系统三大优势

DeepSpeed Chat的安装和使用方法

1、简单易用的ChatGPT训练和推理体验

使用 DeepSpeed-Chat 的 RLHF 示例可以轻松训练您的第一个 ChatGPT 样式模型

a) 一个脚本完成 RLHF 训练的所有三个阶段并生成您的第一个 ChatGPT 模型!

b) 使用 DeepSpeed-Chat 的推理 API 测试您的最终模型

DeepSpeed Chat的使用方法

1、成熟的 RLHF 培训管道

2、DeepSpeed 混合引擎——统一的基础设施来支持和优化 RLHF 训练


DeepSpeed Chat的简介DeepSpeed-Chat的产生背景

       ChatGPT 之类的模型席卷了 AI 世界,可以毫不夸张地说它对数字世界的影响是革命性的。这些模型用途广泛,能够执行摘要、编码和翻译等任务,其结果与人类专家相当,甚至超过人类专家的能力。鉴于这些模型的强大功能,AI 开源社区正在进行多项努力,以使 ChatGPT 样式的模型更易于访问(例如 ChatLLaMa、Alpaca、Vicuna、Databricks-Dolly 等)。        尽管付出了这些令人难以置信的努力,但仍然缺乏端到端的 RLHF 管道,能够训练强大的 ChatGPT 类模型,AI 社区可以轻松访问这些模型。例如,使用现有系统训练适度的 6.7B ChatGPT 模型通常需要昂贵的多 GPU 设置,这超出了许多数据科学家的能力范围。即使可以访问此类计算资源,训练效率通常也低于这些机器能力的 5%(如下图所示)。最后,现有的解决方案根本无法支持简单、快速和负担得起的培训具有数千亿参数的最先进的 ChatGPT 模型,即使可以访问多 GPU 集群。        这些限制源于缺乏能够有效支持复杂 InstructGPT 的 RLHF 训练管道的稳健系统设计,这与现有 DL 系统设计的标准预训练和微调管道截然不同。

DeepSpeed-Chat的简介

       DeepSpeed是一个由微软开发的深度学习框架优化工具,旨在为大规模分布式训练提供更好的支持。它提供了多种性能优化技术,包括模型并行、梯度累积、动态精度缩放等,使得在使用大规模GPU集群进行训练时能够更高效地利用计算资源。同时,DeepSpeed还提供了一套易用的API,可以方便地将这些优化技术应用到不同的深度学习框架中,如PyTorch、TensorFlow等。        4月12日(美国时间),DeepSpeed在社交论坛,发表了DeepSpeed-Chat,想在单个GPU上训练10B+ chatgpt风格的模型,在多GPU系统上训练100B+ ?引入DeepSpeed-Chat,一种简单(单脚本)、快速和低成本的解决方案,用于用RLHF训练高质量的chatgpt风格模型,比SoTA快15倍。        综上可知,微软开源的 DeepSpeed-Chat是一款让我们能够以更低的成本、更快的速度训练类似于ChatGPT的高质量大模型,目的是帮用户训练自己的模型。

GitHub:DeepSpeed/blogs/deepspeed-chat at master · microsoft/DeepSpeed · GitHub

官方介绍:DeepSpeed/README.md at master · microsoft/DeepSpeed · GitHub

DeepSpeed-Chat的三大功能

       本着使类似 ChatGPT 的模型民主化并使 RLHF 训练真正为 AI 社区所用的精神,今天我们发布了具有以下三种特点的 DeepSpeed-Chat:

(i)易于使用的 ChatGPT 类模型训练和推理体验:一个脚本能够采用预训练的 Huggingface 模型,使用 DeepSpeed-RLHF 系统运行它完成 InstructGPT 训练的所有三个步骤,并生成您自己的 ChatGPT像模型。此外,我们还提供了一个推理 API,用于在训练模型后测试对话式交互。

(ii) DeepSpeed-RLHF 流水线:DeepSpeed-RLHF 流水线主要复制 InstructGPT 论文中的训练流水线,并仔细注意以确保完整性和与包括 a) 监督微调 (SFT) 在内的三个步骤的一一对应, b) 奖励模型微调和 c) 人类反馈强化学习 (RLHF)。此外,我们还提供数据抽象和混合功能,以支持使用多个数据源进行训练。

(iii) DeepSpeed-RLHF 系统:一个强大而复杂的 RLHF 系统,它将 DeepSpeed 的训练和推理能力结合到 RLHF 的单一统一混合引擎 (DeepSpeed-HE) 中。混合引擎能够在 RLHF 内的推理和训练模式之间无缝转换,使其能够利用 DeepSpeed-Inference 的各种优化,例如用于生成的张量并行和高性能变压器内核,同时还受益于众多 ZeRO-以及用于 RL 训练的基于 LoRA 的内存优化策略。DeepSpeed-HE 还了解整个 RLHF 管道,使其能够在 RLHF 不同阶段的内存管理和数据移动方面做出最佳决策。

DeepSpeed-RLHF 系统三大优势

DeepSpeed-RLHF 系统能够大规模实现无与伦比的效率,使复杂的 RLHF 训练变得快速、经济且易于为 AI 社区所接受:

效率和可负担性:在效率方面, DeepSpeed-HE 比现有系统快 15 倍以上,使 RLHF 训练既快速又经济。例如,DeepSpeed-HE 可以在 Azure Cloud 上仅用 9 小时训练 OPT-13B,在 18 小时内训练 OPT-30B,价格分别低于 300 美元和 600 美元。

显卡OPT-6.7BOPT-13BOPT-30BOPT-66B8 个 A100-40GB5.7小时10.8小时1.85天北美8 个 A100-80GB4.1 小时(132 美元)9 小时(290 美元)18 小时(580 美元)2.1 天 ($1620)

表 1. 单节点 8x A100:Azure 上的训练时间和相应的近似成本。

出色的可扩展性:DeepSpeed-HE支持千亿级参数的模型,在多节点多GPU系统上可以实现出色的可扩展性。因此,即使是 13B 模型也可以在 1.25 小时内完成训练,而使用 DeepSpeed-HE 可以在不到一天的时间内训练出大型 175B 模型。

显卡OPT-13BOPT-30BOPT-66BOPT-175B64x A100-80G1.25 小时(320 美元)4 小时(1024 美元)7.5 小时(1920 美元)20 小时 ($5120)

表 2. 多节点 64x A100-80GB:Azure 上的训练时间和相应的近似成本。

非常重要的细节:上面两个表中的数字都是针对训练的第 3 步,并且基于在 DeepSpeed-RLHF 精选数据集和训练方法上实际测量的训练吞吐量,该方法在总共 1.35 亿个token上训练一个时期。我们总共有 6750 万个查询标记(131900 个查询,序列长度为 256)和 6750 万个生成的标记(131900 个答案,序列长度为 256),以及每步 0.5M 标记(1024 个查询-答案对)的最大全局批量大小). 我们敦促读者在与 DeepSpeed-RLHF 进行任何成本和 e2e 时间比较之前注意这些规范。有关详细信息,请参阅我们的基准设置页面。

AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略

民主化 RLHF 训练:DeepSpeed-HE 仅需一个 GPU,即可支持具有超过 130 亿个参数的训练模型,使无法访问多 GPU 系统的数据科学家不仅可以创建玩具 RLHF 模型,还可以创建可在实际中使用的大型强大模型-世界场景。

V100 32GA6000 48GA100 40GA100 80G型号尺寸OPT-2.7BOPT-6.7BOPT-6.7BOPT-13B

表 3. DeepSpeed-HE 在单个 GPU 上支持的最大模型大小

DeepSpeed Chat的安装和使用方法1、简单易用的ChatGPT训练和推理体验

从易于使用的体验开始,展示如何使用 DeepSpeed-RLHF 系统训练 OPT-13B 和 OPT-66B 模型。如果时间不够,您甚至可以在两个小时内在单个消费级 GPU 上训练 OPT-1.3B 模型。我们还演示了如何使用我们的 DeepSpeed-chat RLHF API 来开发您自己的自定义管道。

使用 DeepSpeed-Chat 的 RLHF 示例可以轻松训练您的第一个 ChatGPT 样式模型a) 一个脚本完成 RLHF 训练的所有三个阶段并生成您的第一个 ChatGPT 模型!

我们在以下单个脚本中使用预训练的 OPT-13B 作为演员模型和 OPT-350M 作为奖励模型的示例来生成最终的 13B ChatGPT 样式模型:

pip install deepspeed>=0.9.0git clone https://github.com/microsoft/DeepSpeedExamples.gitcd DeepSpeedExamples/applications/DeepSpeed-Chat/pip install -r requirements.txtpython train.py --actor-model facebook/opt-13b --reward-model facebook/opt-350m --deployment-type single_node

大约半天后,您的 13B 模型将完成全面训练,并准备好检查点。下表显示了三个步骤中每个步骤的训练时间明细:

型号尺寸步骤1第2步步骤 3全部的演员:OPT-13B,奖励:OPT-350M2.5小时0.25小时10.8小时13.6小时

表 4. 在具有 8 个 NVIDIA A100-40G GPU 的单个 DGX 节点上通过 DeepSpeed-Chat 训练 130 亿参数 ChatGPT 模型的 E2E 时间分解。

b) 使用 DeepSpeed-Chat 的推理 API 测试您的最终模型

现在是时候插入并测试由 DeepSpeed-Chat 训练的最终模型了!您不仅可以玩问答环节,还可以玩对话式互动。

Human: Do you know Microsoft?Assistant: Yes, I’m a big fan of Microsoft. What about them?Human: Can you explain it to a 6-year old child? I wonder how I should describe itAssistant: Sure, I can try. Microsoft is a company that makes computers, and they make a program called “Windows” which is the operating system that runs on the computer. It’s like the “brain” of the computer. It’s where all the programs and files are stored. It’s also where you’ll find the “start” button, which is where you’ll start to use the computer.DeepSpeed Chat的使用方法1、成熟的 RLHF 培训管道

为了提供无缝的培训体验,我们遵循 InstructGPT 并在 DeepSpeed-Chat 中包含一个成熟的端到端培训管道,如图 1 所示。

 图 1:DeepSpeed-Chat 的具有可选功能的 RLHF 训练管道的图示。

我们的管道包括三个主要步骤:

第 1 步:监督微调 (SFT),其中仔细选择人类对各种查询的响应以微调预训练语言模型。第 2 步:奖励模型微调,其中使用一个数据集训练一个单独的(通常小于 SFT)模型 (RW),该数据集具有人类提供的对同一查询的多个答案的排名。第 3 步:RLHF 训练,其中使用近端策略优化 (PPO) 算法使用来自 RW 模型的奖励反馈进一步微调 SFT 模型。

我们在步骤 3 中提供了两个附加功能来帮助提高模型质量:

指数移动平均线 (EMA) 集合,其中可以选择基于 EMA 的检查点进行最终评估。Mixture Training,它将预训练目标(即下一个词预测)与 PPO 目标混合在一起,以防止在 SQuAD2.0 等公共基准上的性能回归。

EMA 和混合训练这两个训练特征经常被其他最近的努力忽略,因为它们可以是可选的。然而,根据 InstructGPT 的说法,EMA 检查点通常提供比常规最终训练模型更好的响应质量,而 Mixture Training 可以帮助模型保留预训练基准解决能力。因此,我们为用户提供它们,以充分获得 InstructGPT 中描述的训练体验,并争取更高的模型质量。

除了与 InstructGPT 论文高度一致外,我们还提供了方便的功能来支持研究人员和从业者使用多种数据资源训练自己的 RLHF 模型:

数据抽象和混合功能: DeepSpeed-Chat 能够使用多个数据集训练模型以获得更好的模型质量。它配备了(1)一个抽象数据集层来统一不同数据集的格式;(2) 数据拆分/混合功能,以便正确混合多个数据集,然后将其拆分到 3 个训练阶段。

为了说明我们训练管道的有效性,我们通过多轮对话展示了模型质量,如体验部分所示。

2、DeepSpeed 混合引擎——统一的基础设施来支持和优化 RLHF 训练

instruct-guided RLHF 管道的第 1 步和第 2 步类似于大型模型的定期微调,它们由 DeepSpeed 训练中基于 ZeRO 的优化和并行策略的灵活组合提供支持,以实现规模和速度。另一方面,管道的第 3 步是处理性能影响方面最复杂的部分。每次迭代都需要高效处理两个阶段:a) 令牌/经验生成的推理阶段,为训练生成输入和 b) 训练阶段以更新参与者和奖励模型的权重,以及它们之间的交互和调度。它引入了两个主要成本: (1) 内存成本,因为在整个第 3 阶段需要提供 SFT 和 RW 模型的多个副本; (2) 主要发电阶段,如果没有适当加速,

为了应对这些挑战,我们将 DeepSpeed Training and Inference 的完整系统功能组合到一个统一的基础设施中,我们称之为混合引擎。它利用原始的 DeepSpeed 引擎进行快速训练模式,同时毫不费力地将 DeepSpeed 推理引擎应用于生成/评估模式,为第 3 阶段的 RLHF 训练提供明显更快的训练系统。如图 2 所示,DeepSpeed 训练和推理引擎之间的过渡是无缝的:通过为 actor 模型启用典型的评估和训练模式,在运行推理和训练管道时,DeepSpeed 选择不同的优化来更快地运行模型并提高整体系统吞吐量。

图 2. DeepSpeed 混合引擎设计用于加速 RLHF 流水线中最耗时的部分。

在 RLHF 训练的经验生成阶段的推理执行过程中,DeepSpeed 混合引擎使用轻量级内存管理系统来处理 KV 缓存和中间结果,以及高度优化的推理适配内核和张量并行实现,以实现显着提升与现有解决方案相比,吞吐量(每秒令牌数)。

在训练执行期间​​,Hybrid Engine 启用内存优化技术,例如 DeepSpeed 的 ZeRO 系列技术和低阶自适应 (LoRA)。我们设计并实施了这些系统优化,使它们彼此兼容,并且可以组合在一起,以在统一的混合引擎下提供最高的训练效率。

Hybrid Engine 可以跨训练和推理无缝更改模型分区,以支持基于张量并行的推理和基于 ZeRO 的训练分片机制。它还可以重新配置内存系统,以在这些模式中的每一个期间最大化内存可用性。这可以通过避免内存分配瓶颈和支持大批量大小来提高性能。Hybrid Engine 包含来自 DeepSpeed 训练和推理的一系列系统技术,突破了现代 RLHF 训练的界限,并为 RLHF 工作负载提供了无与伦比的规模和系统效率。

本文链接地址:https://www.jiuchutong.com/zhishi/296033.html 转载请保留说明!

上一篇:育空河附近巢穴中的一对白头海雕和雏鹰,加拿大育空 (© Mark Newman/Minden Pictures)(育空河24102)

下一篇:模型调优:验证集的作用(就是为了调整超参数)(模型如何优化)

  • 钉钉办公软件能定位吗(用钉钉办公)

    钉钉办公软件能定位吗(用钉钉办公)

  • 华为荣耀v20更新应用闪退(华为荣耀v20更新时退)

    华为荣耀v20更新应用闪退(华为荣耀v20更新时退)

  • 华为nova4e与荣耀20青春版对比(华为nova4e与荣耀10哪个好点)

    华为nova4e与荣耀20青春版对比(华为nova4e与荣耀10哪个好点)

  • oppor17手机上边有个HD 还有个电话(oppo手机边上有个小框怎么弄出来)

    oppor17手机上边有个HD 还有个电话(oppo手机边上有个小框怎么弄出来)

  • autodesk recap可以删除吗(autodesk recap可以不安装吗)

    autodesk recap可以删除吗(autodesk recap可以不安装吗)

  • 手机qq没有分享屏幕怎么办(手机qq没有分享屏幕图标)

    手机qq没有分享屏幕怎么办(手机qq没有分享屏幕图标)

  • 苹果手机上网卡顿反应慢怎么办(苹果手机上网卡设为需复机号卡)

    苹果手机上网卡顿反应慢怎么办(苹果手机上网卡设为需复机号卡)

  • 华为mate30反向充电支持机型(华为mate30反向充电怎么会自动关闭)

    华为mate30反向充电支持机型(华为mate30反向充电怎么会自动关闭)

  • qq聊天左滑看空间有记录吗(qq聊天左滑看空间有浏览量嘛)

    qq聊天左滑看空间有记录吗(qq聊天左滑看空间有浏览量嘛)

  • 全民k歌屏蔽和拉黑是一样吗(全民k歌 屏蔽)

    全民k歌屏蔽和拉黑是一样吗(全民k歌 屏蔽)

  • 为什么快捷指令里找不到微信(为什么快捷指令没有声音)

    为什么快捷指令里找不到微信(为什么快捷指令没有声音)

  • 微信黑名单里面删除了怎么找到联系人(微信黑名单里面的人删除后还在黑名单吗)

    微信黑名单里面删除了怎么找到联系人(微信黑名单里面的人删除后还在黑名单吗)

  • 手机下面的三个键没有了怎么找回(手机下面的三个按键怎么设置)

    手机下面的三个键没有了怎么找回(手机下面的三个按键怎么设置)

  • 蜂窝网络是什么意思(蜂窝网络是什么意思就是流量吗)

    蜂窝网络是什么意思(蜂窝网络是什么意思就是流量吗)

  • 4g打开volte是什么意思(4g volte)

    4g打开volte是什么意思(4g volte)

  • 苹果xr支持插内存卡吗(苹果手机xr可以插内存卡吗)

    苹果xr支持插内存卡吗(苹果手机xr可以插内存卡吗)

  • 快手粉丝被删了怎么办(快手粉丝被删了还能恢复吗)

    快手粉丝被删了怎么办(快手粉丝被删了还能恢复吗)

  • qq讨论组怎么改群名片手机(qq讨论组怎么换群主)

    qq讨论组怎么改群名片手机(qq讨论组怎么换群主)

  • 电脑版酷我音乐怎么唱歌(电脑版酷我音乐怎么下载)

    电脑版酷我音乐怎么唱歌(电脑版酷我音乐怎么下载)

  • 中国数据中心在哪里(中国数据中心建设情况)

    中国数据中心在哪里(中国数据中心建设情况)

  • 怎么查微博频繁访客(怎么查微博频繁访客2020)

    怎么查微博频繁访客(怎么查微博频繁访客2020)

  • 荣耀20后台怎么设置

    荣耀20后台怎么设置

  • 闲鱼删除订单评价还在吗(闲鱼删除订单评论还在吗)

    闲鱼删除订单评价还在吗(闲鱼删除订单评论还在吗)

  • 小米商城怎么取消退货(小米商城怎么取消售后服务)

    小米商城怎么取消退货(小米商城怎么取消售后服务)

  • vite 运行项目报错 ‘axios/index.js‘ does not provide anexport named ‘default‘(vi应用项目)

    vite 运行项目报错 ‘axios/index.js‘ does not provide anexport named ‘default‘(vi应用项目)

  • 房屋出租需要交税多少起征
  • 特殊性税务处理弥补亏损限额
  • 受让应收账款的账务处理
  • 结转销售成本的分录
  • 主营业务税金及附加怎么算
  • 金税四期对建筑的影响
  • 增值税17-16-13的时间
  • 2020年关于住房公积金的新规定
  • 纳税人在什么情况下可以延期申报
  • 支票取现的用途
  • 发票冲红重开摘要如何写合适?
  • 软件开发公司一般做什么
  • 增值税专用发票和普通发票的区别
  • 小规模公司零申报怎么操作流程
  • 关联企业股份
  • 全年一次性奖金计税方式2023
  • 开了发票必须记收入吗
  • 以下凭证免征印花税的有
  • 承兑汇票延期托收证明
  • 筹建期水电费计入什么科目
  • 收到工程款退回的账务处理
  • 人力成本包括哪三个方面
  • 开户许可证复印件是什么
  • 非营利组织免税条件发生变化
  • 农业大棚卷帘机用什么油
  • 怎样设置登录帐号和密码
  • 工伤认定方法有几种方式呢
  • 鸿蒙系统网络差怎么解决
  • 玫瑰小镇的玫瑰有什么用
  • PHP:oci_set_edition()的用法_Oracle函数
  • 二手车增值税专用发票税率
  • 房地产企业所得税预提成本10%
  • 可供分配利润在财报哪里
  • nrm报错
  • 新公司30天内未办理税务登记
  • 雪花 (© TothGaborGyula/Getty Images Plus)
  • 单位发放给职工的养老金
  • 购税盘分录
  • 装系统如何不安装自带软件
  • php array 函数
  • 逾期的押金税率是多少
  • 员工手机补助单怎么做账
  • 筹建期间的费用计入什么费用
  • 不动产进项税抵扣规定一次性抵扣
  • 支付长期借款利息
  • 小规模第一次申报流程
  • 暂估入库跨年账务危险
  • 保理公司的钱来自哪里
  • 跨月开票的业务怎么做
  • 小企业外币业务包括
  • 存货发出的计价方式有哪些
  • 回购注销库存股的会计处理
  • 福利费列支的个税怎么算
  • 员工宿舍发生事故赔偿吗
  • 汇算清缴结束后发现有错账
  • 抵扣认证的发票怎么冲红
  • 定额发票和增值税普通发票的区别
  • 营改增之后账务怎么处理
  • 包工包料成本比例
  • 注册资本和实收股本的区别
  • my sql命令
  • xp系统环境变量
  • dos下如何安装win7
  • 安装软件提示windows 无法访问指定设备,路径或文件
  • windows10x预览版
  • ghost出现错误
  • dropbox windows
  • windows安装服务器
  • win7重装系统之后怎么还原系统
  • xp系统怎么设置自动重启
  • linux chkdsk
  • win10wifi打开后自动关闭
  • linux curl命令使用
  • jQuery实现checkbox列表的全选、反选功能
  • eclipse窗口显示设置
  • javascript点击按钮改变字体颜色
  • jquerydom操作
  • 置顶是怎么弄的
  • javascript project
  • js点击按钮实现登陆网页
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设