位置: IT常识 - 正文

AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略

编辑:rootadmin
AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略

推荐整理分享AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略

目录

DeepSpeed Chat的简介

DeepSpeed-Chat的产生背景

DeepSpeed-Chat的简介

DeepSpeed-Chat的三大功能

DeepSpeed-RLHF 系统三大优势

DeepSpeed Chat的安装和使用方法

1、简单易用的ChatGPT训练和推理体验

使用 DeepSpeed-Chat 的 RLHF 示例可以轻松训练您的第一个 ChatGPT 样式模型

a) 一个脚本完成 RLHF 训练的所有三个阶段并生成您的第一个 ChatGPT 模型!

b) 使用 DeepSpeed-Chat 的推理 API 测试您的最终模型

DeepSpeed Chat的使用方法

1、成熟的 RLHF 培训管道

2、DeepSpeed 混合引擎——统一的基础设施来支持和优化 RLHF 训练


DeepSpeed Chat的简介DeepSpeed-Chat的产生背景

       ChatGPT 之类的模型席卷了 AI 世界,可以毫不夸张地说它对数字世界的影响是革命性的。这些模型用途广泛,能够执行摘要、编码和翻译等任务,其结果与人类专家相当,甚至超过人类专家的能力。鉴于这些模型的强大功能,AI 开源社区正在进行多项努力,以使 ChatGPT 样式的模型更易于访问(例如 ChatLLaMa、Alpaca、Vicuna、Databricks-Dolly 等)。        尽管付出了这些令人难以置信的努力,但仍然缺乏端到端的 RLHF 管道,能够训练强大的 ChatGPT 类模型,AI 社区可以轻松访问这些模型。例如,使用现有系统训练适度的 6.7B ChatGPT 模型通常需要昂贵的多 GPU 设置,这超出了许多数据科学家的能力范围。即使可以访问此类计算资源,训练效率通常也低于这些机器能力的 5%(如下图所示)。最后,现有的解决方案根本无法支持简单、快速和负担得起的培训具有数千亿参数的最先进的 ChatGPT 模型,即使可以访问多 GPU 集群。        这些限制源于缺乏能够有效支持复杂 InstructGPT 的 RLHF 训练管道的稳健系统设计,这与现有 DL 系统设计的标准预训练和微调管道截然不同。

DeepSpeed-Chat的简介

       DeepSpeed是一个由微软开发的深度学习框架优化工具,旨在为大规模分布式训练提供更好的支持。它提供了多种性能优化技术,包括模型并行、梯度累积、动态精度缩放等,使得在使用大规模GPU集群进行训练时能够更高效地利用计算资源。同时,DeepSpeed还提供了一套易用的API,可以方便地将这些优化技术应用到不同的深度学习框架中,如PyTorch、TensorFlow等。        4月12日(美国时间),DeepSpeed在社交论坛,发表了DeepSpeed-Chat,想在单个GPU上训练10B+ chatgpt风格的模型,在多GPU系统上训练100B+ ?引入DeepSpeed-Chat,一种简单(单脚本)、快速和低成本的解决方案,用于用RLHF训练高质量的chatgpt风格模型,比SoTA快15倍。        综上可知,微软开源的 DeepSpeed-Chat是一款让我们能够以更低的成本、更快的速度训练类似于ChatGPT的高质量大模型,目的是帮用户训练自己的模型。

GitHub:DeepSpeed/blogs/deepspeed-chat at master · microsoft/DeepSpeed · GitHub

官方介绍:DeepSpeed/README.md at master · microsoft/DeepSpeed · GitHub

DeepSpeed-Chat的三大功能

       本着使类似 ChatGPT 的模型民主化并使 RLHF 训练真正为 AI 社区所用的精神,今天我们发布了具有以下三种特点的 DeepSpeed-Chat:

(i)易于使用的 ChatGPT 类模型训练和推理体验:一个脚本能够采用预训练的 Huggingface 模型,使用 DeepSpeed-RLHF 系统运行它完成 InstructGPT 训练的所有三个步骤,并生成您自己的 ChatGPT像模型。此外,我们还提供了一个推理 API,用于在训练模型后测试对话式交互。

(ii) DeepSpeed-RLHF 流水线:DeepSpeed-RLHF 流水线主要复制 InstructGPT 论文中的训练流水线,并仔细注意以确保完整性和与包括 a) 监督微调 (SFT) 在内的三个步骤的一一对应, b) 奖励模型微调和 c) 人类反馈强化学习 (RLHF)。此外,我们还提供数据抽象和混合功能,以支持使用多个数据源进行训练。

(iii) DeepSpeed-RLHF 系统:一个强大而复杂的 RLHF 系统,它将 DeepSpeed 的训练和推理能力结合到 RLHF 的单一统一混合引擎 (DeepSpeed-HE) 中。混合引擎能够在 RLHF 内的推理和训练模式之间无缝转换,使其能够利用 DeepSpeed-Inference 的各种优化,例如用于生成的张量并行和高性能变压器内核,同时还受益于众多 ZeRO-以及用于 RL 训练的基于 LoRA 的内存优化策略。DeepSpeed-HE 还了解整个 RLHF 管道,使其能够在 RLHF 不同阶段的内存管理和数据移动方面做出最佳决策。

DeepSpeed-RLHF 系统三大优势

DeepSpeed-RLHF 系统能够大规模实现无与伦比的效率,使复杂的 RLHF 训练变得快速、经济且易于为 AI 社区所接受:

效率和可负担性:在效率方面, DeepSpeed-HE 比现有系统快 15 倍以上,使 RLHF 训练既快速又经济。例如,DeepSpeed-HE 可以在 Azure Cloud 上仅用 9 小时训练 OPT-13B,在 18 小时内训练 OPT-30B,价格分别低于 300 美元和 600 美元。

显卡OPT-6.7BOPT-13BOPT-30BOPT-66B8 个 A100-40GB5.7小时10.8小时1.85天北美8 个 A100-80GB4.1 小时(132 美元)9 小时(290 美元)18 小时(580 美元)2.1 天 ($1620)

表 1. 单节点 8x A100:Azure 上的训练时间和相应的近似成本。

出色的可扩展性:DeepSpeed-HE支持千亿级参数的模型,在多节点多GPU系统上可以实现出色的可扩展性。因此,即使是 13B 模型也可以在 1.25 小时内完成训练,而使用 DeepSpeed-HE 可以在不到一天的时间内训练出大型 175B 模型。

显卡OPT-13BOPT-30BOPT-66BOPT-175B64x A100-80G1.25 小时(320 美元)4 小时(1024 美元)7.5 小时(1920 美元)20 小时 ($5120)

表 2. 多节点 64x A100-80GB:Azure 上的训练时间和相应的近似成本。

非常重要的细节:上面两个表中的数字都是针对训练的第 3 步,并且基于在 DeepSpeed-RLHF 精选数据集和训练方法上实际测量的训练吞吐量,该方法在总共 1.35 亿个token上训练一个时期。我们总共有 6750 万个查询标记(131900 个查询,序列长度为 256)和 6750 万个生成的标记(131900 个答案,序列长度为 256),以及每步 0.5M 标记(1024 个查询-答案对)的最大全局批量大小). 我们敦促读者在与 DeepSpeed-RLHF 进行任何成本和 e2e 时间比较之前注意这些规范。有关详细信息,请参阅我们的基准设置页面。

AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略

民主化 RLHF 训练:DeepSpeed-HE 仅需一个 GPU,即可支持具有超过 130 亿个参数的训练模型,使无法访问多 GPU 系统的数据科学家不仅可以创建玩具 RLHF 模型,还可以创建可在实际中使用的大型强大模型-世界场景。

V100 32GA6000 48GA100 40GA100 80G型号尺寸OPT-2.7BOPT-6.7BOPT-6.7BOPT-13B

表 3. DeepSpeed-HE 在单个 GPU 上支持的最大模型大小

DeepSpeed Chat的安装和使用方法1、简单易用的ChatGPT训练和推理体验

从易于使用的体验开始,展示如何使用 DeepSpeed-RLHF 系统训练 OPT-13B 和 OPT-66B 模型。如果时间不够,您甚至可以在两个小时内在单个消费级 GPU 上训练 OPT-1.3B 模型。我们还演示了如何使用我们的 DeepSpeed-chat RLHF API 来开发您自己的自定义管道。

使用 DeepSpeed-Chat 的 RLHF 示例可以轻松训练您的第一个 ChatGPT 样式模型a) 一个脚本完成 RLHF 训练的所有三个阶段并生成您的第一个 ChatGPT 模型!

我们在以下单个脚本中使用预训练的 OPT-13B 作为演员模型和 OPT-350M 作为奖励模型的示例来生成最终的 13B ChatGPT 样式模型:

pip install deepspeed>=0.9.0git clone https://github.com/microsoft/DeepSpeedExamples.gitcd DeepSpeedExamples/applications/DeepSpeed-Chat/pip install -r requirements.txtpython train.py --actor-model facebook/opt-13b --reward-model facebook/opt-350m --deployment-type single_node

大约半天后,您的 13B 模型将完成全面训练,并准备好检查点。下表显示了三个步骤中每个步骤的训练时间明细:

型号尺寸步骤1第2步步骤 3全部的演员:OPT-13B,奖励:OPT-350M2.5小时0.25小时10.8小时13.6小时

表 4. 在具有 8 个 NVIDIA A100-40G GPU 的单个 DGX 节点上通过 DeepSpeed-Chat 训练 130 亿参数 ChatGPT 模型的 E2E 时间分解。

b) 使用 DeepSpeed-Chat 的推理 API 测试您的最终模型

现在是时候插入并测试由 DeepSpeed-Chat 训练的最终模型了!您不仅可以玩问答环节,还可以玩对话式互动。

Human: Do you know Microsoft?Assistant: Yes, I’m a big fan of Microsoft. What about them?Human: Can you explain it to a 6-year old child? I wonder how I should describe itAssistant: Sure, I can try. Microsoft is a company that makes computers, and they make a program called “Windows” which is the operating system that runs on the computer. It’s like the “brain” of the computer. It’s where all the programs and files are stored. It’s also where you’ll find the “start” button, which is where you’ll start to use the computer.DeepSpeed Chat的使用方法1、成熟的 RLHF 培训管道

为了提供无缝的培训体验,我们遵循 InstructGPT 并在 DeepSpeed-Chat 中包含一个成熟的端到端培训管道,如图 1 所示。

 图 1:DeepSpeed-Chat 的具有可选功能的 RLHF 训练管道的图示。

我们的管道包括三个主要步骤:

第 1 步:监督微调 (SFT),其中仔细选择人类对各种查询的响应以微调预训练语言模型。第 2 步:奖励模型微调,其中使用一个数据集训练一个单独的(通常小于 SFT)模型 (RW),该数据集具有人类提供的对同一查询的多个答案的排名。第 3 步:RLHF 训练,其中使用近端策略优化 (PPO) 算法使用来自 RW 模型的奖励反馈进一步微调 SFT 模型。

我们在步骤 3 中提供了两个附加功能来帮助提高模型质量:

指数移动平均线 (EMA) 集合,其中可以选择基于 EMA 的检查点进行最终评估。Mixture Training,它将预训练目标(即下一个词预测)与 PPO 目标混合在一起,以防止在 SQuAD2.0 等公共基准上的性能回归。

EMA 和混合训练这两个训练特征经常被其他最近的努力忽略,因为它们可以是可选的。然而,根据 InstructGPT 的说法,EMA 检查点通常提供比常规最终训练模型更好的响应质量,而 Mixture Training 可以帮助模型保留预训练基准解决能力。因此,我们为用户提供它们,以充分获得 InstructGPT 中描述的训练体验,并争取更高的模型质量。

除了与 InstructGPT 论文高度一致外,我们还提供了方便的功能来支持研究人员和从业者使用多种数据资源训练自己的 RLHF 模型:

数据抽象和混合功能: DeepSpeed-Chat 能够使用多个数据集训练模型以获得更好的模型质量。它配备了(1)一个抽象数据集层来统一不同数据集的格式;(2) 数据拆分/混合功能,以便正确混合多个数据集,然后将其拆分到 3 个训练阶段。

为了说明我们训练管道的有效性,我们通过多轮对话展示了模型质量,如体验部分所示。

2、DeepSpeed 混合引擎——统一的基础设施来支持和优化 RLHF 训练

instruct-guided RLHF 管道的第 1 步和第 2 步类似于大型模型的定期微调,它们由 DeepSpeed 训练中基于 ZeRO 的优化和并行策略的灵活组合提供支持,以实现规模和速度。另一方面,管道的第 3 步是处理性能影响方面最复杂的部分。每次迭代都需要高效处理两个阶段:a) 令牌/经验生成的推理阶段,为训练生成输入和 b) 训练阶段以更新参与者和奖励模型的权重,以及它们之间的交互和调度。它引入了两个主要成本: (1) 内存成本,因为在整个第 3 阶段需要提供 SFT 和 RW 模型的多个副本; (2) 主要发电阶段,如果没有适当加速,

为了应对这些挑战,我们将 DeepSpeed Training and Inference 的完整系统功能组合到一个统一的基础设施中,我们称之为混合引擎。它利用原始的 DeepSpeed 引擎进行快速训练模式,同时毫不费力地将 DeepSpeed 推理引擎应用于生成/评估模式,为第 3 阶段的 RLHF 训练提供明显更快的训练系统。如图 2 所示,DeepSpeed 训练和推理引擎之间的过渡是无缝的:通过为 actor 模型启用典型的评估和训练模式,在运行推理和训练管道时,DeepSpeed 选择不同的优化来更快地运行模型并提高整体系统吞吐量。

图 2. DeepSpeed 混合引擎设计用于加速 RLHF 流水线中最耗时的部分。

在 RLHF 训练的经验生成阶段的推理执行过程中,DeepSpeed 混合引擎使用轻量级内存管理系统来处理 KV 缓存和中间结果,以及高度优化的推理适配内核和张量并行实现,以实现显着提升与现有解决方案相比,吞吐量(每秒令牌数)。

在训练执行期间​​,Hybrid Engine 启用内存优化技术,例如 DeepSpeed 的 ZeRO 系列技术和低阶自适应 (LoRA)。我们设计并实施了这些系统优化,使它们彼此兼容,并且可以组合在一起,以在统一的混合引擎下提供最高的训练效率。

Hybrid Engine 可以跨训练和推理无缝更改模型分区,以支持基于张量并行的推理和基于 ZeRO 的训练分片机制。它还可以重新配置内存系统,以在这些模式中的每一个期间最大化内存可用性。这可以通过避免内存分配瓶颈和支持大批量大小来提高性能。Hybrid Engine 包含来自 DeepSpeed 训练和推理的一系列系统技术,突破了现代 RLHF 训练的界限,并为 RLHF 工作负载提供了无与伦比的规模和系统效率。

本文链接地址:https://www.jiuchutong.com/zhishi/296033.html 转载请保留说明!

上一篇:育空河附近巢穴中的一对白头海雕和雏鹰,加拿大育空 (© Mark Newman/Minden Pictures)(育空河24102)

下一篇:模型调优:验证集的作用(就是为了调整超参数)(模型如何优化)

  • 微信营销互动活动的运营要素(微信营销策划活动)

    微信营销互动活动的运营要素(微信营销策划活动)

  • 苹果13promax是5g手机吗(苹果13promax是什么屏幕)

    苹果13promax是5g手机吗(苹果13promax是什么屏幕)

  • 微信解冻显示账号不存在(微信解冻显示账号异常)

    微信解冻显示账号不存在(微信解冻显示账号异常)

  • 8p尺寸是多少厘米(8p尺寸多大)

    8p尺寸是多少厘米(8p尺寸多大)

  • 抖音钻石卡怎么能得到(抖音里的抖音钻卡怎么集)

    抖音钻石卡怎么能得到(抖音里的抖音钻卡怎么集)

  • 苹果11和11pro屏幕黑边对比(苹果11和11pro屏幕尺寸区别)

    苹果11和11pro屏幕黑边对比(苹果11和11pro屏幕尺寸区别)

  • 电瓶车充电很快变绿(电瓶车充电很快就充满了怎么回事)

    电瓶车充电很快变绿(电瓶车充电很快就充满了怎么回事)

  • vivos6有视频美颜功能吗(vivos6视频聊天美颜设置)

    vivos6有视频美颜功能吗(vivos6视频聊天美颜设置)

  • 淘宝频繁退款会有影响吗(淘宝频繁退款会掉信誉值吗)

    淘宝频繁退款会有影响吗(淘宝频繁退款会掉信誉值吗)

  • 华为nova5pro怎么截屏长图(华为nova5pro怎么恢复出厂设置)

    华为nova5pro怎么截屏长图(华为nova5pro怎么恢复出厂设置)

  • 苹果11怎么调静音模式(苹果11怎么调静音模式下震动)

    苹果11怎么调静音模式(苹果11怎么调静音模式下震动)

  • 淘宝极速验号对号有影响吗(淘宝极速验号对手机影响)

    淘宝极速验号对号有影响吗(淘宝极速验号对手机影响)

  • 大疆fpv模式是什么意思(大疆fpv使用教程)

    大疆fpv模式是什么意思(大疆fpv使用教程)

  • 11promax国行和港版区别(11promax国行和港版哪个质量好)

    11promax国行和港版区别(11promax国行和港版哪个质量好)

  • 小米之家怎么取消预约(小米之家怎么取消授权门店)

    小米之家怎么取消预约(小米之家怎么取消授权门店)

  • 手机如何打希腊字母(手机怎么打出希腊的数字)

    手机如何打希腊字母(手机怎么打出希腊的数字)

  • 小米18w支持pd协议吗(小米18w支持苹果快充吗)

    小米18w支持pd协议吗(小米18w支持苹果快充吗)

  • qq扩列资料怎么关闭(qq扩列资料怎么设置)

    qq扩列资料怎么关闭(qq扩列资料怎么设置)

  • iphone的原彩显示有什么用吗(iphone的原彩显示发黄)

    iphone的原彩显示有什么用吗(iphone的原彩显示发黄)

  • 笔记本电脑如何连接投影仪(笔记本电脑如何截屏)

    笔记本电脑如何连接投影仪(笔记本电脑如何截屏)

  • 腾达路由器的初始密码是多少(腾达路由器的初始账号和密码是什么)

    腾达路由器的初始密码是多少(腾达路由器的初始账号和密码是什么)

  • 荣耀play什么处理器(荣耀play的)

    荣耀play什么处理器(荣耀play的)

  • Xcode与MacOS版本对应(更新Xcode14.0)(xcode对应的macos版本)

    Xcode与MacOS版本对应(更新Xcode14.0)(xcode对应的macos版本)

  • vgremove命令  删除VG卷组设备(删除命令rm rf)

    vgremove命令 删除VG卷组设备(删除命令rm rf)

  • java通配符的使用规则(java 通配符)

    java通配符的使用规则(java 通配符)

  • 政府会计固定资产盘亏的账务处理
  • 专票红冲要不要收回发票联
  • 上季度弥补以前年度亏损与本季度亏损
  • 小规模纳税人企业所得税怎么申报
  • 修理办公用复印机好吗
  • 建设工程中税费如何承担
  • 费用的完成率怎么计算
  • 退回所得税怎么处理
  • 建筑业简易征收的适用范围
  • 我是小规模企业客户要求开专票不开投诉
  • 普通发票查不到信息怎么办
  • 职业培训和职业技能培训的区别
  • 工会经费什么时候返还给企业
  • 诉讼费做账科目
  • 诉讼过程中
  • 全资的子公司
  • 找果农采购水果没有发票怎么办
  • 先计提社保还是先计提工资
  • windows刷新桌面
  • 买入投资性房地产的会计处理
  • Linux系统中矢量图ai格式怎么打开?
  • 银行代扣的年费怎么退
  • 如何才能显示效果更好
  • 公司购入汽车可以算做注册资本吗
  • 二手房交易土增税文件
  • 本季度企业所得税
  • 费尔南迪纳岛气候类型
  • 金银首饰以旧换新消费税怎么算
  • 其他营业账簿印花税减免政策
  • 小程序报错怎么解决
  • 发票已开,款未到的会计分录
  • 旅客运输进项抵扣税率
  • 请假扣款怎么做账
  • tcpreplay命令详解
  • 帝国cms移动端
  • css content \f041
  • 印花税的花贴在哪里
  • 一般股份支付的确认计量及帐务处理怎么做?
  • 代开发票是否代征城建税和教育费附加?
  • 公司名下商品房过户给公司需要交过户费
  • 月底分红
  • 用支票偿还货款
  • 跨年度错账调整分录
  • 教你如何看懂标签
  • 非流动资产处置损失计入什么科目
  • win10!
  • 停车费比油费还贵
  • 小规模纳税人出租不动产免征增值税
  • 电费应收和实收怎么算
  • 工业企业外购存货成本有
  • 暂估入库怎么处理
  • 活动经费要发到每个员工
  • 小微企业注册流程及注意事项
  • 同城票据交换差额户金额从哪得来的
  • mysql 5.7.30安装
  • 优化加速锁定任务是什么意思
  • 如何创建ubuntu安装教程
  • Win10 Mobile 10572预览版新增了哪些功能? 更新内容汇总
  • 操作系统安装日期查看
  • os x 10.11 el capitan系统安装图文教程
  • linux ssh默认端口
  • Extjs中使用extend(js继承) 的代码
  • 未知类型的文件怎么打开
  • opengl shader实例
  • 低端显卡n卡设置
  • 对于javascript理解
  • node定时任务框架
  • linux怎么查看tomcat位置
  • 批处理模式的例子
  • Windows10下安装fastdfs
  • 批处理命令显示内容
  • 基于javascript的毕业设计选题
  • jquery控制样式
  • javascript工作
  • 前端开发的工作流程
  • js闭包实现
  • Android之Broadcast与BroadcastReceiver
  • android studio 运行配置
  • 自贡市税务局稽查局领导
  • 珠宝消费税怎么申报
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设