位置: IT常识 - 正文

AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略

编辑:rootadmin
AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略

推荐整理分享AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略

目录

DeepSpeed Chat的简介

DeepSpeed-Chat的产生背景

DeepSpeed-Chat的简介

DeepSpeed-Chat的三大功能

DeepSpeed-RLHF 系统三大优势

DeepSpeed Chat的安装和使用方法

1、简单易用的ChatGPT训练和推理体验

使用 DeepSpeed-Chat 的 RLHF 示例可以轻松训练您的第一个 ChatGPT 样式模型

a) 一个脚本完成 RLHF 训练的所有三个阶段并生成您的第一个 ChatGPT 模型!

b) 使用 DeepSpeed-Chat 的推理 API 测试您的最终模型

DeepSpeed Chat的使用方法

1、成熟的 RLHF 培训管道

2、DeepSpeed 混合引擎——统一的基础设施来支持和优化 RLHF 训练


DeepSpeed Chat的简介DeepSpeed-Chat的产生背景

       ChatGPT 之类的模型席卷了 AI 世界,可以毫不夸张地说它对数字世界的影响是革命性的。这些模型用途广泛,能够执行摘要、编码和翻译等任务,其结果与人类专家相当,甚至超过人类专家的能力。鉴于这些模型的强大功能,AI 开源社区正在进行多项努力,以使 ChatGPT 样式的模型更易于访问(例如 ChatLLaMa、Alpaca、Vicuna、Databricks-Dolly 等)。        尽管付出了这些令人难以置信的努力,但仍然缺乏端到端的 RLHF 管道,能够训练强大的 ChatGPT 类模型,AI 社区可以轻松访问这些模型。例如,使用现有系统训练适度的 6.7B ChatGPT 模型通常需要昂贵的多 GPU 设置,这超出了许多数据科学家的能力范围。即使可以访问此类计算资源,训练效率通常也低于这些机器能力的 5%(如下图所示)。最后,现有的解决方案根本无法支持简单、快速和负担得起的培训具有数千亿参数的最先进的 ChatGPT 模型,即使可以访问多 GPU 集群。        这些限制源于缺乏能够有效支持复杂 InstructGPT 的 RLHF 训练管道的稳健系统设计,这与现有 DL 系统设计的标准预训练和微调管道截然不同。

DeepSpeed-Chat的简介

       DeepSpeed是一个由微软开发的深度学习框架优化工具,旨在为大规模分布式训练提供更好的支持。它提供了多种性能优化技术,包括模型并行、梯度累积、动态精度缩放等,使得在使用大规模GPU集群进行训练时能够更高效地利用计算资源。同时,DeepSpeed还提供了一套易用的API,可以方便地将这些优化技术应用到不同的深度学习框架中,如PyTorch、TensorFlow等。        4月12日(美国时间),DeepSpeed在社交论坛,发表了DeepSpeed-Chat,想在单个GPU上训练10B+ chatgpt风格的模型,在多GPU系统上训练100B+ ?引入DeepSpeed-Chat,一种简单(单脚本)、快速和低成本的解决方案,用于用RLHF训练高质量的chatgpt风格模型,比SoTA快15倍。        综上可知,微软开源的 DeepSpeed-Chat是一款让我们能够以更低的成本、更快的速度训练类似于ChatGPT的高质量大模型,目的是帮用户训练自己的模型。

GitHub:DeepSpeed/blogs/deepspeed-chat at master · microsoft/DeepSpeed · GitHub

官方介绍:DeepSpeed/README.md at master · microsoft/DeepSpeed · GitHub

DeepSpeed-Chat的三大功能

       本着使类似 ChatGPT 的模型民主化并使 RLHF 训练真正为 AI 社区所用的精神,今天我们发布了具有以下三种特点的 DeepSpeed-Chat:

(i)易于使用的 ChatGPT 类模型训练和推理体验:一个脚本能够采用预训练的 Huggingface 模型,使用 DeepSpeed-RLHF 系统运行它完成 InstructGPT 训练的所有三个步骤,并生成您自己的 ChatGPT像模型。此外,我们还提供了一个推理 API,用于在训练模型后测试对话式交互。

(ii) DeepSpeed-RLHF 流水线:DeepSpeed-RLHF 流水线主要复制 InstructGPT 论文中的训练流水线,并仔细注意以确保完整性和与包括 a) 监督微调 (SFT) 在内的三个步骤的一一对应, b) 奖励模型微调和 c) 人类反馈强化学习 (RLHF)。此外,我们还提供数据抽象和混合功能,以支持使用多个数据源进行训练。

(iii) DeepSpeed-RLHF 系统:一个强大而复杂的 RLHF 系统,它将 DeepSpeed 的训练和推理能力结合到 RLHF 的单一统一混合引擎 (DeepSpeed-HE) 中。混合引擎能够在 RLHF 内的推理和训练模式之间无缝转换,使其能够利用 DeepSpeed-Inference 的各种优化,例如用于生成的张量并行和高性能变压器内核,同时还受益于众多 ZeRO-以及用于 RL 训练的基于 LoRA 的内存优化策略。DeepSpeed-HE 还了解整个 RLHF 管道,使其能够在 RLHF 不同阶段的内存管理和数据移动方面做出最佳决策。

DeepSpeed-RLHF 系统三大优势

DeepSpeed-RLHF 系统能够大规模实现无与伦比的效率,使复杂的 RLHF 训练变得快速、经济且易于为 AI 社区所接受:

效率和可负担性:在效率方面, DeepSpeed-HE 比现有系统快 15 倍以上,使 RLHF 训练既快速又经济。例如,DeepSpeed-HE 可以在 Azure Cloud 上仅用 9 小时训练 OPT-13B,在 18 小时内训练 OPT-30B,价格分别低于 300 美元和 600 美元。

显卡OPT-6.7BOPT-13BOPT-30BOPT-66B8 个 A100-40GB5.7小时10.8小时1.85天北美8 个 A100-80GB4.1 小时(132 美元)9 小时(290 美元)18 小时(580 美元)2.1 天 ($1620)

表 1. 单节点 8x A100:Azure 上的训练时间和相应的近似成本。

出色的可扩展性:DeepSpeed-HE支持千亿级参数的模型,在多节点多GPU系统上可以实现出色的可扩展性。因此,即使是 13B 模型也可以在 1.25 小时内完成训练,而使用 DeepSpeed-HE 可以在不到一天的时间内训练出大型 175B 模型。

显卡OPT-13BOPT-30BOPT-66BOPT-175B64x A100-80G1.25 小时(320 美元)4 小时(1024 美元)7.5 小时(1920 美元)20 小时 ($5120)

表 2. 多节点 64x A100-80GB:Azure 上的训练时间和相应的近似成本。

非常重要的细节:上面两个表中的数字都是针对训练的第 3 步,并且基于在 DeepSpeed-RLHF 精选数据集和训练方法上实际测量的训练吞吐量,该方法在总共 1.35 亿个token上训练一个时期。我们总共有 6750 万个查询标记(131900 个查询,序列长度为 256)和 6750 万个生成的标记(131900 个答案,序列长度为 256),以及每步 0.5M 标记(1024 个查询-答案对)的最大全局批量大小). 我们敦促读者在与 DeepSpeed-RLHF 进行任何成本和 e2e 时间比较之前注意这些规范。有关详细信息,请参阅我们的基准设置页面。

AI:DeepSpeed Chat(一款帮用户训练自己模型的工具且简单/低成本/快 RLHF 训练类ChatGPT高质量大模型)的简介、安装、使用方法之详细攻略

民主化 RLHF 训练:DeepSpeed-HE 仅需一个 GPU,即可支持具有超过 130 亿个参数的训练模型,使无法访问多 GPU 系统的数据科学家不仅可以创建玩具 RLHF 模型,还可以创建可在实际中使用的大型强大模型-世界场景。

V100 32GA6000 48GA100 40GA100 80G型号尺寸OPT-2.7BOPT-6.7BOPT-6.7BOPT-13B

表 3. DeepSpeed-HE 在单个 GPU 上支持的最大模型大小

DeepSpeed Chat的安装和使用方法1、简单易用的ChatGPT训练和推理体验

从易于使用的体验开始,展示如何使用 DeepSpeed-RLHF 系统训练 OPT-13B 和 OPT-66B 模型。如果时间不够,您甚至可以在两个小时内在单个消费级 GPU 上训练 OPT-1.3B 模型。我们还演示了如何使用我们的 DeepSpeed-chat RLHF API 来开发您自己的自定义管道。

使用 DeepSpeed-Chat 的 RLHF 示例可以轻松训练您的第一个 ChatGPT 样式模型a) 一个脚本完成 RLHF 训练的所有三个阶段并生成您的第一个 ChatGPT 模型!

我们在以下单个脚本中使用预训练的 OPT-13B 作为演员模型和 OPT-350M 作为奖励模型的示例来生成最终的 13B ChatGPT 样式模型:

pip install deepspeed>=0.9.0git clone https://github.com/microsoft/DeepSpeedExamples.gitcd DeepSpeedExamples/applications/DeepSpeed-Chat/pip install -r requirements.txtpython train.py --actor-model facebook/opt-13b --reward-model facebook/opt-350m --deployment-type single_node

大约半天后,您的 13B 模型将完成全面训练,并准备好检查点。下表显示了三个步骤中每个步骤的训练时间明细:

型号尺寸步骤1第2步步骤 3全部的演员:OPT-13B,奖励:OPT-350M2.5小时0.25小时10.8小时13.6小时

表 4. 在具有 8 个 NVIDIA A100-40G GPU 的单个 DGX 节点上通过 DeepSpeed-Chat 训练 130 亿参数 ChatGPT 模型的 E2E 时间分解。

b) 使用 DeepSpeed-Chat 的推理 API 测试您的最终模型

现在是时候插入并测试由 DeepSpeed-Chat 训练的最终模型了!您不仅可以玩问答环节,还可以玩对话式互动。

Human: Do you know Microsoft?Assistant: Yes, I’m a big fan of Microsoft. What about them?Human: Can you explain it to a 6-year old child? I wonder how I should describe itAssistant: Sure, I can try. Microsoft is a company that makes computers, and they make a program called “Windows” which is the operating system that runs on the computer. It’s like the “brain” of the computer. It’s where all the programs and files are stored. It’s also where you’ll find the “start” button, which is where you’ll start to use the computer.DeepSpeed Chat的使用方法1、成熟的 RLHF 培训管道

为了提供无缝的培训体验,我们遵循 InstructGPT 并在 DeepSpeed-Chat 中包含一个成熟的端到端培训管道,如图 1 所示。

 图 1:DeepSpeed-Chat 的具有可选功能的 RLHF 训练管道的图示。

我们的管道包括三个主要步骤:

第 1 步:监督微调 (SFT),其中仔细选择人类对各种查询的响应以微调预训练语言模型。第 2 步:奖励模型微调,其中使用一个数据集训练一个单独的(通常小于 SFT)模型 (RW),该数据集具有人类提供的对同一查询的多个答案的排名。第 3 步:RLHF 训练,其中使用近端策略优化 (PPO) 算法使用来自 RW 模型的奖励反馈进一步微调 SFT 模型。

我们在步骤 3 中提供了两个附加功能来帮助提高模型质量:

指数移动平均线 (EMA) 集合,其中可以选择基于 EMA 的检查点进行最终评估。Mixture Training,它将预训练目标(即下一个词预测)与 PPO 目标混合在一起,以防止在 SQuAD2.0 等公共基准上的性能回归。

EMA 和混合训练这两个训练特征经常被其他最近的努力忽略,因为它们可以是可选的。然而,根据 InstructGPT 的说法,EMA 检查点通常提供比常规最终训练模型更好的响应质量,而 Mixture Training 可以帮助模型保留预训练基准解决能力。因此,我们为用户提供它们,以充分获得 InstructGPT 中描述的训练体验,并争取更高的模型质量。

除了与 InstructGPT 论文高度一致外,我们还提供了方便的功能来支持研究人员和从业者使用多种数据资源训练自己的 RLHF 模型:

数据抽象和混合功能: DeepSpeed-Chat 能够使用多个数据集训练模型以获得更好的模型质量。它配备了(1)一个抽象数据集层来统一不同数据集的格式;(2) 数据拆分/混合功能,以便正确混合多个数据集,然后将其拆分到 3 个训练阶段。

为了说明我们训练管道的有效性,我们通过多轮对话展示了模型质量,如体验部分所示。

2、DeepSpeed 混合引擎——统一的基础设施来支持和优化 RLHF 训练

instruct-guided RLHF 管道的第 1 步和第 2 步类似于大型模型的定期微调,它们由 DeepSpeed 训练中基于 ZeRO 的优化和并行策略的灵活组合提供支持,以实现规模和速度。另一方面,管道的第 3 步是处理性能影响方面最复杂的部分。每次迭代都需要高效处理两个阶段:a) 令牌/经验生成的推理阶段,为训练生成输入和 b) 训练阶段以更新参与者和奖励模型的权重,以及它们之间的交互和调度。它引入了两个主要成本: (1) 内存成本,因为在整个第 3 阶段需要提供 SFT 和 RW 模型的多个副本; (2) 主要发电阶段,如果没有适当加速,

为了应对这些挑战,我们将 DeepSpeed Training and Inference 的完整系统功能组合到一个统一的基础设施中,我们称之为混合引擎。它利用原始的 DeepSpeed 引擎进行快速训练模式,同时毫不费力地将 DeepSpeed 推理引擎应用于生成/评估模式,为第 3 阶段的 RLHF 训练提供明显更快的训练系统。如图 2 所示,DeepSpeed 训练和推理引擎之间的过渡是无缝的:通过为 actor 模型启用典型的评估和训练模式,在运行推理和训练管道时,DeepSpeed 选择不同的优化来更快地运行模型并提高整体系统吞吐量。

图 2. DeepSpeed 混合引擎设计用于加速 RLHF 流水线中最耗时的部分。

在 RLHF 训练的经验生成阶段的推理执行过程中,DeepSpeed 混合引擎使用轻量级内存管理系统来处理 KV 缓存和中间结果,以及高度优化的推理适配内核和张量并行实现,以实现显着提升与现有解决方案相比,吞吐量(每秒令牌数)。

在训练执行期间​​,Hybrid Engine 启用内存优化技术,例如 DeepSpeed 的 ZeRO 系列技术和低阶自适应 (LoRA)。我们设计并实施了这些系统优化,使它们彼此兼容,并且可以组合在一起,以在统一的混合引擎下提供最高的训练效率。

Hybrid Engine 可以跨训练和推理无缝更改模型分区,以支持基于张量并行的推理和基于 ZeRO 的训练分片机制。它还可以重新配置内存系统,以在这些模式中的每一个期间最大化内存可用性。这可以通过避免内存分配瓶颈和支持大批量大小来提高性能。Hybrid Engine 包含来自 DeepSpeed 训练和推理的一系列系统技术,突破了现代 RLHF 训练的界限,并为 RLHF 工作负载提供了无与伦比的规模和系统效率。

本文链接地址:https://www.jiuchutong.com/zhishi/296033.html 转载请保留说明!

上一篇:育空河附近巢穴中的一对白头海雕和雏鹰,加拿大育空 (© Mark Newman/Minden Pictures)(育空河24102)

下一篇:模型调优:验证集的作用(就是为了调整超参数)(模型如何优化)

  • wps怎么锁定表头(wps怎么锁定表头两行不动)

    wps怎么锁定表头(wps怎么锁定表头两行不动)

  • airpods2充电盒如何知道它是否充满电(airpods2充电盒正确充电)

    airpods2充电盒如何知道它是否充满电(airpods2充电盒正确充电)

  • oppok7屏幕刷新率是多少(oppok7屏幕刷新率多少hz)

    oppok7屏幕刷新率是多少(oppok7屏幕刷新率多少hz)

  • 电脑上怎么下载视频(电脑上怎么下载歌曲到u盘)

    电脑上怎么下载视频(电脑上怎么下载歌曲到u盘)

  • 微信拉黑后怎么恢复(微信拉黑后怎么恢复好友关系)

    微信拉黑后怎么恢复(微信拉黑后怎么恢复好友关系)

  • 荣耀20s什么时候升级emui10(荣耀20上市时间和价格)

    荣耀20s什么时候升级emui10(荣耀20上市时间和价格)

  • 华为荣耀9x在哪设置门禁卡(华为荣耀9x在哪里插卡)

    华为荣耀9x在哪设置门禁卡(华为荣耀9x在哪里插卡)

  • mdb是什么格式	(mdb是什么格式的文件)

    mdb是什么格式 (mdb是什么格式的文件)

  • 抖音时长一般多久(抖音时长一般多久最好)

    抖音时长一般多久(抖音时长一般多久最好)

  • 手机充电器不是原装对手机有影响吗(手机充电器不是闪充了怎么办)

    手机充电器不是原装对手机有影响吗(手机充电器不是闪充了怎么办)

  • 淘宝流失竞店什么意思(淘宝生意参谋流失竞店是什么意思)

    淘宝流失竞店什么意思(淘宝生意参谋流失竞店是什么意思)

  • vivo手机卡顿怎么办(Vivo手机卡顿怎么解决)

    vivo手机卡顿怎么办(Vivo手机卡顿怎么解决)

  • 抖音里面怎么扫一扫(抖音里面怎么扫一扫二维码)

    抖音里面怎么扫一扫(抖音里面怎么扫一扫二维码)

  • 苹果xs关机键怎么是siri(苹果xs关机快捷键)

    苹果xs关机键怎么是siri(苹果xs关机快捷键)

  • 手机关机微信运动显示么(手机关机微信运动会显示0吗)

    手机关机微信运动显示么(手机关机微信运动会显示0吗)

  • 华为手环3pro使用教程(华为手环3使用说明)

    华为手环3pro使用教程(华为手环3使用说明)

  • 淘宝人生装扮眼镜怎么去掉(618淘宝人生限定装扮1)

    淘宝人生装扮眼镜怎么去掉(618淘宝人生限定装扮1)

  • 饿了么给异地订餐怎么弄(饿了么给异地订外卖怎么订)

    饿了么给异地订餐怎么弄(饿了么给异地订外卖怎么订)

  • 苹果11显示屏分辨率(苹果显示屏分离触摸与液晶屏)

    苹果11显示屏分辨率(苹果显示屏分离触摸与液晶屏)

  • 拼多多营销活动页是什么(拼多多营销活动有哪些)

    拼多多营销活动页是什么(拼多多营销活动有哪些)

  • 小米4手环天气怎么设置(小米4手环天气怎么更新)

    小米4手环天气怎么设置(小米4手环天气怎么更新)

  • 删掉的图片怎么找回来(删掉的图片怎么找回来免费)

    删掉的图片怎么找回来(删掉的图片怎么找回来免费)

  • ofo共享单车如何还车(ofo共享单车如何退押金)

    ofo共享单车如何还车(ofo共享单车如何退押金)

  • iphone6怎么取消uc推送信息(iphone6怎么取消耳机模式)

    iphone6怎么取消uc推送信息(iphone6怎么取消耳机模式)

  • 小米9nfc位置(小米9nfc在手机哪里能找到)

    小米9nfc位置(小米9nfc在手机哪里能找到)

  • 苹果储存空间满了怎么办(苹果储存空间满了怎么清除)

    苹果储存空间满了怎么办(苹果储存空间满了怎么清除)

  • 同步与异步的认识(同步和异步的关系)

    同步与异步的认识(同步和异步的关系)

  • 前端怎么打断点捏(前端段落空两格怎么设置)

    前端怎么打断点捏(前端段落空两格怎么设置)

  • 帝国cms如何防盗链(帝国cms仿站工具)

    帝国cms如何防盗链(帝国cms仿站工具)

  • 转让金融商品应交增值税计入
  • 应付职工薪酬费用的对应科目
  • 公司自有房产自用要交房产税吗
  • 生鲜配送公司财务制度
  • 注册资本可以是0元吗
  • 免费赠送货物出租合同
  • 申报表季初资产和季末资产
  • 高新技术企业外债便利化
  • 净现金流量率计算公式
  • 租房提前退租违约金国家标准
  • 耕地占用税如何申报缴纳
  • 财产税放在哪个科目
  • 物流公司通行票抵税比例是多少
  • 报税没有申报现金流量表
  • 建筑企业收到的成本发票可以直接进主营业务成本吗
  • 长期应付款账面价值和账面余额
  • 会计里面红字冲销是什么意思
  • 公司租赁房屋的物业费怎么入账
  • 如何将货物卖出去
  • 赔付收入及支出如何做帐务处理?
  • 银行手续费可以汇总记账吗
  • 申报个税按计提工资还是实际发放
  • 小规模企业增值税税率是多少
  • 享受小型微利企业标准
  • 公司做贷款
  • 存在弃置费用的固定资产,如果履行弃置义务
  • 在windows7中用来存放硬盘中被删除的文件或文件夹的是
  • centos apache配置文件
  • 前端 vue
  • 纳税申报的流程有哪三步
  • php实现的链式队列是什么
  • phpcms怎么用
  • 补充养老保险费扣除限额
  • php实现上传图片功能
  • 生产成本制造费用怎么算
  • 酒店购买天然气流程
  • 资本公积属于谁
  • 公链dapp
  • 智能优化算法及其MATLAB实例
  • 超参数及其作用
  • php如何入门
  • 帝国cms手机模板是什么
  • 一般纳税人购进小规模纳税人的货物
  • dedecms默认用户名
  • python根据键输出值
  • mongodb添加环境变量
  • 银行存款日记账填写样本图
  • 盈利和亏损怎么计算
  • 企业哪些情况下需要交税
  • 一般纳税人认定标准
  • 进项税额中运输费怎么算
  • 税控盘反写是不是说明税都已经成功申报了
  • 收履约保证金的会计分录
  • 农产品收购发票如何抵扣进项税
  • 认缴款和投资款区别
  • 如何计算技术转让所得
  • 现汇账户和现钞账户
  • 公司如何做账本
  • 固定成本包括哪些项目
  • 应收账款周转天数越大说明什么
  • 账簿按账页格式排序
  • sqlserver bulkcopy
  • mysql中字符串类型
  • winxp系统怎么连接网络
  • xp系统弹出广告怎么处理
  • ubuntu基本配置
  • 电脑出windows
  • 系统密码设置
  • windows8设置
  • win8自动启动项怎么设置
  • outpost.exe - outpost是什么进程 有什么用
  • unity射击游戏毕业设计
  • python获取entry里输入的值
  • 在javascript中如何定义并调用函数
  • js 堆排序
  • Javascript字符串奇数位替换
  • jQuery添加类名
  • 娱乐圈的收入高得离谱
  • 佛山电动摩托车能上牌吗
  • 国家税务总局绵阳市税务局网站
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设