位置: IT常识 - 正文

GPT3.5 , InstructGPT和ChatGPT的关系

编辑:rootadmin
GPT3.5 , InstructGPT和ChatGPT的关系 GPT-3.5

推荐整理分享GPT3.5 , InstructGPT和ChatGPT的关系,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

GPT-3.5 系列是一系列模型,从 2021 年第四季度开始就使用文本和代一起进行训练。以下模型属于 GPT-3.5 系列:

code-davinci-002 是一个基础模型,非常适合纯代码完成任务text-davinci-002 是一个基于 code-davinci-002 的 InstructGPT 模型text-davinci-003 是对 text-davinci-002 的改进gpt-3.5-turbo-0301 是对 text-davinci-003 的改进,针对聊天进行了优化InstructGPT

以 3 种不同方式训练的 InstructGPT 模型变体:

训练方法模型模型名字SFT 监督微调人类示范 davinci-instruct-beta1davinci-instruct-beta1FeedME 对人工编写的演示和模型样本进行监督微调,这些模型样本被人工标注者在总体质量得分上评分为 7/7text-davinci-001, text-davinci-002, text-curie-001, text-babbage-001PPO 使用人类比较训练的奖励模型进行强化学习text-davinci-003

SFT 和 PPO 模型的训练与 InstructGPT 论文中的模型类似。 FeedME(“feedback made easy”的缩写)模型是通过从我们所有的模型中提取最佳完成度来训练的。我们的模型通常在训练时使用最佳可用数据集,因此使用相同训练方法的不同引擎可能会在不同数据上进行训练。

ChatGPTGPT3.5 , InstructGPT和ChatGPT的关系

ChatGPT和InstructGPT是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构,训练方式上都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。

OpenAI 官网

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

其实GPT-3.5-turbo* 就是ChatGPT的模型的名字。 

OpenAI相关研究论文

这些是我们今天在 API 中提供的研究论文中最接近的模型。请注意,并非 API 中可用的所有模型都对应于一篇论文,即使对于下面列出的模型,也可能存在细微差异,无法准确复制论文。

论文发表时间在论文中的模型名字在API中模型的名字参数数量[2005.14165] Language Models are Few-Shot Learners22 Jul 2020GPT-3 175Bdavinci175BGPT-3 6.7Bcurie6.7BGPT-3 1Bbabbage1B[2107.03374] Evaluating Large Language Models Trained on Code14 Jul 2021Codex 12Bcode-cushman-001312B[2201.10005] Text and Code Embeddings by Contrastive Pre-Training14 Jan 2022GPT-3 unsupervised cpt-text 175Btext-similarity-davinci-001175BGPT-3 unsupervised cpt-text 6Btext-similarity-curie-0016BGPT-3 unsupervised cpt-text 1.2BNo close matching model on API1.2B[2009.01325] Learning to summarize from human feedback15 Feb 2022GPT-3 6.7B pretrainNo close matching model on API6.7BGPT-3 2.7B pretrainNo close matching model on API2.7BGPT-3 1.3B pretrainNo close matching model on API1.3B[2203.02155] Training language models to follow instructions with human feedback4 Mar 2022InstructGPT-3 175B SFTdavinci-instruct-beta175BInstructGPT-3 175BNo close matching model on API175BInstructGPT-3 6BNo close matching model on API6BInstructGPT-3 1.3BNo close matching model on API1.3B其它强化学习

通常,强化学习看起来像这样。 环境会为每个动作产生奖励

InstructGPT

本文链接地址:https://www.jiuchutong.com/zhishi/296208.html 转载请保留说明!

上一篇:java生成PDF(图片,模板,表格)(java pdf生成工具)

下一篇:imu内参标定(内外参标定)

  • 微信可以申请小号了吗(微信可以申请小号别人还能搜到吗)

    微信可以申请小号了吗(微信可以申请小号别人还能搜到吗)

  • iphone怎么和汽车配对(iphone怎么和汽车连接蓝牙)

    iphone怎么和汽车配对(iphone怎么和汽车连接蓝牙)

  • 华为手机有红外线功能吗(华为手机有红外线功能在哪里)

    华为手机有红外线功能吗(华为手机有红外线功能在哪里)

  • 局域网的硬件组成(局域网硬件组成包括主机传输介质和网络连接设备)

    局域网的硬件组成(局域网硬件组成包括主机传输介质和网络连接设备)

  • 红包已领取但是没到账(红包已领取但是没收到)

    红包已领取但是没到账(红包已领取但是没收到)

  • 与外存相比较而言,内存的特点是(和外存相比)

    与外存相比较而言,内存的特点是(和外存相比)

  • 苹果手机无线网络打不开怎么回事(苹果手机无线网老是自动断开是怎么回事)

    苹果手机无线网络打不开怎么回事(苹果手机无线网老是自动断开是怎么回事)

  • wps和ppt什么区别(ppt和wps office)

    wps和ppt什么区别(ppt和wps office)

  • 苹果手机为啥下载不了微信(苹果手机为啥下载不了抖音)

    苹果手机为啥下载不了微信(苹果手机为啥下载不了抖音)

  • 手机拍的视频怎么消音(手机拍的视频怎么剪辑)

    手机拍的视频怎么消音(手机拍的视频怎么剪辑)

  • 怎么复制快手里的名字(怎么复制快手里的昵称)

    怎么复制快手里的名字(怎么复制快手里的昵称)

  • 华为手机怎么超级快充设置(华为手机怎么超频cpu)

    华为手机怎么超级快充设置(华为手机怎么超频cpu)

  • 微信的花呗在哪里(微信的花呗在哪里找到)

    微信的花呗在哪里(微信的花呗在哪里找到)

  • aum一al00是什么型号(aum-al00是华为什么型号)

    aum一al00是什么型号(aum-al00是华为什么型号)

  • jaud1是什么接口(jcom1是什么接口)

    jaud1是什么接口(jcom1是什么接口)

  • 打对方电话无任何声音(打对方电话无任何声音是被拉黑了吗)

    打对方电话无任何声音(打对方电话无任何声音是被拉黑了吗)

  • 一加有没有语音助手(一加有没有语音唤醒功能啊?)

    一加有没有语音助手(一加有没有语音唤醒功能啊?)

  • 跑腿软件开发功能包含哪些方面(跑腿app的设计与实现)

    跑腿软件开发功能包含哪些方面(跑腿app的设计与实现)

  • 如何在电脑上玩手游?畅快无阻(如何在电脑上玩三国杀移动版)

    如何在电脑上玩手游?畅快无阻(如何在电脑上玩三国杀移动版)

  • MySQL常用排序规则utf8mb4_general_ci、utf8mb4_unicode_ci、utf8mb4_bin、utf8mb4_0900_ai_ci和存储字符集 utf8 和 utf8mb4(mysql的排序规则)

    MySQL常用排序规则utf8mb4_general_ci、utf8mb4_unicode_ci、utf8mb4_bin、utf8mb4_0900_ai_ci和存储字符集 utf8 和 utf8mb4(mysql的排序规则)

  • TensorFlow 卷积神经网络实用指南:6~10(tensorflow卷积神经网络)

    TensorFlow 卷积神经网络实用指南:6~10(tensorflow卷积神经网络)

  • 职工产假津贴怎么领取
  • 偶然所得个人所得税会计分录
  • 当月红冲发票账务怎么处理
  • 营业执照备案登记流程
  • 个体工商户2023年税收政策
  • 自行建造固定资产中的自营工程,在领用工程物资
  • 新成立的企业都有哪些
  • 企业怎样才能做好信用信息修复?
  • 房产折旧计算方法 举例
  • 物业前期开办物资
  • 汇票本票的区别
  • 以存货抵偿债务结转的相关存货跌价准备
  • 货款和发票金额不符
  • 关于公司食堂的文案
  • 固定资产处理申请
  • 跨地区经营建筑企业预缴增值税可以先开票后预缴吗
  • 季度不超9万
  • 小规模企业超过500万营业额
  • 预付款税率是多少
  • 退回来的税怎么做账务处理
  • 企业所得税是什么意思需要交不需要
  • 投资的子公司亏损注销
  • win 7怎么办
  • 刷卡机怎么收费的吗
  • 保证合同的担保范围包括
  • 电脑重装系统如何分区?
  • ZF框架实现发送邮件的方法
  • 虚拟机vm怎么用
  • 本年利润和利润总额的关系
  • puppetm
  • php空间怎么用
  • 房地产企业土地使用税计算方法
  • 应收股利的主要特点
  • 现金盘盈后的财务分析
  • chrome使用教程
  • php文本操作
  • Chrome谷歌浏览器官网
  • php合并两个二维数组
  • 股权转让有溢价分录怎么写
  • 企业没有实缴
  • 企业购买预付卡怎么做账
  • 计算机视觉的应用
  • php多进程处理大数据
  • 餐饮店库存盘点表
  • 税控开票清单
  • 生产成本结转库存商品,怎么算知道数量以及单价
  • wordpress怎么降级
  • 织梦模板安装详细教程
  • 库存商品的科目设置
  • 通用发票如何缴销
  • 未开票收入确认错属期滞纳金怎么办
  • 劳务派遣人员代招聘多少钱一个人
  • 企业所得税年报更正申报怎么操作
  • 教育费附加减免性质代码
  • 无形资产的后续支出,金额较大的应增加无形资产的价值
  • 什么情况下需要异地预缴增值税
  • 红冲以前年度费用
  • 对于审核后的凭证可直接修改对吗
  • 金蝶k3怎么打印科目余额表
  • sql常用的语句大全
  • win8创建密码
  • win10屏幕亮度怎么调节快捷键
  • win10周年版
  • win8怎么看电脑wifi密码
  • html5能做游戏吗
  • opengl控件库
  • nodejs rbac
  • learning android
  • dos echo命令
  • python中布尔运算
  • vue插件使用
  • python错误代码
  • js怎么设置css
  • 深入理解新发展理念,推进供给侧结构性改革
  • python和微信交互
  • 个人彩票收入属什么类别
  • 半挂牵引车车船税怎么算
  • 跨省开税票
  • 湖北国税发票手机查询
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设