位置: IT常识 - 正文

GPT3.5 , InstructGPT和ChatGPT的关系

编辑:rootadmin
GPT3.5 , InstructGPT和ChatGPT的关系 GPT-3.5

推荐整理分享GPT3.5 , InstructGPT和ChatGPT的关系,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

GPT-3.5 系列是一系列模型,从 2021 年第四季度开始就使用文本和代一起进行训练。以下模型属于 GPT-3.5 系列:

code-davinci-002 是一个基础模型,非常适合纯代码完成任务text-davinci-002 是一个基于 code-davinci-002 的 InstructGPT 模型text-davinci-003 是对 text-davinci-002 的改进gpt-3.5-turbo-0301 是对 text-davinci-003 的改进,针对聊天进行了优化InstructGPT

以 3 种不同方式训练的 InstructGPT 模型变体:

训练方法模型模型名字SFT 监督微调人类示范 davinci-instruct-beta1davinci-instruct-beta1FeedME 对人工编写的演示和模型样本进行监督微调,这些模型样本被人工标注者在总体质量得分上评分为 7/7text-davinci-001, text-davinci-002, text-curie-001, text-babbage-001PPO 使用人类比较训练的奖励模型进行强化学习text-davinci-003

SFT 和 PPO 模型的训练与 InstructGPT 论文中的模型类似。 FeedME(“feedback made easy”的缩写)模型是通过从我们所有的模型中提取最佳完成度来训练的。我们的模型通常在训练时使用最佳可用数据集,因此使用相同训练方法的不同引擎可能会在不同数据上进行训练。

ChatGPTGPT3.5 , InstructGPT和ChatGPT的关系

ChatGPT和InstructGPT是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构,训练方式上都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。

OpenAI 官网

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

其实GPT-3.5-turbo* 就是ChatGPT的模型的名字。 

OpenAI相关研究论文

这些是我们今天在 API 中提供的研究论文中最接近的模型。请注意,并非 API 中可用的所有模型都对应于一篇论文,即使对于下面列出的模型,也可能存在细微差异,无法准确复制论文。

论文发表时间在论文中的模型名字在API中模型的名字参数数量[2005.14165] Language Models are Few-Shot Learners22 Jul 2020GPT-3 175Bdavinci175BGPT-3 6.7Bcurie6.7BGPT-3 1Bbabbage1B[2107.03374] Evaluating Large Language Models Trained on Code14 Jul 2021Codex 12Bcode-cushman-001312B[2201.10005] Text and Code Embeddings by Contrastive Pre-Training14 Jan 2022GPT-3 unsupervised cpt-text 175Btext-similarity-davinci-001175BGPT-3 unsupervised cpt-text 6Btext-similarity-curie-0016BGPT-3 unsupervised cpt-text 1.2BNo close matching model on API1.2B[2009.01325] Learning to summarize from human feedback15 Feb 2022GPT-3 6.7B pretrainNo close matching model on API6.7BGPT-3 2.7B pretrainNo close matching model on API2.7BGPT-3 1.3B pretrainNo close matching model on API1.3B[2203.02155] Training language models to follow instructions with human feedback4 Mar 2022InstructGPT-3 175B SFTdavinci-instruct-beta175BInstructGPT-3 175BNo close matching model on API175BInstructGPT-3 6BNo close matching model on API6BInstructGPT-3 1.3BNo close matching model on API1.3B其它强化学习

通常,强化学习看起来像这样。 环境会为每个动作产生奖励

InstructGPT

本文链接地址:https://www.jiuchutong.com/zhishi/296208.html 转载请保留说明!

上一篇:java生成PDF(图片,模板,表格)(java pdf生成工具)

下一篇:imu内参标定(内外参标定)

  • 华为8g运行内128g内存有哪些(华为8G运行内存好还是8+4g运内存好)

    华为8g运行内128g内存有哪些(华为8G运行内存好还是8+4g运内存好)

  • jpeg和png哪个更清晰(jpeg和png的区别)

    jpeg和png哪个更清晰(jpeg和png的区别)

  • mate30跑分多少

    mate30跑分多少

  • 快手怎么看别人的动态和赞(快手怎么看别人给我发的消息)

    快手怎么看别人的动态和赞(快手怎么看别人给我发的消息)

  • 华为oxfan10是什么型号(华为oxfan10是什么手机)

    华为oxfan10是什么型号(华为oxfan10是什么手机)

  • 855plus支持5g吗(855支持5g么)

    855plus支持5g吗(855支持5g么)

  • 小红书会自动解封吗(小红书会自动解锁吗)

    小红书会自动解封吗(小红书会自动解锁吗)

  • oppoa8和a11有什么区别(oppo a11和a8)

    oppoa8和a11有什么区别(oppo a11和a8)

  • 苹果手机键盘怎么设置快捷回复(苹果手机键盘怎么切换下一行)

    苹果手机键盘怎么设置快捷回复(苹果手机键盘怎么切换下一行)

  • cache memory是外存储器吗(cache 内存)

    cache memory是外存储器吗(cache 内存)

  • 乐视手机的系统广告怎么关闭

    乐视手机的系统广告怎么关闭

  • 手机跑分怎么测

    手机跑分怎么测

  • 咻电怎么归还(咻电怎么归还充电宝)

    咻电怎么归还(咻电怎么归还充电宝)

  • 淘宝延长收货是几天(淘宝延长收货是在哪天基础上延长)

    淘宝延长收货是几天(淘宝延长收货是在哪天基础上延长)

  • 华为p30怎么关闭抬起唤醒(华为p30怎么关闭下拉智慧搜索)

    华为p30怎么关闭抬起唤醒(华为p30怎么关闭下拉智慧搜索)

  • qq情侣空间怎么看之前跟谁开过(qq情侣空间怎么改相恋日期)

    qq情侣空间怎么看之前跟谁开过(qq情侣空间怎么改相恋日期)

  • 华为nova5耳机插口在哪(华为nova5耳机插上耳机还是外放)

    华为nova5耳机插口在哪(华为nova5耳机插上耳机还是外放)

  • 数学证书包括什么功能(数学类的证书考试)

    数学证书包括什么功能(数学类的证书考试)

  • 手机上hd1怎么取消(怎么才把手机上的hd去取呢)

    手机上hd1怎么取消(怎么才把手机上的hd去取呢)

  • 分享口令已生成是什么意思(分享口令已生成怎么粘贴在微信)

    分享口令已生成是什么意思(分享口令已生成怎么粘贴在微信)

  • oppo17是三网通吗(oppor17支持电信卡吗)

    oppo17是三网通吗(oppor17支持电信卡吗)

  • 小米平板4怎么换主题(小米平板4怎么打电话)

    小米平板4怎么换主题(小米平板4怎么打电话)

  • 华为par-al00什么型号(华为par-al00什么型号手机壳)

    华为par-al00什么型号(华为par-al00什么型号手机壳)

  • 苹果手机查看激活日期教程(苹果手机查看激活id账号信息)

    苹果手机查看激活日期教程(苹果手机查看激活id账号信息)

  • 计算机视觉学习笔记(图像的灰度与灰度级 图像的深度 图像噪声 图像处理)(计算机视觉技术的应用)

    计算机视觉学习笔记(图像的灰度与灰度级 图像的深度 图像噪声 图像处理)(计算机视觉技术的应用)

  • 企业为员工缴纳公积金的通知
  • 退税是什么科目的
  • 跨年租赁费如何处理
  • 跨月能更正个税吗
  • 电梯维保费属于建筑服务吗
  • 小规模季报财务报表怎么填写
  • 技术服务费3%
  • 应交增值税账面和申报表不符
  • 融资租赁租入固定资产折旧可以税前扣除吗
  • 企业租给企业房产税税率
  • 增值税普票没有校验码
  • 营改增后转让土地使用权增值税
  • 银行承兑汇票怎么填写
  • 企业支付个人借款利息要扣个税吗
  • 外贸企业人民币结算
  • 交通费汇算清缴怎么做账
  • 盘亏的设备做营业外支出的会计分录怎么处理?
  • 报关单有多个合同协议号
  • 企业挂靠税收市收取的标准是什么
  • 员工异地交纳保险怎么交
  • 学校提供场地开发方案
  • 预收房租款如何入账
  • 支付的租金计入什么会计科目
  • 一般纳税人注销库存需要补交税吗
  • 检测费专用增值税的税票税率
  • 所得税新规定
  • 委托贷款合同效力
  • 土地溢价的成本包括
  • 预缴增值税的情况四种情形汇总表怎么填
  • 公司给职工买工伤险流程
  • linux如何用root用户登录
  • 是否启用税种综合申报
  • 静默安装命令
  • php常用扩展有哪些
  • ecshop有哪些bug
  • 新手最适合用哪一款
  • 计提摊销的分录
  • vue中如何使用axios
  • 存货核算有哪些内容
  • js点击图片跳转页面
  • 资金平衡表的编制方法
  • ChatGPT 被大面积封号,到底发生什么了?
  • 材料盘盈分录
  • 私人打款到对公账户要交税吗
  • 房产自用改为出租如何申报房产税
  • 预收货款尚未发货
  • 一般纳税人专票认证抵扣流程
  • 应付利息如何结转
  • 投资款未备注
  • 小规模纳税人免税怎么做账
  • 汽车修理厂会计账务处理
  • 出口退税企业更正申报增值税
  • 受托代销商品款是什么类账户
  • 电子承兑汇票兑现扣几个点
  • 未按期预缴企业社保
  • 股权投资损失 属于法定资产损失 实际资产损失
  • 已经认证的进项发票在哪里查询
  • 长期股权投资权益法初始成本的确定
  • 计提折旧有哪些会计科目
  • 政府机关有纳税人吗
  • mysql详细介绍
  • sqlserver存储过程在哪里
  • macbook取消弹出框阻止
  • Windows XP中网桥设置方法
  • mac怎么删除应用保留数据
  • win8优化驱动器
  • 怎么解圧
  • linux入门知识
  • win8设置开机启动程序
  • Win10 Mobile 10586.164中文版升级截图曝光
  • opengl教程48讲
  • 无缝广告植入
  • 查找最近文件操作记录
  • nodejs搭建本地资源服务器
  • 怎样在电子税务局查询财务报表
  • 专票购买方是对方公司吗
  • 被认为是税务风险的原因
  • 辽宁省电子税务局操作手册
  • 税控盘怎么分发
  • 青岛工商全程电子化
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设