位置: IT常识 - 正文

GPT3.5 , InstructGPT和ChatGPT的关系

编辑:rootadmin
GPT3.5 , InstructGPT和ChatGPT的关系 GPT-3.5

推荐整理分享GPT3.5 , InstructGPT和ChatGPT的关系,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

GPT-3.5 系列是一系列模型,从 2021 年第四季度开始就使用文本和代一起进行训练。以下模型属于 GPT-3.5 系列:

code-davinci-002 是一个基础模型,非常适合纯代码完成任务text-davinci-002 是一个基于 code-davinci-002 的 InstructGPT 模型text-davinci-003 是对 text-davinci-002 的改进gpt-3.5-turbo-0301 是对 text-davinci-003 的改进,针对聊天进行了优化InstructGPT

以 3 种不同方式训练的 InstructGPT 模型变体:

训练方法模型模型名字SFT 监督微调人类示范 davinci-instruct-beta1davinci-instruct-beta1FeedME 对人工编写的演示和模型样本进行监督微调,这些模型样本被人工标注者在总体质量得分上评分为 7/7text-davinci-001, text-davinci-002, text-curie-001, text-babbage-001PPO 使用人类比较训练的奖励模型进行强化学习text-davinci-003

SFT 和 PPO 模型的训练与 InstructGPT 论文中的模型类似。 FeedME(“feedback made easy”的缩写)模型是通过从我们所有的模型中提取最佳完成度来训练的。我们的模型通常在训练时使用最佳可用数据集,因此使用相同训练方法的不同引擎可能会在不同数据上进行训练。

ChatGPTGPT3.5 , InstructGPT和ChatGPT的关系

ChatGPT和InstructGPT是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构,训练方式上都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。

OpenAI 官网

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

其实GPT-3.5-turbo* 就是ChatGPT的模型的名字。 

OpenAI相关研究论文

这些是我们今天在 API 中提供的研究论文中最接近的模型。请注意,并非 API 中可用的所有模型都对应于一篇论文,即使对于下面列出的模型,也可能存在细微差异,无法准确复制论文。

论文发表时间在论文中的模型名字在API中模型的名字参数数量[2005.14165] Language Models are Few-Shot Learners22 Jul 2020GPT-3 175Bdavinci175BGPT-3 6.7Bcurie6.7BGPT-3 1Bbabbage1B[2107.03374] Evaluating Large Language Models Trained on Code14 Jul 2021Codex 12Bcode-cushman-001312B[2201.10005] Text and Code Embeddings by Contrastive Pre-Training14 Jan 2022GPT-3 unsupervised cpt-text 175Btext-similarity-davinci-001175BGPT-3 unsupervised cpt-text 6Btext-similarity-curie-0016BGPT-3 unsupervised cpt-text 1.2BNo close matching model on API1.2B[2009.01325] Learning to summarize from human feedback15 Feb 2022GPT-3 6.7B pretrainNo close matching model on API6.7BGPT-3 2.7B pretrainNo close matching model on API2.7BGPT-3 1.3B pretrainNo close matching model on API1.3B[2203.02155] Training language models to follow instructions with human feedback4 Mar 2022InstructGPT-3 175B SFTdavinci-instruct-beta175BInstructGPT-3 175BNo close matching model on API175BInstructGPT-3 6BNo close matching model on API6BInstructGPT-3 1.3BNo close matching model on API1.3B其它强化学习

通常,强化学习看起来像这样。 环境会为每个动作产生奖励

InstructGPT

本文链接地址:https://www.jiuchutong.com/zhishi/296208.html 转载请保留说明!

上一篇:java生成PDF(图片,模板,表格)(java pdf生成工具)

下一篇:imu内参标定(内外参标定)

  • 房地产公司自用房屋销售土地增值税计算
  • 税友财务软件一年多少钱
  • 财务报表申报有税额吗
  • 个税申报时提示扣缴单位无有效的税费种认定信息
  • 待抵扣税金凭证分录
  • 个税受雇日期以哪个日期
  • 支付宝收据在哪儿看
  • 租入房租装修费摊销
  • 应付股利一直挂账怎么办
  • 低值易耗品定义出处
  • 补入库存商品的会计分录
  • 境外企业向境内提供国际运输服务核定征收的企业所得税
  • 企业所得税根据什么报表申报
  • 增值税发票开票限额怎么申请?
  • 增值税发票处理流程
  • 油罐车运输费用怎么算
  • 发票记账联丢失怎么写情况说明
  • 6%税率的项目(不含金融商品转让)免税么
  • 企业所得税查账征收与核定征收的区别
  • 企业清算时,经营收入与清算收益可以合并申报吗?
  • 税务局工会经费新举措
  • 本月报销能用下月报销吗
  • 公司给另外一家公司投资
  • 处理固定资产开什么发票
  • 技术合同 免税
  • 使用时间长但金币不见了
  • 哪些费用可以做研发费用
  • 金蝶存货核算的基本流程
  • 社保会计分录怎么写
  • 查补以前年度房产税的账务处理
  • 各类预算的内容及其相互关系
  • 暂估主营业务成本怎么冲销
  • 抵扣联和发票联丢失怎么办
  • 代理业务资产的意思
  • 收入的特征包括什么
  • 租金收入计入收入总额吗
  • 企业研发费用加计扣除最新政策
  • 最好的ph计
  • 图像的生成原理
  • hostnamectl命令
  • 上年折旧费多计提了,本年怎么调
  • 加工取得的存货成本会计分录
  • 外购应税消费品的纳税人是谁
  • 预付和挂账怎么做分录
  • mongodb创建库
  • 国外货物进入保税仓需要办理什么
  • 深入浅出夏寒陆行全文免费阅读笔趣阁番外
  • PostgreSQL 查看数据库,索引,表,表空间大小的示例代码
  • 购入交易性金融资产的相关税费计入
  • 直接计入所有者权益的利得和损失,影响当期损益
  • 增值税普通发票和电子普通发票的区别
  • 处置废品收入税率
  • 个人所得税劳务所得
  • 非盈利组织固定资产金额标准最新规定
  • 运输途中丢失的物品赔偿
  • 出包方式建造固定资产的成本包括
  • 账上的进项税额比申报多了怎么调账
  • 企业建账前应考虑什么
  • sql server数据
  • sql中varchar和number比较
  • mysql 绿色版
  • 批量修改 sql
  • win8系统无线网找不到
  • linux文件切片命令
  • 系统装在从盘
  • win7取消ch
  • 重装系统后要重装软件吗
  • linux kinit
  • PHPMyAdmin 2.7.0-pl1下载
  • js日期选择框
  • jquery点击事件写法
  • python 获取网页上文件地址
  • js匿名类
  • jquery设置滚动条
  • 深入理解javascript特性
  • ukey开票人是管理员改胃自己时只能开电子发票
  • 金税全国客服电话
  • 吉林省地方税务局单位职工集资建房免征营业税
  • 耕地建仓库属于违规
  • 买车险代收车船税多少钱
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设