位置: IT常识 - 正文

GPT3.5 , InstructGPT和ChatGPT的关系

编辑:rootadmin
GPT3.5 , InstructGPT和ChatGPT的关系 GPT-3.5

推荐整理分享GPT3.5 , InstructGPT和ChatGPT的关系,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

GPT-3.5 系列是一系列模型,从 2021 年第四季度开始就使用文本和代一起进行训练。以下模型属于 GPT-3.5 系列:

code-davinci-002 是一个基础模型,非常适合纯代码完成任务text-davinci-002 是一个基于 code-davinci-002 的 InstructGPT 模型text-davinci-003 是对 text-davinci-002 的改进gpt-3.5-turbo-0301 是对 text-davinci-003 的改进,针对聊天进行了优化InstructGPT

以 3 种不同方式训练的 InstructGPT 模型变体:

训练方法模型模型名字SFT 监督微调人类示范 davinci-instruct-beta1davinci-instruct-beta1FeedME 对人工编写的演示和模型样本进行监督微调,这些模型样本被人工标注者在总体质量得分上评分为 7/7text-davinci-001, text-davinci-002, text-curie-001, text-babbage-001PPO 使用人类比较训练的奖励模型进行强化学习text-davinci-003

SFT 和 PPO 模型的训练与 InstructGPT 论文中的模型类似。 FeedME(“feedback made easy”的缩写)模型是通过从我们所有的模型中提取最佳完成度来训练的。我们的模型通常在训练时使用最佳可用数据集,因此使用相同训练方法的不同引擎可能会在不同数据上进行训练。

ChatGPTGPT3.5 , InstructGPT和ChatGPT的关系

ChatGPT和InstructGPT是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构,训练方式上都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。

OpenAI 官网

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

其实GPT-3.5-turbo* 就是ChatGPT的模型的名字。 

OpenAI相关研究论文

这些是我们今天在 API 中提供的研究论文中最接近的模型。请注意,并非 API 中可用的所有模型都对应于一篇论文,即使对于下面列出的模型,也可能存在细微差异,无法准确复制论文。

论文发表时间在论文中的模型名字在API中模型的名字参数数量[2005.14165] Language Models are Few-Shot Learners22 Jul 2020GPT-3 175Bdavinci175BGPT-3 6.7Bcurie6.7BGPT-3 1Bbabbage1B[2107.03374] Evaluating Large Language Models Trained on Code14 Jul 2021Codex 12Bcode-cushman-001312B[2201.10005] Text and Code Embeddings by Contrastive Pre-Training14 Jan 2022GPT-3 unsupervised cpt-text 175Btext-similarity-davinci-001175BGPT-3 unsupervised cpt-text 6Btext-similarity-curie-0016BGPT-3 unsupervised cpt-text 1.2BNo close matching model on API1.2B[2009.01325] Learning to summarize from human feedback15 Feb 2022GPT-3 6.7B pretrainNo close matching model on API6.7BGPT-3 2.7B pretrainNo close matching model on API2.7BGPT-3 1.3B pretrainNo close matching model on API1.3B[2203.02155] Training language models to follow instructions with human feedback4 Mar 2022InstructGPT-3 175B SFTdavinci-instruct-beta175BInstructGPT-3 175BNo close matching model on API175BInstructGPT-3 6BNo close matching model on API6BInstructGPT-3 1.3BNo close matching model on API1.3B其它强化学习

通常,强化学习看起来像这样。 环境会为每个动作产生奖励

InstructGPT

本文链接地址:https://www.jiuchutong.com/zhishi/296208.html 转载请保留说明!

上一篇:java生成PDF(图片,模板,表格)(java pdf生成工具)

下一篇:imu内参标定(内外参标定)

  • 苹果双卡怎么切换流量(苹果双卡怎么切换4g)

    苹果双卡怎么切换流量(苹果双卡怎么切换4g)

  • 苹果手机怎么设置小组件(苹果手机怎么设置铃声来电铃声)

    苹果手机怎么设置小组件(苹果手机怎么设置铃声来电铃声)

  • 电脑怎么打大于号(电脑怎么打大于小于号)

    电脑怎么打大于号(电脑怎么打大于小于号)

  • 微信怎样弄成夜间模式(微信怎么可以弄成夜间模式)

    微信怎样弄成夜间模式(微信怎么可以弄成夜间模式)

  • 微视视频红包每天上限多少(微视发红包视频花钱吗)

    微视视频红包每天上限多少(微视发红包视频花钱吗)

  • 淘宝的dsr是指(淘宝dsr的含义是什么)

    淘宝的dsr是指(淘宝dsr的含义是什么)

  • nxtdl00是什么型号

    nxtdl00是什么型号

  • 苹果x可以升级13.4.1吗(苹果X可以升级16系统吗)

    苹果x可以升级13.4.1吗(苹果X可以升级16系统吗)

  • 照片上传icloud还占内存吗(照片上传icloud1%)

    照片上传icloud还占内存吗(照片上传icloud1%)

  • 快手评论为何自动消失(快手上面的评论为什么会莫名其妙的消失)

    快手评论为何自动消失(快手上面的评论为什么会莫名其妙的消失)

  • 抖音关注的人怎么分组(抖音关注的人怎么找)

    抖音关注的人怎么分组(抖音关注的人怎么找)

  • 手机打开淘宝就黑屏(手机打开淘宝就闪退怎么回事)

    手机打开淘宝就黑屏(手机打开淘宝就闪退怎么回事)

  • 华为gt2可以插手机卡吗(华为gt2手表可以插卡打电话吗)

    华为gt2可以插手机卡吗(华为gt2手表可以插卡打电话吗)

  • 淘宝会员名怎么修改(淘宝会员名怎么取好听)

    淘宝会员名怎么修改(淘宝会员名怎么取好听)

  • 苹果11支持无线快充吗(苹果11支持无线充电多少W)

    苹果11支持无线快充吗(苹果11支持无线充电多少W)

  • 手机怎样可以当电视遥控器(手机怎样可以当门禁卡用)

    手机怎样可以当电视遥控器(手机怎样可以当门禁卡用)

  • 好省怎么去淘宝授权(好省怎么跟淘宝绑定)

    好省怎么去淘宝授权(好省怎么跟淘宝绑定)

  • 小米9怎么设置nfc功能(小米9怎么设置nfc门禁卡功能)

    小米9怎么设置nfc功能(小米9怎么设置nfc门禁卡功能)

  • ppt怎么使用超级链接(PPT怎么使用超级链接)

    ppt怎么使用超级链接(PPT怎么使用超级链接)

  • 知乎怎么匿名提问(知乎怎么匿名提问看不见)

    知乎怎么匿名提问(知乎怎么匿名提问看不见)

  • 多功能视频播放器视频格式(多功能视频播放器播放不出来)

    多功能视频播放器视频格式(多功能视频播放器播放不出来)

  • msconfig系统配置优化方法是什么?(msconfig配置文件)

    msconfig系统配置优化方法是什么?(msconfig配置文件)

  • win11系统怎么删除此电脑里的百度网盘图标? 百度网盘的删除方法(win11系统怎么删除账户)

    win11系统怎么删除此电脑里的百度网盘图标? 百度网盘的删除方法(win11系统怎么删除账户)

  • msgcat命令  合并多个邮件目录(合并的命令)

    msgcat命令 合并多个邮件目录(合并的命令)

  • 织梦根据栏目不同调用不同模板的方法(织梦设置的关键词看不到)

    织梦根据栏目不同调用不同模板的方法(织梦设置的关键词看不到)

  • 零税率是指
  • 个人劳务报酬所得汇算清缴
  • 建筑公司租赁费会计分录
  • 政府奖励收入要交企业所得税么
  • 其他权益工具投资公允价值变动
  • 开现代服务发票有什么要求吗
  • 外经证到期如何填写最新有效期限
  • 住房被征用赔偿标准
  • 技术转让所得的税收优惠
  • 自行研发无形资产暂时性差异
  • 转出未交增值税和转出多交增值税
  • 职工取暖费可以一次性发放吗
  • 增值税是先交税还是先开票
  • 年度亏损计提所得税吗
  • 过路过桥费抵扣2021新规定
  • 金融业的增值税
  • 企业开发票的人员要经过培训吗?
  • 抵扣勾选和退税勾选选错了怎么办
  • 国有企业的所得税怎么算
  • 增值税和消费税的区别和联系
  • 公允价值变动损益是什么意思
  • 发票联给错怎么办?
  • 淘宝的电子发票怎么看
  • 临时建筑进项税可以一次抵扣吗?
  • 银行端查询缴税凭证在哪里缴费
  • 核销坏账的会计处理分录
  • 购进半成品怎样做分录
  • 公司邀请外国人来华邀请函模板
  • 工伤赔偿工伤保险超出部分
  • 收到银行存款利息记账凭证怎么写
  • 支付销售佣金如何做账
  • win7如何设置高级网卡功能适合玩网络游戏
  • 生产企业提供售后服务
  • linux sed 行尾
  • 私账转到公账怎么办
  • iphone11 iphone10区别
  • 以前年度多计提的工资怎么处理
  • 应收账款挂账多年
  • php表单的作用是什么
  • 浏览器集成什么意思
  • 个人独资企业都需要交什么税
  • 股东转让股份会退股吗
  • 企业利润分配的通常去向包括
  • 异地工程预缴税款时间
  • 企业改制资产整合过程中涉及的土地增值税
  • 在mysql中子查询是
  • 销售折扣收货方法有哪些
  • 原材料卖出去会计分录
  • 出租无形资产取得的收益计入什么科目
  • 公司贷款谁签字
  • 小微企业增值税优惠政策最新2023
  • 什么情况企业需要调档
  • 企业年有什么用
  • 冲减实收资本是什么意思
  • 减免税款月末是否结平
  • 企业什么情形必须签无固定期限合同
  • 职工福利费的好处
  • sql server数据库怎么导出
  • 在sql中使用where子句指出的是
  • Windows Sever 2016技术预览版3 本月发布
  • win2008下的HPC群集是什么有什么作用
  • macbookpro双系统和虚拟机
  • efi shell有什么用
  • win8打开桌面
  • win8.1文件夹选项
  • win10h2版本
  • windows7的使用方法
  • win7任务栏透明调不了
  • WIN10更新失败
  • SQLite -- 嵌入式关系型数据库
  • 求婚表白的语句
  • nodejs xhr
  • 五个常用的视频格式及其特点
  • shell脚本spool
  • js的自定义属性
  • asp.net+jquery.form实现图片异步上传的方法(附jquery.form.js下载)
  • 基于JQuery的$.ajax方法进行异步请求导致页面闪烁的解决办法
  • art+project
  • 济南高新区国家税务局
  • 车辆登记指的是什么
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设