位置: IT常识 - 正文

GPT3.5 , InstructGPT和ChatGPT的关系

编辑:rootadmin
GPT3.5 , InstructGPT和ChatGPT的关系 GPT-3.5

推荐整理分享GPT3.5 , InstructGPT和ChatGPT的关系,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

GPT-3.5 系列是一系列模型,从 2021 年第四季度开始就使用文本和代一起进行训练。以下模型属于 GPT-3.5 系列:

code-davinci-002 是一个基础模型,非常适合纯代码完成任务text-davinci-002 是一个基于 code-davinci-002 的 InstructGPT 模型text-davinci-003 是对 text-davinci-002 的改进gpt-3.5-turbo-0301 是对 text-davinci-003 的改进,针对聊天进行了优化InstructGPT

以 3 种不同方式训练的 InstructGPT 模型变体:

训练方法模型模型名字SFT 监督微调人类示范 davinci-instruct-beta1davinci-instruct-beta1FeedME 对人工编写的演示和模型样本进行监督微调,这些模型样本被人工标注者在总体质量得分上评分为 7/7text-davinci-001, text-davinci-002, text-curie-001, text-babbage-001PPO 使用人类比较训练的奖励模型进行强化学习text-davinci-003

SFT 和 PPO 模型的训练与 InstructGPT 论文中的模型类似。 FeedME(“feedback made easy”的缩写)模型是通过从我们所有的模型中提取最佳完成度来训练的。我们的模型通常在训练时使用最佳可用数据集,因此使用相同训练方法的不同引擎可能会在不同数据上进行训练。

ChatGPTGPT3.5 , InstructGPT和ChatGPT的关系

ChatGPT和InstructGPT是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构,训练方式上都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。

OpenAI 官网

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

其实GPT-3.5-turbo* 就是ChatGPT的模型的名字。 

OpenAI相关研究论文

这些是我们今天在 API 中提供的研究论文中最接近的模型。请注意,并非 API 中可用的所有模型都对应于一篇论文,即使对于下面列出的模型,也可能存在细微差异,无法准确复制论文。

论文发表时间在论文中的模型名字在API中模型的名字参数数量[2005.14165] Language Models are Few-Shot Learners22 Jul 2020GPT-3 175Bdavinci175BGPT-3 6.7Bcurie6.7BGPT-3 1Bbabbage1B[2107.03374] Evaluating Large Language Models Trained on Code14 Jul 2021Codex 12Bcode-cushman-001312B[2201.10005] Text and Code Embeddings by Contrastive Pre-Training14 Jan 2022GPT-3 unsupervised cpt-text 175Btext-similarity-davinci-001175BGPT-3 unsupervised cpt-text 6Btext-similarity-curie-0016BGPT-3 unsupervised cpt-text 1.2BNo close matching model on API1.2B[2009.01325] Learning to summarize from human feedback15 Feb 2022GPT-3 6.7B pretrainNo close matching model on API6.7BGPT-3 2.7B pretrainNo close matching model on API2.7BGPT-3 1.3B pretrainNo close matching model on API1.3B[2203.02155] Training language models to follow instructions with human feedback4 Mar 2022InstructGPT-3 175B SFTdavinci-instruct-beta175BInstructGPT-3 175BNo close matching model on API175BInstructGPT-3 6BNo close matching model on API6BInstructGPT-3 1.3BNo close matching model on API1.3B其它强化学习

通常,强化学习看起来像这样。 环境会为每个动作产生奖励

InstructGPT

本文链接地址:https://www.jiuchutong.com/zhishi/296208.html 转载请保留说明!

上一篇:java生成PDF(图片,模板,表格)(java pdf生成工具)

下一篇:imu内参标定(内外参标定)

  • 公司注销后账本怎么处理
  • 本月发生费用未支付会计处理
  • 申报所得税季初资产总额怎么填?
  • 比较优先股和普通股
  • 衍生金融负债是金融负债吗
  • 开仓库需要营业执照吗
  • 生产企业运费收入怎么处理?
  • 零税率的发票
  • 融资租赁出租人和承租人的区别
  • 免单计入什么科目
  • 外贸企业人民币结算
  • 行政单位在建工程入账
  • 契税和车辆购置税的异同
  • 新成立的公司如何建账
  • 企业利润分配核算方法
  • 税控信息表
  • 股权转让印花税是双方都要缴纳吗
  • 商贸企业开票进出型号不一致
  • 2021税收分类编码大全
  • 发票认证后失控
  • 酒店预收款是什么意思
  • 制造费用在利润表体现吗
  • 利润表所得税费用为负数
  • 代理运输协议范本
  • 小规模季报资产总额填错了有影响吗
  • 1697510768
  • 电脑qq音乐声音小怎么回事
  • linux alias永久生效
  • 广告法 保险公司承保
  • 溢价发行股票的相关交易费用冲减资本公积
  • 直接计入当期利润的利得,即企业非日常
  • 销售商品发生的现金折扣
  • adb是什么程序
  • 怎么安装win7系统u盘
  • win11预览版体验
  • wordpress采集教程
  • php图像
  • 资产减值损失影响当期利润吗
  • 提示框架
  • es5和es6的区别
  • css中设置字体样式
  • 稳岗补贴什么时候到账
  • 跨平台 gui
  • js继承的几种方式 各有什么优缺点
  • 结转成本费用
  • 对公账户怎么查询开户行
  • 劳务公司包工包料工程如何账务处理
  • 生活服务的行业
  • 银行手续费已扣发票未开的账务处理
  • 一般纳税人销售旧货
  • 发票红冲操作流程
  • 利润分配未分配利润是净利润吗
  • 国有企业投资程序
  • 企业之间的往来款要1900万要交多少税
  • 微众银行贷款到私账吗
  • 企业的管理费用包括
  • linux重置开机密码
  • mysql binlog redo
  • svchost一直在下载什么
  • 苹果macbook怎么切换系统
  • rhel7.4安装
  • win10系统下如何打开internet(ISS)信息服务
  • centos如何安装软件
  • linux yum安装软件命令
  • 网卡破解
  • windows无法预览文件
  • 如何修改win7电脑用户密码
  • Linux中SSH的SCP传输命令运用详解
  • 汤姆猫arcode
  • js定时器的两种方法
  • 百分比的介绍
  • unity3d官方教程
  • 详解node HTTP请求客户端 - Request
  • android打开相机
  • js翻页效果的实现原理
  • bootstrap轮播效果
  • js框架开发实例
  • 武汉市国税局局长黄英简历
  • 余姚市税务局咨询热线
  • 初级会计职称可以挂靠吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设