位置: IT常识 - 正文

【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人)

编辑:rootadmin
【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT

推荐整理分享【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:李牧其人,诗人 李牧,李牧的视频,李牧的视频,李牧的视频,李牧自学,李牧的故事告诉了我们什么,李牧的故事告诉了我们什么,内容如对您有帮助,希望把文章链接给更多的朋友!

最近OpenAI公司的ChatGPT非常火爆,虽然正式的论文还没有发布,但是按照OpenAI一贯的工作思路,基于前期工作进行相应的改造,我们可以跟着沐神一起来看看InstructGPT,也算法对了解ChatGPT有个前期的知识储备。

instructGPT论文地址:

Training language models to follow instructions with human feedback

沐神视频链接:InstructGPT 论文精读【论文精读·48】

目录

摘要

介绍

数据集

模型

1)SFT

2)RM

RM损失函数

3)Reinforcement learning(RL)

RL损失函数


摘要

大型的语言模型效果虽然很好,但是会产生很多对用户不真实的,带有种族歧视的,甚至是有害的言论。而InstructGPT则是基于GPT3,在人工反馈的数据上训练了一版有监督的模型。效果是:1.3B 参数的 InstructGPT优于175B 参数的GPT-3,可以证明,通过人工反馈进行fine-tune是个有前景的方向。

介绍

instructGPT是如何工作的呢?

step1:

挑一些prompt,让标注者写答案,基于这部分数据使用GPT-3进行fine-tune,得到模型SFT(supervised fine-tune)

step2:

第一步可以得到一个还不错的模型,但是成本高,也无法穷尽所有答案,所以第二步则是由SFT模型对问题采样出几个答案(GPT-3得到词的概率,再通过beam search采样出4个答案),再由人工判断这几个答案的优劣,然后训练出一个奖励模型RM(reward model)

step3:

使用强化学习的框架优化得到输出的策略:使用RM模型计算reward,并用PPO(后面会讲)来更新策略。

数据集

 那么prompt是如何生成的呢?

1/Plain 让标注人员自己想---确保问题的多样性

2/Few-shot 让标注人员写指令,以及指令的答案。比如找出这段代码的错误。

3/User-based 标注人员根据用户让OpenAI回答的问题构建一部分prompt

用户问题分布:

基于这些数据,划分成了3个数据集:

1/ SFT,标注人员直接写答案,13k样本,API+人工标注

2/ RM,标注人员打分,33k样本,API+人工标注

【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人)

3/PPO,31k样本,只有API的结果

然后开放在OpenAI的playground中,让用户使用,再根据用户ID收集一部分的问题(一个用户最多200个)。用户可能会针对一个问题,用不同的句子提问,所以根据用户ID划分不同的数据集,避免一个用户的问题同时出现在多个数据集中,污染结果。

这样就可以持续对模型进行迭代。

模型

InstructGPT中一共用到了3个模型

1)SFT

SET的训练比较简单,就是标注数据fine-tune,13k样本较少,结果会过拟合,但这个模型只是为了初始化后面的模型,后续发现过拟合反而对后续的训练反而是有帮助的。

2)RM

的话,输入是prompt和回答,输出是一个reward。用前面的SFT的模型,去除掉最后的softmax层,转而使用一个线性投影层得到一个输出为1的标量,这个标量就可以视作是RM中的reward。

RM损失函数

是一个比较常见的pair-wise ranking loss。

 这里的K取的是9,每个prompt产出9个回答,9个回答两两匹配中生成36个pair对,在损失函数中,第一项的分母中除以pair对数,为了就是平衡掉不同K值带来的影响。

注意:OpenAI之前的工作中用的K=4,这里用的是K=9,好处有:

标注资源增长较少

        对于同一个问题,标注9个答案仅仅比4个多出了一些时间,因为节约了读题和理解题目的时间(我不是很认可啊,排序我觉得还挺麻烦的)

6倍的训练数据

        9个答案能产生36个pair对,而4个答案却只能产生6个pair对,训练数据量增加了6倍。

节约时间

      最费时间的是的计算,9个回答只需要计算9次,但是能产出36个标量,相当于节省了4倍的时间。

相当于是标注资源增加不多的情况下,训练数据量变多,同时时间没有增加很多。

同时,前作是4个里面选最好的一个,会有过拟合的情况,这里改为全排序的话,帮助缓解过拟合。

3)Reinforcement learning(RL)

在强化学习的框架内,随着模型的更新,每次采样到的y是不一样的,相当于是强化学习的环境变了,那相应的,获得的奖励也变了。

RL损失函数

就是强化学习学到的结果

就是SFT学习到的结果

第一项:对于每个prompt,丢进RL模型中产生一个y,使用第二步的RM模型来计算,这里的RM模型是模拟人类,对每个y给出一个实时反馈。

第二项:而RM训练时产生的y是来自于,为了减小更新模型导致的数据分布不一致,所以第二项中使用了KL散度,使得模型学出来的结果和SFT的不要相差太多

最后一项:GPT-3原始的目标函数,使得整个模型能生成更有效回答的情况下,其他任务的性能不要下降太多。

前2项就是ppo模型,加上最后一项就是ppo-ptx模型。

沐神给了些其他建议:

1.大模型模型不稳定的话,使用小模型

2.与其使用不稳定的RL,不如在数据集上多下点功夫,多找人标注些数据集,效果也未必不好。

(ps:论文中间还提到了如何挑选标注人员,这个真的蛮重要的,低质的标注人员真的非常拖累整个项目进程。。。这个还有专门的论文讲这个事情,感兴趣的可以自己搜搜看)

本文链接地址:https://www.jiuchutong.com/zhishi/298514.html 转载请保留说明!

上一篇:idea如何导入jar包(idea如何导入sql文件)

下一篇:Meta最新模型LLaMA细节与代码详解(meta最新模型)

  • EDM邮件营销之怎样快速打造自己的精准邮箱数据库?(发布edm营销邮件要注意哪些问题)

    EDM邮件营销之怎样快速打造自己的精准邮箱数据库?(发布edm营销邮件要注意哪些问题)

  • 苹果11的屏幕分辩率(苹果11的屏幕分辨率在哪)

    苹果11的屏幕分辩率(苹果11的屏幕分辨率在哪)

  • 两个蓝牙耳机不能同时使用(两个蓝牙耳机不同步播放怎么办)

    两个蓝牙耳机不能同时使用(两个蓝牙耳机不同步播放怎么办)

  • qq群可以最多多少人同时视频(qq群可以最多多少人)

    qq群可以最多多少人同时视频(qq群可以最多多少人)

  • 桥接路由器对网络有影响吗(桥接路由器对网速有影响吗?)

    桥接路由器对网络有影响吗(桥接路由器对网速有影响吗?)

  • 小米新机mix4发布时间(小米mix4发热严重官方回应)

    小米新机mix4发布时间(小米mix4发热严重官方回应)

  • 抖音号可以改几次(抖音号可以改几次30天内修改一次)

    抖音号可以改几次(抖音号可以改几次30天内修改一次)

  • realmex50是什么牌子手机(realmex50m是什么牌子)

    realmex50是什么牌子手机(realmex50m是什么牌子)

  • airpods2能用18w充电吗(airpods2能用20w充电头吗)

    airpods2能用18w充电吗(airpods2能用20w充电头吗)

  • 苹果手机来电时语音提示什么意思(苹果手机来电时语音提示怎么设置)

    苹果手机来电时语音提示什么意思(苹果手机来电时语音提示怎么设置)

  • qq音乐会员和付费音乐包区别(qq音乐会员和付费哪个好)

    qq音乐会员和付费音乐包区别(qq音乐会员和付费哪个好)

  • 抖音总音浪音会清零吗(抖音的音浪是每场结算吗)

    抖音总音浪音会清零吗(抖音的音浪是每场结算吗)

  • 充电器发烫是什么原因(充电器发烫是什么会爆炸吗)

    充电器发烫是什么原因(充电器发烫是什么会爆炸吗)

  • ios如何备份(ios如何备份单个app)

    ios如何备份(ios如何备份单个app)

  • eps格式手机能打开吗(eps文件可以用手机什么软件打开)

    eps格式手机能打开吗(eps文件可以用手机什么软件打开)

  • word文件乱码怎么修复(word文档乱码)

    word文件乱码怎么修复(word文档乱码)

  • 华为nave5i分屏怎么设置

    华为nave5i分屏怎么设置

  • 简述数字证书的内容(简述数字证书的生成过程)

    简述数字证书的内容(简述数字证书的生成过程)

  • 怎么设置别人打电话提示关机(怎么设置别人打电话提示空号)

    怎么设置别人打电话提示关机(怎么设置别人打电话提示空号)

  • 如何清理ios系统内存(怎么清理iphone系统)

    如何清理ios系统内存(怎么清理iphone系统)

  • 企业抖音号有什么功能(企业抖音号有什么坏处)

    企业抖音号有什么功能(企业抖音号有什么坏处)

  • vivoy3是安卓充电口吗(vivoy3的充电器是快充还是什么)

    vivoy3是安卓充电口吗(vivoy3的充电器是快充还是什么)

  • iphone顶部状态栏设置(iphone顶部状态栏不见了怎么恢复)

    iphone顶部状态栏设置(iphone顶部状态栏不见了怎么恢复)

  • 小米手机导航键设置(小米手机导航键在哪里)

    小米手机导航键设置(小米手机导航键在哪里)

  • 企业税申报的三种方式
  • 普票不能抵扣要坐在帐里吗
  • 政府补贴需要缴纳企业所得税吗
  • 个人独资 所得税
  • 兼职人员的差旅费怎么算
  • 以前年度损益科目核算业务
  • 增值税减免税款怎么算
  • 佣金可以入账吗
  • 负债的账面价值减去未来期间计算应纳税所得额
  • 个税系统如何升级到最新版本
  • 单位投资非盈利性组织怎样核算
  • 公允价值变动损益借贷方向
  • 与收益相关政府补助区分总额法净额法吗
  • 企业合并会计处理方法研究论文
  • 年终奖金怎么发放
  • 银行承兑汇票收费
  • 补发工资如何申请
  • 喷绘制作费的税率
  • 税控盘怎么进行升级
  • 投资协议需要注意细节
  • 固定资产进项发票怎么开
  • 固定资产和在建工程占所有者权益的占比
  • 应交税金增值税明细账怎么登记
  • 建筑业可以开电费发票吗
  • 小规模纳税人适用的增值税征收率
  • flash动画导出视频有水印吗
  • 支付借款利息怎么做账
  • win10开始菜单失效如何解决
  • 以报销形式发放的工资 劳动仲裁
  • 刚成立的公司有什么风险
  • 计算机系统结构第三版课后答案
  • 股票收益的计算公式
  • 代理的认定
  • 免税和免征增值税是一个意思么
  • 国家差旅费报销最新标准住宿
  • 收到投资款的会计科目怎么入账
  • html表格用法
  • win11安卓子系统教程
  • 收购企业如何看报表
  • 为什么要结转成本?
  • 用于app服务端的加速器
  • 金蝶k3开票
  • 长期投资减值准备属于什么会计科目
  • sql server 2008r2连接
  • access ms
  • 运输费抵扣进项税怎么算
  • 基础电信服务和增值电信服务税率
  • 公司收到银行发放贷款会计分录
  • 差旅费不抵扣
  • 酒吧会计如何做工作
  • 亏损企业研发费用必须加计扣除吗
  • 计提社保公积金的账务处理
  • 资产负债表里包括哪两个数据
  • 代理记账企业如何通过互联网创新发展
  • 账簿凭证管理的内容
  • mysql必知必会mobi
  • sql语句错误提示
  • sql中查询语句
  • sqlserver存储过程在哪
  • mysql用中文字段
  • 淘宝pc端打不开
  • 在windows下把绿色程序添加到鼠标右键的方法
  • windows xp无法更改密码
  • srvc32.exe - srvc32是什么进程
  • Win10用户狂喷微软:更新日志功能还没加上去
  • linux记录操作记录
  • 批处理文件的编写
  • unity gui教程
  • unity向量的规范化
  • jquery td
  • javascript代码规范
  • eclipse导入server
  • bootstrap入门
  • android的控件有哪些
  • 村财审计报告怎么写
  • 河北残疾人申报系统
  • 佛山市地方税务局与国家税务局合并没有
  • 两江新区两江大道航空航天产业园
  • 美丽重生李晓晓免费阅读
  • 扬州 税务
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设