位置: IT常识 - 正文

【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人)

编辑:rootadmin
【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT

推荐整理分享【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:李牧其人,诗人 李牧,李牧的视频,李牧的视频,李牧的视频,李牧自学,李牧的故事告诉了我们什么,李牧的故事告诉了我们什么,内容如对您有帮助,希望把文章链接给更多的朋友!

最近OpenAI公司的ChatGPT非常火爆,虽然正式的论文还没有发布,但是按照OpenAI一贯的工作思路,基于前期工作进行相应的改造,我们可以跟着沐神一起来看看InstructGPT,也算法对了解ChatGPT有个前期的知识储备。

instructGPT论文地址:

Training language models to follow instructions with human feedback

沐神视频链接:InstructGPT 论文精读【论文精读·48】

目录

摘要

介绍

数据集

模型

1)SFT

2)RM

RM损失函数

3)Reinforcement learning(RL)

RL损失函数


摘要

大型的语言模型效果虽然很好,但是会产生很多对用户不真实的,带有种族歧视的,甚至是有害的言论。而InstructGPT则是基于GPT3,在人工反馈的数据上训练了一版有监督的模型。效果是:1.3B 参数的 InstructGPT优于175B 参数的GPT-3,可以证明,通过人工反馈进行fine-tune是个有前景的方向。

介绍

instructGPT是如何工作的呢?

step1:

挑一些prompt,让标注者写答案,基于这部分数据使用GPT-3进行fine-tune,得到模型SFT(supervised fine-tune)

step2:

第一步可以得到一个还不错的模型,但是成本高,也无法穷尽所有答案,所以第二步则是由SFT模型对问题采样出几个答案(GPT-3得到词的概率,再通过beam search采样出4个答案),再由人工判断这几个答案的优劣,然后训练出一个奖励模型RM(reward model)

step3:

使用强化学习的框架优化得到输出的策略:使用RM模型计算reward,并用PPO(后面会讲)来更新策略。

数据集

 那么prompt是如何生成的呢?

1/Plain 让标注人员自己想---确保问题的多样性

2/Few-shot 让标注人员写指令,以及指令的答案。比如找出这段代码的错误。

3/User-based 标注人员根据用户让OpenAI回答的问题构建一部分prompt

用户问题分布:

基于这些数据,划分成了3个数据集:

1/ SFT,标注人员直接写答案,13k样本,API+人工标注

2/ RM,标注人员打分,33k样本,API+人工标注

【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人)

3/PPO,31k样本,只有API的结果

然后开放在OpenAI的playground中,让用户使用,再根据用户ID收集一部分的问题(一个用户最多200个)。用户可能会针对一个问题,用不同的句子提问,所以根据用户ID划分不同的数据集,避免一个用户的问题同时出现在多个数据集中,污染结果。

这样就可以持续对模型进行迭代。

模型

InstructGPT中一共用到了3个模型

1)SFT

SET的训练比较简单,就是标注数据fine-tune,13k样本较少,结果会过拟合,但这个模型只是为了初始化后面的模型,后续发现过拟合反而对后续的训练反而是有帮助的。

2)RM

的话,输入是prompt和回答,输出是一个reward。用前面的SFT的模型,去除掉最后的softmax层,转而使用一个线性投影层得到一个输出为1的标量,这个标量就可以视作是RM中的reward。

RM损失函数

是一个比较常见的pair-wise ranking loss。

 这里的K取的是9,每个prompt产出9个回答,9个回答两两匹配中生成36个pair对,在损失函数中,第一项的分母中除以pair对数,为了就是平衡掉不同K值带来的影响。

注意:OpenAI之前的工作中用的K=4,这里用的是K=9,好处有:

标注资源增长较少

        对于同一个问题,标注9个答案仅仅比4个多出了一些时间,因为节约了读题和理解题目的时间(我不是很认可啊,排序我觉得还挺麻烦的)

6倍的训练数据

        9个答案能产生36个pair对,而4个答案却只能产生6个pair对,训练数据量增加了6倍。

节约时间

      最费时间的是的计算,9个回答只需要计算9次,但是能产出36个标量,相当于节省了4倍的时间。

相当于是标注资源增加不多的情况下,训练数据量变多,同时时间没有增加很多。

同时,前作是4个里面选最好的一个,会有过拟合的情况,这里改为全排序的话,帮助缓解过拟合。

3)Reinforcement learning(RL)

在强化学习的框架内,随着模型的更新,每次采样到的y是不一样的,相当于是强化学习的环境变了,那相应的,获得的奖励也变了。

RL损失函数

就是强化学习学到的结果

就是SFT学习到的结果

第一项:对于每个prompt,丢进RL模型中产生一个y,使用第二步的RM模型来计算,这里的RM模型是模拟人类,对每个y给出一个实时反馈。

第二项:而RM训练时产生的y是来自于,为了减小更新模型导致的数据分布不一致,所以第二项中使用了KL散度,使得模型学出来的结果和SFT的不要相差太多

最后一项:GPT-3原始的目标函数,使得整个模型能生成更有效回答的情况下,其他任务的性能不要下降太多。

前2项就是ppo模型,加上最后一项就是ppo-ptx模型。

沐神给了些其他建议:

1.大模型模型不稳定的话,使用小模型

2.与其使用不稳定的RL,不如在数据集上多下点功夫,多找人标注些数据集,效果也未必不好。

(ps:论文中间还提到了如何挑选标注人员,这个真的蛮重要的,低质的标注人员真的非常拖累整个项目进程。。。这个还有专门的论文讲这个事情,感兴趣的可以自己搜搜看)

本文链接地址:https://www.jiuchutong.com/zhishi/298514.html 转载请保留说明!

上一篇:idea如何导入jar包(idea如何导入sql文件)

下一篇:Meta最新模型LLaMA细节与代码详解(meta最新模型)

  • 微信可以查行程码吗(微信查行程轨迹记录)

    微信可以查行程码吗(微信查行程轨迹记录)

  • redmi手表怎么添加微信支付(redmi手表怎么添加门禁卡?)

    redmi手表怎么添加微信支付(redmi手表怎么添加门禁卡?)

  • 华为手机如何设置夜间模式(华为手机如何设置屏幕时间)

    华为手机如何设置夜间模式(华为手机如何设置屏幕时间)

  • 墨鱼阅读可以退款吗(墨鱼阅读不能用了吗)

    墨鱼阅读可以退款吗(墨鱼阅读不能用了吗)

  • 抖音可以看访客记录吗(抖音可以看访客次数吗)

    抖音可以看访客记录吗(抖音可以看访客次数吗)

  • 华为mate30pro截屏怎么设置(华为mate30pro截屏录音怎么弄)

    华为mate30pro截屏怎么设置(华为mate30pro截屏录音怎么弄)

  • ppt可以插入视频吗

    ppt可以插入视频吗

  • oppo手机抢红包提示音怎么设置(OPPO手机抢红包反应灵敏度最快的是哪款?)

    oppo手机抢红包提示音怎么设置(OPPO手机抢红包反应灵敏度最快的是哪款?)

  • ipad ipadair ipadpro的区别(ipad ipadair ipadpro的区别 学生党)

    ipad ipadair ipadpro的区别(ipad ipadair ipadpro的区别 学生党)

  • 抖音疑似搬运如何解决(抖音搬运如何不被发现)

    抖音疑似搬运如何解决(抖音搬运如何不被发现)

  • 易班用户名和密码是什么(易班账号的初始密码)

    易班用户名和密码是什么(易班账号的初始密码)

  • 华为一碰传怎么用不了(华为一碰传怎么传照片)

    华为一碰传怎么用不了(华为一碰传怎么传照片)

  • 手机换外屏需要拆机吗(手机换外屏需要拆后盖吗)

    手机换外屏需要拆机吗(手机换外屏需要拆后盖吗)

  • 手机开发版和稳定版的区别(手机开发版和稳健版区别)

    手机开发版和稳定版的区别(手机开发版和稳健版区别)

  • iphone7支持5v2a充电吗(iphone7支持5v2.1a充电吗)

    iphone7支持5v2a充电吗(iphone7支持5v2.1a充电吗)

  • 微信自动扣费怎么开启(微信自动扣费怎么申请退款)

    微信自动扣费怎么开启(微信自动扣费怎么申请退款)

  • 新手机背后的进网许可可以撕掉吗(新手机背后的进网许可怎么撕)

    新手机背后的进网许可可以撕掉吗(新手机背后的进网许可怎么撕)

  • vivo关闭全局搜索(关闭vivo全局搜索)

    vivo关闭全局搜索(关闭vivo全局搜索)

  • 团子商城红包怎么用(团子最新作品会员)

    团子商城红包怎么用(团子最新作品会员)

  • 星号是除还是乘(星号是乘吗)

    星号是除还是乘(星号是乘吗)

  • 华为mate20呼叫转移在哪里(华为mate20呼叫转移怎么设置)

    华为mate20呼叫转移在哪里(华为mate20呼叫转移怎么设置)

  • 手机迅雷敏感资源无法加速怎么办

    手机迅雷敏感资源无法加速怎么办

  • 深入学习 JavaScript 转译器 Babel ,AST还原混淆代码(java deep learning)

    深入学习 JavaScript 转译器 Babel ,AST还原混淆代码(java deep learning)

  • 论文学习——Tune-A-Video(论文如何学)

    论文学习——Tune-A-Video(论文如何学)

  • Vue中的MVVM模型(通俗易懂版)(vuemvvm模式)

    Vue中的MVVM模型(通俗易懂版)(vuemvvm模式)

  • Python【二手车价格预测案例】数据挖掘(二手车价格网站)

    Python【二手车价格预测案例】数据挖掘(二手车价格网站)

  • 小规模计提增值税
  • 应收账款可以挂其他应收款吗
  • 自然人个税申报错误怎么更改?
  • 增值税是如何计提的
  • 个体注销了名下的车辆
  • 跨年的费用怎么调整
  • 营业执照年审后日期会变吗
  • 现金抵用券购买怎么用
  • 对外支付佣金代扣代缴
  • 预交电费有发票吗
  • 维修费增值税怎么开
  • 增值税缴纳计入成本吗
  • 计提税金和缴纳税金的会计分录
  • 公司招投标卖标书的收入款财务作什么科目?
  • 半年报利润分配是否需要审计?
  • 支付销售产品的保险费计入什么科目
  • 预缴所得税多交了汇算时可以抵扣下一年的所得税吗
  • 没有税控盘怎么开票
  • el-cascader动态加载多级
  • mac怎么更换默认打开方式
  • 固定资产未开发票怎么入账
  • mysql-relay-bin
  • PHP:pg_select()的用法_PostgreSQL函数
  • smart控制技术
  • 购销合同印花税税率表
  • 园林绿化企业设立的条件和程序
  • Laravel 5.4向IoC容器中添加自定义类的方法示例
  • 日本长野县在哪
  • 在暴风雪中翻译
  • 附加税退税申请理由模板
  • 青龙面板库怎么用
  • 被黑客攻击
  • ps位图矢量化
  • 支付银行贷款利息现金流量表填哪里
  • 推广费属于什么大类
  • 现金折扣什么时候冲减收入
  • python怎么过滤多余空格
  • sql语句优化实例
  • mongodb快速入门
  • 金融企业往来支出科目属于什么科目
  • 进口增值税是什么意思
  • sql2005安装方法
  • 个人所得税专项附加扣除标准一览表
  • 发出商品的增值税
  • 预收账款退款的会计处理
  • 不允许抵扣进项税额的是
  • 企业年金个税怎么计算
  • 小企业营业外支出坏账损失
  • 机票的电子发票可以报销吗
  • 法人章和财务章尺寸
  • 信托保障基金会返还吗
  • 业务招待费包含样品费吗
  • 企业支付宝买东西怎么买
  • 账面价值,账面净值,账面余额三者的区别
  • 企业应收票据
  • MySQL创建数据库字符集和排序规则
  • session几种存储方式
  • mysql 5.7.18 zip版安装配置方法图文教程(win7)
  • 微软停止更新win7
  • linux安装rpm软件包的命令
  • putty ssh tunnel
  • win10系统应用
  • ubuntu20怎么连接蓝牙鼠标
  • 怎么用macbook
  • jetcar.exe - jetcar是什么进程 有什么作用
  • 红石数据
  • win8系统怎样
  • cocos2dx视频教程
  • uiview和calayer关系
  • 什么是四个菜
  • python笛卡尔积
  • js动态给table添加行
  • recyclebinh
  • python生成docx
  • 菜鸟 javascript
  • jQuery xml字符串的解析、读取及查找方法
  • javascript面向对象 第三方类库
  • python中文分词库
  • 湖北省电子税务局新版登录操作简介
  • 社保信息怎么补全
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设