位置: IT常识 - 正文

【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人)

编辑:rootadmin
【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT

推荐整理分享【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:李牧其人,诗人 李牧,李牧的视频,李牧的视频,李牧的视频,李牧自学,李牧的故事告诉了我们什么,李牧的故事告诉了我们什么,内容如对您有帮助,希望把文章链接给更多的朋友!

最近OpenAI公司的ChatGPT非常火爆,虽然正式的论文还没有发布,但是按照OpenAI一贯的工作思路,基于前期工作进行相应的改造,我们可以跟着沐神一起来看看InstructGPT,也算法对了解ChatGPT有个前期的知识储备。

instructGPT论文地址:

Training language models to follow instructions with human feedback

沐神视频链接:InstructGPT 论文精读【论文精读·48】

目录

摘要

介绍

数据集

模型

1)SFT

2)RM

RM损失函数

3)Reinforcement learning(RL)

RL损失函数


摘要

大型的语言模型效果虽然很好,但是会产生很多对用户不真实的,带有种族歧视的,甚至是有害的言论。而InstructGPT则是基于GPT3,在人工反馈的数据上训练了一版有监督的模型。效果是:1.3B 参数的 InstructGPT优于175B 参数的GPT-3,可以证明,通过人工反馈进行fine-tune是个有前景的方向。

介绍

instructGPT是如何工作的呢?

step1:

挑一些prompt,让标注者写答案,基于这部分数据使用GPT-3进行fine-tune,得到模型SFT(supervised fine-tune)

step2:

第一步可以得到一个还不错的模型,但是成本高,也无法穷尽所有答案,所以第二步则是由SFT模型对问题采样出几个答案(GPT-3得到词的概率,再通过beam search采样出4个答案),再由人工判断这几个答案的优劣,然后训练出一个奖励模型RM(reward model)

step3:

使用强化学习的框架优化得到输出的策略:使用RM模型计算reward,并用PPO(后面会讲)来更新策略。

数据集

 那么prompt是如何生成的呢?

1/Plain 让标注人员自己想---确保问题的多样性

2/Few-shot 让标注人员写指令,以及指令的答案。比如找出这段代码的错误。

3/User-based 标注人员根据用户让OpenAI回答的问题构建一部分prompt

用户问题分布:

基于这些数据,划分成了3个数据集:

1/ SFT,标注人员直接写答案,13k样本,API+人工标注

2/ RM,标注人员打分,33k样本,API+人工标注

【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人)

3/PPO,31k样本,只有API的结果

然后开放在OpenAI的playground中,让用户使用,再根据用户ID收集一部分的问题(一个用户最多200个)。用户可能会针对一个问题,用不同的句子提问,所以根据用户ID划分不同的数据集,避免一个用户的问题同时出现在多个数据集中,污染结果。

这样就可以持续对模型进行迭代。

模型

InstructGPT中一共用到了3个模型

1)SFT

SET的训练比较简单,就是标注数据fine-tune,13k样本较少,结果会过拟合,但这个模型只是为了初始化后面的模型,后续发现过拟合反而对后续的训练反而是有帮助的。

2)RM

的话,输入是prompt和回答,输出是一个reward。用前面的SFT的模型,去除掉最后的softmax层,转而使用一个线性投影层得到一个输出为1的标量,这个标量就可以视作是RM中的reward。

RM损失函数

是一个比较常见的pair-wise ranking loss。

 这里的K取的是9,每个prompt产出9个回答,9个回答两两匹配中生成36个pair对,在损失函数中,第一项的分母中除以pair对数,为了就是平衡掉不同K值带来的影响。

注意:OpenAI之前的工作中用的K=4,这里用的是K=9,好处有:

标注资源增长较少

        对于同一个问题,标注9个答案仅仅比4个多出了一些时间,因为节约了读题和理解题目的时间(我不是很认可啊,排序我觉得还挺麻烦的)

6倍的训练数据

        9个答案能产生36个pair对,而4个答案却只能产生6个pair对,训练数据量增加了6倍。

节约时间

      最费时间的是的计算,9个回答只需要计算9次,但是能产出36个标量,相当于节省了4倍的时间。

相当于是标注资源增加不多的情况下,训练数据量变多,同时时间没有增加很多。

同时,前作是4个里面选最好的一个,会有过拟合的情况,这里改为全排序的话,帮助缓解过拟合。

3)Reinforcement learning(RL)

在强化学习的框架内,随着模型的更新,每次采样到的y是不一样的,相当于是强化学习的环境变了,那相应的,获得的奖励也变了。

RL损失函数

就是强化学习学到的结果

就是SFT学习到的结果

第一项:对于每个prompt,丢进RL模型中产生一个y,使用第二步的RM模型来计算,这里的RM模型是模拟人类,对每个y给出一个实时反馈。

第二项:而RM训练时产生的y是来自于,为了减小更新模型导致的数据分布不一致,所以第二项中使用了KL散度,使得模型学出来的结果和SFT的不要相差太多

最后一项:GPT-3原始的目标函数,使得整个模型能生成更有效回答的情况下,其他任务的性能不要下降太多。

前2项就是ppo模型,加上最后一项就是ppo-ptx模型。

沐神给了些其他建议:

1.大模型模型不稳定的话,使用小模型

2.与其使用不稳定的RL,不如在数据集上多下点功夫,多找人标注些数据集,效果也未必不好。

(ps:论文中间还提到了如何挑选标注人员,这个真的蛮重要的,低质的标注人员真的非常拖累整个项目进程。。。这个还有专门的论文讲这个事情,感兴趣的可以自己搜搜看)

本文链接地址:https://www.jiuchutong.com/zhishi/298514.html 转载请保留说明!

上一篇:idea如何导入jar包(idea如何导入sql文件)

下一篇:Meta最新模型LLaMA细节与代码详解(meta最新模型)

  • 苹果手机怎么设置屏保(苹果手机怎么设置来电闪光灯闪烁)

    苹果手机怎么设置屏保(苹果手机怎么设置来电闪光灯闪烁)

  • 荣耀20Pro怎么设置分屏(荣耀20Pro怎么设置桌面插件)

    荣耀20Pro怎么设置分屏(荣耀20Pro怎么设置桌面插件)

  • 网易云听一小时歌用多少流量(网易云听一天歌需要多少流量)

    网易云听一小时歌用多少流量(网易云听一天歌需要多少流量)

  • qq解除关系(qq解除关系或者添加好友是什么)

    qq解除关系(qq解除关系或者添加好友是什么)

  • 淘宝发货了还能申请退款么(淘宝发货了还能添加包裹吗)

    淘宝发货了还能申请退款么(淘宝发货了还能添加包裹吗)

  • 怎么清朋友圈发的东西(如何清理朋友圈里朋友发的内容和图片)

    怎么清朋友圈发的东西(如何清理朋友圈里朋友发的内容和图片)

  • 苹果手机测量长度的功能在哪里(苹果手机测量长度功能)

    苹果手机测量长度的功能在哪里(苹果手机测量长度功能)

  • 操作系统的作用是(物联网操作系统的作用)

    操作系统的作用是(物联网操作系统的作用)

  • 苹果手机创建id出生日期无效怎么回事(苹果手机创建id电子邮件怎么填)

    苹果手机创建id出生日期无效怎么回事(苹果手机创建id电子邮件怎么填)

  • 笔记本电脑可以一直充电吗(笔记本电脑可以外接键盘使用吗)

    笔记本电脑可以一直充电吗(笔记本电脑可以外接键盘使用吗)

  • vivoy67有什么特殊功能(vivoy67怎么样值得买吗)

    vivoy67有什么特殊功能(vivoy67怎么样值得买吗)

  • wps删除无尽空白列(wps怎么删除无尽空白格)

    wps删除无尽空白列(wps怎么删除无尽空白格)

  • vivo怎么编制便签(vivo手机便签怎么编辑)

    vivo怎么编制便签(vivo手机便签怎么编辑)

  • 兼容机的优缺点(兼容机的概念是谁提出来的)

    兼容机的优缺点(兼容机的概念是谁提出来的)

  • 多媒体数据最终以什么形式存在(多媒体数据最终来源于)

    多媒体数据最终以什么形式存在(多媒体数据最终来源于)

  • 苹果手表怎么看是国行(苹果手表怎么看电量)

    苹果手表怎么看是国行(苹果手表怎么看电量)

  • 三星s10手电筒在哪里调亮度

    三星s10手电筒在哪里调亮度

  • 充电宝押金什么时候退(充电宝押金什么时候返)

    充电宝押金什么时候退(充电宝押金什么时候返)

  • 打开word发送错误报告如何办(打开word发送错误报告怎么办)

    打开word发送错误报告如何办(打开word发送错误报告怎么办)

  • 美图秀秀怎么删作品(美图秀秀怎么删除视频前面部分)

    美图秀秀怎么删作品(美图秀秀怎么删除视频前面部分)

  • 苹果xr怎么清理后台(苹果xr怎么清理内存空间)

    苹果xr怎么清理后台(苹果xr怎么清理内存空间)

  • 情感的特点(情绪情感的特点)

    情感的特点(情绪情感的特点)

  • 普尔曼附近的帕卢斯一辆拖拉机在耕作时扬起尘土,华盛顿州 (© Ben Herndon/Tandem Stills + Motion)(普尔曼多少钱)

    普尔曼附近的帕卢斯一辆拖拉机在耕作时扬起尘土,华盛顿州 (© Ben Herndon/Tandem Stills + Motion)(普尔曼多少钱)

  • 【JavaScript】手撕前端面试题:对象参数浅拷贝 | 简易深拷贝 | 完整深拷贝(javascript手机版)

    【JavaScript】手撕前端面试题:对象参数浅拷贝 | 简易深拷贝 | 完整深拷贝(javascript手机版)

  • Linux内核学习笔记——页表的那些事。(《linux内核分析》)

    Linux内核学习笔记——页表的那些事。(《linux内核分析》)

  • 【WEB前端进阶之路】 HTML 全路线学习知识点梳理(中)(web 前端)

    【WEB前端进阶之路】 HTML 全路线学习知识点梳理(中)(web 前端)

  • 税收收入包括哪些形式
  • 外轮供应公司远洋运输供应公司的退税申报?
  • 房地产销售商品房税率
  • 金蝶入账流程
  • 长期待摊一般摊几年
  • 备用金支出怎么记账
  • 按月计提短期借款利息12000元
  • 收到上级主管部门拨入的经费
  • 外聘人员劳务费入什么科目
  • 劳务公司外地劳务是否需要预缴税款及会计处理
  • 应交税金的负数金额要怎么调整
  • 公司银行社保代缴怎么交
  • 补充医疗保险 个人账户可以报销吗
  • 给不是本单位的人开证明
  • 办公费税前扣除标准2022最新
  • 异地承包工程预缴什么税?
  • 工程材料发票备注栏未备注可以进成本吗
  • 建安行业核定征收企业所得税
  • 蔬菜批发公司销售蔬菜是否免税
  • 代开专票退票流程及说明
  • 应交税费未交增值税怎么计算
  • 盈余公积什么时候调整
  • 调整成本调整单分录
  • 现金流量表的余额和资产负债表货币资金是不是一定相等
  • 现金支付奖金
  • 钱已确定收不回怎么办
  • 非营利组织一般纳税人会计准则
  • win11插耳机没声音
  • 电脑运行时cpu温度
  • 库存商品如何结转生产成本
  • PHP:curl_strerror()的用法_cURL函数
  • 国内保理业务是担保类中间业务吗
  • 会计差错及账项调整
  • php7数据库操作
  • 利润表项目本期怎么算
  • php 微信公众号
  • 长期借款利息的账务处理涉及的会计科目有
  • php读取php文件内容
  • torch.cuda.is_available()
  • Vue3通透教程【二】更高效的构建工具—Vite
  • vue使用技巧
  • dhclient卡住
  • 营销策划费会计分录
  • 驱动开发:内核是什么
  • 小规模纳税人进项发票怎么做账
  • 应收账款红冲什么意思
  • 2020年维修基金怎么交
  • 应发工资包括岗位工资吗
  • 普通发票上的银行账户有规定吗
  • sql server s
  • 破产企业资产拍卖后,管理人仅办理产权登记未交付房屋
  • 普票和专票的区别对比
  • 餐费计入哪个科目合理避税
  • 应付账款可以用现金支付吗
  • 融资手续费计入长期待摊
  • sql排序分组
  • win mysql
  • MySQL利用不同的流程语句输出1到200的和
  • win102009发布日期
  • win7如何设置共享
  • linux系统中安装软件的批处理文件
  • win10系统中怎么删除日志文件
  • windows 8改windows 7
  • win7系统盘扩大
  • 打开应用通知栏
  • 主流安卓开发
  • linux中文件权限读写执行的三种标志符号依次是
  • 如何短时间内学会打字
  • python怎么样学
  • 自动释放池原理,本质
  • Unity3D脚本对预制件无效
  • 安卓手机微信取消窗口化
  • easyui表格
  • js实现聊天框
  • 举例说明json数据格式的语法
  • apk反编译去广告教程
  • 税务总局副局长饶
  • 佛山顺德怎么坐地铁到广州
  • 上饶二手房契税
  • 土地增值税发票加计扣除5%年限
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设