位置: IT常识 - 正文

【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人)

编辑:rootadmin
【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT

推荐整理分享【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:李牧其人,诗人 李牧,李牧的视频,李牧的视频,李牧的视频,李牧自学,李牧的故事告诉了我们什么,李牧的故事告诉了我们什么,内容如对您有帮助,希望把文章链接给更多的朋友!

最近OpenAI公司的ChatGPT非常火爆,虽然正式的论文还没有发布,但是按照OpenAI一贯的工作思路,基于前期工作进行相应的改造,我们可以跟着沐神一起来看看InstructGPT,也算法对了解ChatGPT有个前期的知识储备。

instructGPT论文地址:

Training language models to follow instructions with human feedback

沐神视频链接:InstructGPT 论文精读【论文精读·48】

目录

摘要

介绍

数据集

模型

1)SFT

2)RM

RM损失函数

3)Reinforcement learning(RL)

RL损失函数


摘要

大型的语言模型效果虽然很好,但是会产生很多对用户不真实的,带有种族歧视的,甚至是有害的言论。而InstructGPT则是基于GPT3,在人工反馈的数据上训练了一版有监督的模型。效果是:1.3B 参数的 InstructGPT优于175B 参数的GPT-3,可以证明,通过人工反馈进行fine-tune是个有前景的方向。

介绍

instructGPT是如何工作的呢?

step1:

挑一些prompt,让标注者写答案,基于这部分数据使用GPT-3进行fine-tune,得到模型SFT(supervised fine-tune)

step2:

第一步可以得到一个还不错的模型,但是成本高,也无法穷尽所有答案,所以第二步则是由SFT模型对问题采样出几个答案(GPT-3得到词的概率,再通过beam search采样出4个答案),再由人工判断这几个答案的优劣,然后训练出一个奖励模型RM(reward model)

step3:

使用强化学习的框架优化得到输出的策略:使用RM模型计算reward,并用PPO(后面会讲)来更新策略。

数据集

 那么prompt是如何生成的呢?

1/Plain 让标注人员自己想---确保问题的多样性

2/Few-shot 让标注人员写指令,以及指令的答案。比如找出这段代码的错误。

3/User-based 标注人员根据用户让OpenAI回答的问题构建一部分prompt

用户问题分布:

基于这些数据,划分成了3个数据集:

1/ SFT,标注人员直接写答案,13k样本,API+人工标注

2/ RM,标注人员打分,33k样本,API+人工标注

【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人)

3/PPO,31k样本,只有API的结果

然后开放在OpenAI的playground中,让用户使用,再根据用户ID收集一部分的问题(一个用户最多200个)。用户可能会针对一个问题,用不同的句子提问,所以根据用户ID划分不同的数据集,避免一个用户的问题同时出现在多个数据集中,污染结果。

这样就可以持续对模型进行迭代。

模型

InstructGPT中一共用到了3个模型

1)SFT

SET的训练比较简单,就是标注数据fine-tune,13k样本较少,结果会过拟合,但这个模型只是为了初始化后面的模型,后续发现过拟合反而对后续的训练反而是有帮助的。

2)RM

的话,输入是prompt和回答,输出是一个reward。用前面的SFT的模型,去除掉最后的softmax层,转而使用一个线性投影层得到一个输出为1的标量,这个标量就可以视作是RM中的reward。

RM损失函数

是一个比较常见的pair-wise ranking loss。

 这里的K取的是9,每个prompt产出9个回答,9个回答两两匹配中生成36个pair对,在损失函数中,第一项的分母中除以pair对数,为了就是平衡掉不同K值带来的影响。

注意:OpenAI之前的工作中用的K=4,这里用的是K=9,好处有:

标注资源增长较少

        对于同一个问题,标注9个答案仅仅比4个多出了一些时间,因为节约了读题和理解题目的时间(我不是很认可啊,排序我觉得还挺麻烦的)

6倍的训练数据

        9个答案能产生36个pair对,而4个答案却只能产生6个pair对,训练数据量增加了6倍。

节约时间

      最费时间的是的计算,9个回答只需要计算9次,但是能产出36个标量,相当于节省了4倍的时间。

相当于是标注资源增加不多的情况下,训练数据量变多,同时时间没有增加很多。

同时,前作是4个里面选最好的一个,会有过拟合的情况,这里改为全排序的话,帮助缓解过拟合。

3)Reinforcement learning(RL)

在强化学习的框架内,随着模型的更新,每次采样到的y是不一样的,相当于是强化学习的环境变了,那相应的,获得的奖励也变了。

RL损失函数

就是强化学习学到的结果

就是SFT学习到的结果

第一项:对于每个prompt,丢进RL模型中产生一个y,使用第二步的RM模型来计算,这里的RM模型是模拟人类,对每个y给出一个实时反馈。

第二项:而RM训练时产生的y是来自于,为了减小更新模型导致的数据分布不一致,所以第二项中使用了KL散度,使得模型学出来的结果和SFT的不要相差太多

最后一项:GPT-3原始的目标函数,使得整个模型能生成更有效回答的情况下,其他任务的性能不要下降太多。

前2项就是ppo模型,加上最后一项就是ppo-ptx模型。

沐神给了些其他建议:

1.大模型模型不稳定的话,使用小模型

2.与其使用不稳定的RL,不如在数据集上多下点功夫,多找人标注些数据集,效果也未必不好。

(ps:论文中间还提到了如何挑选标注人员,这个真的蛮重要的,低质的标注人员真的非常拖累整个项目进程。。。这个还有专门的论文讲这个事情,感兴趣的可以自己搜搜看)

本文链接地址:https://www.jiuchutong.com/zhishi/298514.html 转载请保留说明!

上一篇:idea如何导入jar包(idea如何导入sql文件)

下一篇:Meta最新模型LLaMA细节与代码详解(meta最新模型)

  • flash helper service卸载了会有影响吗(Flash Helper Service无法启动错误1053)

    flash helper service卸载了会有影响吗(Flash Helper Service无法启动错误1053)

  • 华为nova5pro怎么升级emui10(华为nova5pro怎么看电池寿命)

    华为nova5pro怎么升级emui10(华为nova5pro怎么看电池寿命)

  • 联想电脑黑屏只有箭头(联想电脑黑屏只剩下鼠标光标)

    联想电脑黑屏只有箭头(联想电脑黑屏只剩下鼠标光标)

  • 收付款怎么加好友(收款方如何加付款方微信)

    收付款怎么加好友(收款方如何加付款方微信)

  • 分辨率1920x1080什么意思(分辨率1920x1080什么手机)

    分辨率1920x1080什么意思(分辨率1920x1080什么手机)

  • 苹果拍照没有声音(苹果手机拍照时无声音)

    苹果拍照没有声音(苹果手机拍照时无声音)

  • 乐语通信是什么东西(乐语通信官网)

    乐语通信是什么东西(乐语通信官网)

  • 微信从什么时候开始普及的(微信从什么时候开始可以改微信号)

    微信从什么时候开始普及的(微信从什么时候开始可以改微信号)

  • 蜻蜓fm下载的文件在哪(蜻蜓fm下载的文件在哪个文件夹)

    蜻蜓fm下载的文件在哪(蜻蜓fm下载的文件在哪个文件夹)

  • ios12怎样分屏(iphone的ios12分屏功能视频教程)

    ios12怎样分屏(iphone的ios12分屏功能视频教程)

  • 苹果11为什么会自动关机(苹果11为什么会突然失灵)

    苹果11为什么会自动关机(苹果11为什么会突然失灵)

  • 天猫小黑盒的加入规则(天猫小黑盒在哪儿)

    天猫小黑盒的加入规则(天猫小黑盒在哪儿)

  • 数据加密的基本功能(数据加密的基本过程就是对原来)

    数据加密的基本功能(数据加密的基本过程就是对原来)

  • 一加7手机是什么品牌(一加7手机是什么型号)

    一加7手机是什么品牌(一加7手机是什么型号)

  • vue可以制作长视频吗(vue怎么做长视频)

    vue可以制作长视频吗(vue怎么做长视频)

  • 拼多多我的评价在哪里(拼多多我的评价怎么删除不了)

    拼多多我的评价在哪里(拼多多我的评价怎么删除不了)

  • 快手号搜不出来怎么回事(为什么搜快手号搜不出来)

    快手号搜不出来怎么回事(为什么搜快手号搜不出来)

  • 怎样设置手机自动关机和开机时间(怎样设置手机自动接听电话)

    怎样设置手机自动关机和开机时间(怎样设置手机自动接听电话)

  • r9s怎么截屏(r9如何截屏)

    r9s怎么截屏(r9如何截屏)

  • 丝瓜视频怎么开通vip(丝瓜视频新手入门教程)

    丝瓜视频怎么开通vip(丝瓜视频新手入门教程)

  • oppoa9视频怎么美颜(oppo手机的视频美颜功能在哪里a9)

    oppoa9视频怎么美颜(oppo手机的视频美颜功能在哪里a9)

  • word图片设置透明色(word图片设置透明色不干净)

    word图片设置透明色(word图片设置透明色不干净)

  • 记录Chrome插件从V2版本升级到V3版本的过程中遇到的问题(谷歌浏览器历史记录插件)

    记录Chrome插件从V2版本升级到V3版本的过程中遇到的问题(谷歌浏览器历史记录插件)

  • Promise(promise歌曲)

    Promise(promise歌曲)

  • 零售价是含税价还是不含税价
  • 出口退税进项税额转出怎么申报
  • 出口消费税税率
  • 金税四期什么时候执行
  • 公司购买银行理财产品怎么做账
  • 新公司第一年要做亏
  • 发票跨季度可以用吗
  • 红字发票抵扣联丢了怎么办
  • 验钞机怎么做账
  • 2019一般纳税人新政策
  • 公司代垫个税会计分录
  • 招待客人的场景图
  • 凭证单据的整理
  • 支付劳务收入怎么做账
  • 出售全资子公司合并报表怎么做
  • 调拨入库的固定资产是否缴税?
  • 长期股权投资的明细科目有哪些
  • 非股东可以投资项目吗
  • 转账支票必须对着开发票单位吗?
  • 已出账但未认证的抵扣联怎么办?
  • 增值税和消费税的区别和联系
  • 购金蝶软件记什么科目
  • 如何填制记账凭证总结
  • 预收账款预提费用
  • 财政拨款税务处理方法
  • 租金怎么来计算个税
  • 采购不签合同
  • 工会经费会计分局
  • win8的无线设置
  • 新会计规定工会会计制度
  • 会计科目暂存款是什么意思
  • 系统之家一键重装系统步骤
  • 购进的包装物怎么入库
  • 若依框架好用吗
  • executor进程
  • kkfileview启动组件失败
  • php中自定义函数
  • 交易性金融资产包括哪些项目
  • 应交增值税专栏下的增值税项目有哪些?
  • 被白雪覆盖的彩虹歌词
  • 小公司不交社保违法吗
  • 发票章需要注销吗
  • php怎么写网页
  • 基于javaweb的图书馆管理系统
  • 投资担保公司的钱都去哪了
  • 政府补贴什么时候开始的
  • element表格表单
  • phpcms插件
  • mongodb查询表数据
  • 织梦怎么调用当前栏目下的文章
  • 开公司抬头的发票需要提供什么
  • sql server数据库异地备份
  • PostgreSQL教程(九):事物隔离介绍
  • 企业所得税营业外收入
  • 小规模纳税人是季度报税吗
  • 同一个单位能否交五险
  • 充值优惠怎么写
  • 支付金额和实付金额的区别
  • 一般纳税人外购货物发生非正常损失,不包括
  • 以前年度调增的收入下一年如何申报
  • bios密码忘记了取电池不管用
  • xp系统奇怪
  • 大白菜U盘安装原版XP系统教程精细版
  • win7系统重装后没声音
  • win xp 虚拟内存
  • win7打不开网页,可以重装系统吗
  • win10老是弹提示
  • js怎么用
  • jquery1
  • python cx_Oracle的基础使用方法(连接和增删改查)
  • python静态函数
  • unity中ngui
  • centos7如何安装
  • 月收入不足1000
  • 法国进囗红酒
  • 调研基本情况介绍范文
  • 北京地税局报税流程
  • 设备抵扣增值税
  • 营改增之前和之后
  • 河北省餐饮经营单位安全生产规定
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设