位置: IT常识 - 正文

【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人)

编辑:rootadmin
【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT

推荐整理分享【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:李牧其人,诗人 李牧,李牧的视频,李牧的视频,李牧的视频,李牧自学,李牧的故事告诉了我们什么,李牧的故事告诉了我们什么,内容如对您有帮助,希望把文章链接给更多的朋友!

最近OpenAI公司的ChatGPT非常火爆,虽然正式的论文还没有发布,但是按照OpenAI一贯的工作思路,基于前期工作进行相应的改造,我们可以跟着沐神一起来看看InstructGPT,也算法对了解ChatGPT有个前期的知识储备。

instructGPT论文地址:

Training language models to follow instructions with human feedback

沐神视频链接:InstructGPT 论文精读【论文精读·48】

目录

摘要

介绍

数据集

模型

1)SFT

2)RM

RM损失函数

3)Reinforcement learning(RL)

RL损失函数


摘要

大型的语言模型效果虽然很好,但是会产生很多对用户不真实的,带有种族歧视的,甚至是有害的言论。而InstructGPT则是基于GPT3,在人工反馈的数据上训练了一版有监督的模型。效果是:1.3B 参数的 InstructGPT优于175B 参数的GPT-3,可以证明,通过人工反馈进行fine-tune是个有前景的方向。

介绍

instructGPT是如何工作的呢?

step1:

挑一些prompt,让标注者写答案,基于这部分数据使用GPT-3进行fine-tune,得到模型SFT(supervised fine-tune)

step2:

第一步可以得到一个还不错的模型,但是成本高,也无法穷尽所有答案,所以第二步则是由SFT模型对问题采样出几个答案(GPT-3得到词的概率,再通过beam search采样出4个答案),再由人工判断这几个答案的优劣,然后训练出一个奖励模型RM(reward model)

step3:

使用强化学习的框架优化得到输出的策略:使用RM模型计算reward,并用PPO(后面会讲)来更新策略。

数据集

 那么prompt是如何生成的呢?

1/Plain 让标注人员自己想---确保问题的多样性

2/Few-shot 让标注人员写指令,以及指令的答案。比如找出这段代码的错误。

3/User-based 标注人员根据用户让OpenAI回答的问题构建一部分prompt

用户问题分布:

基于这些数据,划分成了3个数据集:

1/ SFT,标注人员直接写答案,13k样本,API+人工标注

2/ RM,标注人员打分,33k样本,API+人工标注

【跟李牧学AI】 ChatGPT是什么?--先看看InstructGPT(李牧其人)

3/PPO,31k样本,只有API的结果

然后开放在OpenAI的playground中,让用户使用,再根据用户ID收集一部分的问题(一个用户最多200个)。用户可能会针对一个问题,用不同的句子提问,所以根据用户ID划分不同的数据集,避免一个用户的问题同时出现在多个数据集中,污染结果。

这样就可以持续对模型进行迭代。

模型

InstructGPT中一共用到了3个模型

1)SFT

SET的训练比较简单,就是标注数据fine-tune,13k样本较少,结果会过拟合,但这个模型只是为了初始化后面的模型,后续发现过拟合反而对后续的训练反而是有帮助的。

2)RM

的话,输入是prompt和回答,输出是一个reward。用前面的SFT的模型,去除掉最后的softmax层,转而使用一个线性投影层得到一个输出为1的标量,这个标量就可以视作是RM中的reward。

RM损失函数

是一个比较常见的pair-wise ranking loss。

 这里的K取的是9,每个prompt产出9个回答,9个回答两两匹配中生成36个pair对,在损失函数中,第一项的分母中除以pair对数,为了就是平衡掉不同K值带来的影响。

注意:OpenAI之前的工作中用的K=4,这里用的是K=9,好处有:

标注资源增长较少

        对于同一个问题,标注9个答案仅仅比4个多出了一些时间,因为节约了读题和理解题目的时间(我不是很认可啊,排序我觉得还挺麻烦的)

6倍的训练数据

        9个答案能产生36个pair对,而4个答案却只能产生6个pair对,训练数据量增加了6倍。

节约时间

      最费时间的是的计算,9个回答只需要计算9次,但是能产出36个标量,相当于节省了4倍的时间。

相当于是标注资源增加不多的情况下,训练数据量变多,同时时间没有增加很多。

同时,前作是4个里面选最好的一个,会有过拟合的情况,这里改为全排序的话,帮助缓解过拟合。

3)Reinforcement learning(RL)

在强化学习的框架内,随着模型的更新,每次采样到的y是不一样的,相当于是强化学习的环境变了,那相应的,获得的奖励也变了。

RL损失函数

就是强化学习学到的结果

就是SFT学习到的结果

第一项:对于每个prompt,丢进RL模型中产生一个y,使用第二步的RM模型来计算,这里的RM模型是模拟人类,对每个y给出一个实时反馈。

第二项:而RM训练时产生的y是来自于,为了减小更新模型导致的数据分布不一致,所以第二项中使用了KL散度,使得模型学出来的结果和SFT的不要相差太多

最后一项:GPT-3原始的目标函数,使得整个模型能生成更有效回答的情况下,其他任务的性能不要下降太多。

前2项就是ppo模型,加上最后一项就是ppo-ptx模型。

沐神给了些其他建议:

1.大模型模型不稳定的话,使用小模型

2.与其使用不稳定的RL,不如在数据集上多下点功夫,多找人标注些数据集,效果也未必不好。

(ps:论文中间还提到了如何挑选标注人员,这个真的蛮重要的,低质的标注人员真的非常拖累整个项目进程。。。这个还有专门的论文讲这个事情,感兴趣的可以自己搜搜看)

本文链接地址:https://www.jiuchutong.com/zhishi/298514.html 转载请保留说明!

上一篇:idea如何导入jar包(idea如何导入sql文件)

下一篇:Meta最新模型LLaMA细节与代码详解(meta最新模型)

  • 支付宝基金昨日收益率怎么看(支付宝基金昨日收益什么时候更新)

    支付宝基金昨日收益率怎么看(支付宝基金昨日收益什么时候更新)

  • 淘宝相似店铺怎么搜索(淘宝相似店铺怎么做)

    淘宝相似店铺怎么搜索(淘宝相似店铺怎么做)

  • 苹果手机开数据为什么没有网(苹果手机开数据漫游收费吗)

    苹果手机开数据为什么没有网(苹果手机开数据漫游收费吗)

  • 淘宝清关上传身份证安全吗(淘宝清关上传身份证号码必须要传吗)

    淘宝清关上传身份证安全吗(淘宝清关上传身份证号码必须要传吗)

  • 快手小店退货有运费险吗(快手小店退货有上门取件吗)

    快手小店退货有运费险吗(快手小店退货有上门取件吗)

  • 微信账号评估什么意思(微信号价值在线评估)

    微信账号评估什么意思(微信号价值在线评估)

  • 设置主页为使用默认页(设置主页为使用默认值怎么设置)

    设置主页为使用默认页(设置主页为使用默认值怎么设置)

  • 美团是腾讯旗下的吗(美团是腾讯旗下的平台吗)

    美团是腾讯旗下的吗(美团是腾讯旗下的平台吗)

  • 微信面对面传文件(微信面对面传文件怎么弄)

    微信面对面传文件(微信面对面传文件怎么弄)

  • 如何在群里集体视频(如何在群里集体语音)

    如何在群里集体视频(如何在群里集体语音)

  • 喜马拉雅听不了怎么回事(喜马拉雅听不了央广)

    喜马拉雅听不了怎么回事(喜马拉雅听不了央广)

  • 快手运营是什么意思(快手运营好干吗)

    快手运营是什么意思(快手运营好干吗)

  • 小米8青春版能用qc3.8吗(小米8青春版能玩原神吗)

    小米8青春版能用qc3.8吗(小米8青春版能玩原神吗)

  • a卡和n卡什么意思(a卡好还是n卡好)

    a卡和n卡什么意思(a卡好还是n卡好)

  • 蓝牙耳机被忽略怎么办(蓝牙耳机被忽略后如何重新连接)

    蓝牙耳机被忽略怎么办(蓝牙耳机被忽略后如何重新连接)

  • ps字怎么加粗(ps中的字怎么加粗)

    ps字怎么加粗(ps中的字怎么加粗)

  • ipad不开机怎么办(iPad不开机怎么定位)

    ipad不开机怎么办(iPad不开机怎么定位)

  • qq群名片为什么不能粘贴(qq群名片为什么改不了)

    qq群名片为什么不能粘贴(qq群名片为什么改不了)

  • 拼多多退货单号怎么查(拼多多退货单号怎么获取)

    拼多多退货单号怎么查(拼多多退货单号怎么获取)

  • 苹果id储存空间满了怎么办(苹果id储存空间购买在哪里取消)

    苹果id储存空间满了怎么办(苹果id储存空间购买在哪里取消)

  • 华为mate20与mate30的区别(华为mate20与mate30pro哪个好)

    华为mate20与mate30的区别(华为mate20与mate30pro哪个好)

  • 苹果xr支持30w快充吗(苹果xr能用30w快充吗)

    苹果xr支持30w快充吗(苹果xr能用30w快充吗)

  • 苹果换行键在哪里(苹果换行键在哪里打开)

    苹果换行键在哪里(苹果换行键在哪里打开)

  • 苹果如何设置显示5g(苹果如何设置显示信息内容)

    苹果如何设置显示5g(苹果如何设置显示信息内容)

  • ipad如何设置儿童使用时间(如何给ipad设置儿童锁)

    ipad如何设置儿童使用时间(如何给ipad设置儿童锁)

  • 猎聘网如何屏蔽企业(猎聘网如何屏蔽原公司)

    猎聘网如何屏蔽企业(猎聘网如何屏蔽原公司)

  • Olehelp.exe - Olehelp是什么进程 有什么用

    Olehelp.exe - Olehelp是什么进程 有什么用

  • 织梦文档arcrank和ismake两个字段的含义(织梦文档网站模板)

    织梦文档arcrank和ismake两个字段的含义(织梦文档网站模板)

  • 数字黑洞(数字黑洞有哪些)

    数字黑洞(数字黑洞有哪些)

  • 所得税的会计分录怎么做
  • 工业企业销售收入税率
  • 应收账款资金占用费公式
  • 小规模纳税人是季报还是月报
  • 设备采购及安装属于工程还是货物
  • 个体户购买社保和自由人购买社保区别
  • 工程材料增值税税率2023年
  • 企业收回以前注销时的坏账准备余额怎么处理?
  • 承包经营承包费增值税
  • 外币折算会计处理例题
  • 以前借款没做账现在收回来怎么做账务处理?
  • 受托方的计税价格是什么意思
  • 银行现金解款单回单怎么填
  • 预缴增值税一般计税依据
  • 商砼税收政策
  • 纳税主要是哪些方面
  • 职工发放洗漱用品怎么进行财税处理?
  • 个税纳税期数如何规定的 怎么选择
  • 初级考试备考计划
  • 收到保险公司赔款计入什么科目
  • 普票红冲对方已入账发票拿不回来
  • 残保金每年什么时候申报缴纳
  • 个体餐饮店交税吗
  • 苹果mac切换桌面快捷键
  • 个体工商户年检怎么办
  • window如何打开控制台
  • 包装物押金为什么含税
  • 建立无法轻易删除的数据
  • uefiu盘安装系统步骤win10
  • win10如何给文件夹上锁
  • PHP:pg_fetch_all_columns()的用法_PostgreSQL函数
  • php read
  • php_fileinfo作用
  • 职工教育经费列支范围规定
  • 支付银行借款利息可以全额扣除吗
  • 境外付款
  • vue3怎么用
  • 翡翠湾攻略
  • 企业所得税的缴费基数
  • js调用函数的几种方法
  • vgreduce --removemissing
  • 职工补贴包括哪些?
  • 个体工商户一年要交多少税
  • 会计科目设置怎么操作
  • 经典帝国cms生成器下载
  • 境外汇款收款人承担手续费
  • 税务登记程序有哪些
  • 电子发票与纸质发票具有不同的法律效力
  • 利润表的编制方法和步骤累计数和好结账前余额
  • mysql注入的修复方式
  • 应付职工薪酬的账务处理
  • 委托收款和托收承付结算流程图
  • 盘盈盘亏怎么填写
  • 上月未抵扣完的进项税额分录
  • 税务机关多收税款几年可以要求退回
  • 厨师的工资计入什么费用
  • 出口额和外汇收入
  • 理财产品产生的收益会成为本金吗为什么
  • 增值税进项税额在借方还是贷方
  • Linux x86_64下安装Flash Player 9
  • 进程是什么 进程类型
  • centos 安装教程
  • win7系统的一键还原怎么关闭
  • win7系统宽带连接错误651
  • linux中ctrl+c
  • Linux上PPTP VPN的一键安装以及设置开机启动的方法
  • win10系统内置应用软件有哪些
  • windows10直接安装
  • xp磁盘空间不足怎么办
  • unity3d的
  • python读取文件指定内容
  • linux中mysql备份shell脚本代码
  • js设计模型
  • Facebook推出强大Android图片库Fresco 自动释放内存 图片缓存 内存益处
  • flask框架图
  • python基础教程入门
  • 税务经侦科立案标准
  • 河南个人社保查询登录入口官网
  • 印花税应税凭证数量是什么意思
  • 新疆税务电子
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设