位置: IT常识 - 正文

RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

编辑:rootadmin
RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

推荐整理分享RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

HuggingFace发表了一篇博客,详细讲解了ChatGPT背后的技术原理——RLHF。

笔者读过之后,觉得讲解的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助。

此外,文末整理了几篇关于 RLHF 最热门的12篇必读论文,卖萌酱打包好挂在公众号后台了,感兴趣的小伙伴可以在公众号“夕小瑶的卖萌屋”后台回复【1212】领取。

RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

在过去几年里,基于prompt范式的AI生成模型取得了巨大的成功,诞生了不少有意思的AI应用,例如AI写小说,AI写代码,AI画图甚至AI做视频等。

但其实这种生成模型很难训练。以语言模型为例,大多是采用“自回归生成”的方式,通过循环解码的方式来逐字或逐词生成内容。训练时往往简单的基于上下文信息去预测下一个词,然后用交叉熵来计算每个词的loss。显然这种token-level的loss不能很好的从整体输出的层面去指导模型优化方向。

为了能刻画模型输出的整体质量(而不是单个词),人们往往用BLEU或ROUGH等评价指标来刻画模型输出与人类偏好的相近程度,但这也仅仅是在评价的层面,模型在训练的时候是见不到这些人类真实的偏好的。

因此,训练阶段,如果直接用人的偏好(或者说人的反馈)来对模型整体的输出结果计算reward或loss,显然是要比上面传统的“给定上下文,预测下一个词”的损失函数合理的多。基于这个思想,便引出了本文要讨论的对象——RLHF(Reinforcement Learning from Human Feedback):即,使用强化学习的方法,利用人类反馈信号直接优化语言模型。

抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文_夕小瑶的博客-CSDN博客

从零实现ChatGPT——RLHF技术笔记 - 知乎

Illustrating Reinforcement Learning from Human Feedback (RLHF)

本文链接地址:https://www.jiuchutong.com/zhishi/299233.html 转载请保留说明!

上一篇:提取acc文件字幕的解决方案(acc字幕文件怎么转换srt字幕)

下一篇:9、Linux 高并发Web服务器项目实战(附代码下载地址)(linux 高并发网络编程)

  • 净利润跟税后利润是二个概念吗
  • 房产契税是怎样计算的
  • 土地使用税退税账务处理
  • 商品涉及商业折扣的,如何确认企业所得税的销售收入?
  • 增值税返还需要交增值税吗
  • 白酒在哪个环节征收消费税
  • 出口退税会计处理全部流程
  • 物业公司收物业费如何入账
  • 房地产企业的收入信息披露范围进一步扩大
  • 销售回扣的账务处理办法
  • 安装服务异地施工增值税在哪交
  • 公司一直零报税,有问题吗
  • 关于水利工程
  • 一个月无纳税凭证怎么处理
  • 会计档案保管最新规定
  • 实收资本的入账金额怎么算
  • 个人承包集体企业违法吗
  • 消费税税目是否含税
  • 企业报税网上申报好了怎么导入
  • 小规模纳税人申报表怎么填
  • 外币账户利息结汇
  • 事业单位打印费计入什么科目
  • 收到别公司利息怎么记账
  • 稿费用交个人所得税吗
  • 购买的固定资产进项税可以抵扣吗
  • 购买商品未入库
  • mac应用程序安装权限在哪找
  • 如何清除上网记录?
  • window10自带商店下载位置
  • php面试算法
  • 旧房转让土地增值税计算案例
  • 预计负债的概念是什么
  • idea添加web项目
  • 2023前端面试题百度云
  • 物业公司收的物业费用干什么了
  • php常用字符串
  • php高并发api接口怎么处理
  • 简单的php文件
  • 原材料被盗如何报案
  • 个人能去税务局开劳务费发票吗
  • 利润表年报本期金额填什么
  • 鸡蛋的发票
  • 小规模纳税人适用5%的税率是什么
  • 亏损企业研发费用必须加计扣除吗
  • 生产车间计提费用会计分录
  • 定期定额征收和核定征收的哪种税率高
  • 现金流量少
  • 职工福利费的扣除标准工资总额包括什么
  • 单位给食堂的补贴怎么算
  • 现金存入银行是什么凭证
  • 筹建期业务招待费的扣除标准
  • 怎么用sql脚本创建数据库
  • winxp和win7双系统安装
  • Windows Server AD 访问数量控制配置方法
  • 微软修复系统
  • ubuntu16.04火狐打不开网页
  • xp清理系统的命令
  • 任务管理器打不开怎么强制关闭电脑程序
  • win7系统怎么把c盘的内存加到d盘
  • nfs网络安装
  • linux下tar.gz、tar、bz2、zip等解压缩、压缩命令小结
  • Win10预览版拆弹
  • unity shader editor
  • HttpURLConnection连接 详解
  • oracle sql mysql
  • nodejs跳转到指定页面
  • linux命令批量执行
  • shell循环结构
  • img可以设置的属性
  • Node.js中的包管理工具是什么
  • android layout布局
  • unity优化gc
  • vue alain
  • jQuery使用getJSON方法获取json数据完整示例
  • 基于JAVASCRIPT实现的可视化工具是
  • jquery编写Tab选项卡滚动导航切换特效
  • js设置rem
  • 亏损企业能否给补偿
  • 保险专票可以抵进项税吗
  • 为什么非贸易付不了款呢
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设