位置: IT常识 - 正文

RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

发布时间:2024-01-17
RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

推荐整理分享RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

HuggingFace发表了一篇博客,详细讲解了ChatGPT背后的技术原理——RLHF。

笔者读过之后,觉得讲解的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助。

此外,文末整理了几篇关于 RLHF 最热门的12篇必读论文,卖萌酱打包好挂在公众号后台了,感兴趣的小伙伴可以在公众号“夕小瑶的卖萌屋”后台回复【1212】领取。

RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

在过去几年里,基于prompt范式的AI生成模型取得了巨大的成功,诞生了不少有意思的AI应用,例如AI写小说,AI写代码,AI画图甚至AI做视频等。

但其实这种生成模型很难训练。以语言模型为例,大多是采用“自回归生成”的方式,通过循环解码的方式来逐字或逐词生成内容。训练时往往简单的基于上下文信息去预测下一个词,然后用交叉熵来计算每个词的loss。显然这种token-level的loss不能很好的从整体输出的层面去指导模型优化方向。

为了能刻画模型输出的整体质量(而不是单个词),人们往往用BLEU或ROUGH等评价指标来刻画模型输出与人类偏好的相近程度,但这也仅仅是在评价的层面,模型在训练的时候是见不到这些人类真实的偏好的。

因此,训练阶段,如果直接用人的偏好(或者说人的反馈)来对模型整体的输出结果计算reward或loss,显然是要比上面传统的“给定上下文,预测下一个词”的损失函数合理的多。基于这个思想,便引出了本文要讨论的对象——RLHF(Reinforcement Learning from Human Feedback):即,使用强化学习的方法,利用人类反馈信号直接优化语言模型。

抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文_夕小瑶的博客-CSDN博客

从零实现ChatGPT——RLHF技术笔记 - 知乎

Illustrating Reinforcement Learning from Human Feedback (RLHF)

本文链接地址:https://www.jiuchutong.com/zhishi/299233.html 转载请保留说明!

上一篇:提取acc文件字幕的解决方案(acc字幕文件怎么转换srt字幕)

下一篇:9、Linux 高并发Web服务器项目实战(附代码下载地址)(linux 高并发网络编程)

  • 收入纳税数据是什么意思
  • 免税发票是普票还是专票
  • 建筑垃圾清运费税率是多少
  • 银行存款产生的利息怎么写分录
  • 不动产什么时候可以抵扣进项税额
  • 没有购置税发票有影响吗
  • 销售商品收入确认的五个条件
  • 应付工资可以挂账多长时间
  • 个人转让住宅要交哪些税
  • 计提水利建设基金的依据
  • 年末计提存货跌价准备
  • 理财产品 会计分录
  • 一般纳税人地税怎么收费
  • 物流公司开票税率
  • 银行转账结算凭证按照填制手续和内容
  • 增值税附加税怎么计提
  • 房租现金流量表选哪项比较合适
  • 集团公司收取管理费是否可以税前列支
  • 吸收合并企业的情形
  • 本企业领用外购原材料进项税要转出吗
  • 报销差旅费如何报税
  • 苹果最强机型
  • 如何使用windows的记事本创建文件
  • mac废纸篓立即删除和清倒
  • mac本host文件
  • ThinkPHP中SHOW_RUN_TIME不能正常显示运行时间的解决方法 原创
  • 其他应收款未收回会计分录
  • php数组有哪几种类型
  • swoole windows版本
  • PHP:proc_terminate()的用法_命令行函数
  • 不良资产核销的条件 追偿180天
  • 应收账款融资的风险控制
  • 特兰西瓦尼亚的统一
  • PHP:mcrypt_module_is_block_algorithm_mode()的用法_Mcrypt函数
  • php 调试工具
  • 未使用的土地使用权可以摊销吗
  • php浮点数
  • php数组的类型有哪些
  • React - Redux Hooks的使用细节详解
  • php图片代码
  • tree命令常用参数
  • 退货款现金流量表填什么?
  • 上年科目记错如何更正
  • 改签机票要收费
  • 开收据是财务还是出纳
  • 专用发票跨月退税怎么办
  • 无形资产分期付款会计分录?
  • 委外研发费用如何入账
  • 代扣代缴的增值税算进项税吗
  • 生产企业出口退税政策
  • 可供分配利润包括哪些
  • 收到免税发票会计分录
  • 一般纳税人购进税控设备如何抵扣
  • xp系统任务栏太小怎么办
  • XP系统怎么删除密码
  • 如何搭建一台内网服务器
  • 简单易上手 固态硬盘SSD安装WIN7系统的3种办法
  • wrsvn.exe是什么
  • windows 8.1更新
  • macos桌面
  • win7禁用全屏优化在哪
  • 更改mac地址值
  • win8.1怎么用
  • linux检查是否存在vxlan模块
  • linux系统怎么配置路由
  • 数字小键盘不管用
  • 高通umb
  • cssli
  • django web开发
  • appendChild() 或 insertBefore()使用与区别介绍
  • 调试动态加载的js
  • js中截取字符串的方法
  • python程序解析
  • 南宁市税局官网
  • 四川国税网上营业厅
  • 小规模纳税人企业所得税怎么征收
  • 人均可支配收入是到手工资吗
  • 100万元的人民币
  • 股权转让税务备案时间
  • 北京出租车发票微信怎么查真伪?
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号