位置: IT常识 - 正文

RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

编辑:rootadmin
RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

推荐整理分享RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

HuggingFace发表了一篇博客,详细讲解了ChatGPT背后的技术原理——RLHF。

笔者读过之后,觉得讲解的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助。

此外,文末整理了几篇关于 RLHF 最热门的12篇必读论文,卖萌酱打包好挂在公众号后台了,感兴趣的小伙伴可以在公众号“夕小瑶的卖萌屋”后台回复【1212】领取。

RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

在过去几年里,基于prompt范式的AI生成模型取得了巨大的成功,诞生了不少有意思的AI应用,例如AI写小说,AI写代码,AI画图甚至AI做视频等。

但其实这种生成模型很难训练。以语言模型为例,大多是采用“自回归生成”的方式,通过循环解码的方式来逐字或逐词生成内容。训练时往往简单的基于上下文信息去预测下一个词,然后用交叉熵来计算每个词的loss。显然这种token-level的loss不能很好的从整体输出的层面去指导模型优化方向。

为了能刻画模型输出的整体质量(而不是单个词),人们往往用BLEU或ROUGH等评价指标来刻画模型输出与人类偏好的相近程度,但这也仅仅是在评价的层面,模型在训练的时候是见不到这些人类真实的偏好的。

因此,训练阶段,如果直接用人的偏好(或者说人的反馈)来对模型整体的输出结果计算reward或loss,显然是要比上面传统的“给定上下文,预测下一个词”的损失函数合理的多。基于这个思想,便引出了本文要讨论的对象——RLHF(Reinforcement Learning from Human Feedback):即,使用强化学习的方法,利用人类反馈信号直接优化语言模型。

抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文_夕小瑶的博客-CSDN博客

从零实现ChatGPT——RLHF技术笔记 - 知乎

Illustrating Reinforcement Learning from Human Feedback (RLHF)

本文链接地址:https://www.jiuchutong.com/zhishi/299233.html 转载请保留说明!

上一篇:提取acc文件字幕的解决方案(acc字幕文件怎么转换srt字幕)

下一篇:9、Linux 高并发Web服务器项目实战(附代码下载地址)(linux 高并发网络编程)

  • 企业的企业所得税
  • 公立医院事业单位录用是编制吗
  • 私募基金如何做大规模
  • 电子承兑到期怎么操作流程
  • 所得税费用在利润表中应在税金及附加项目中填列
  • 纳税人性质怎么改
  • 金税盘忘了清盘怎么办
  • 开票金额为什么会多出一分钱
  • 简易计税项目税金要计入成本吗
  • 哪些税金不得在借方增加
  • 企业股权转让是否交企业所得税
  • 固定资产评估增值的账务处理
  • 工资表的其他扣除
  • 差额内部收益率大于基准收益率
  • 企业购销业务流程包括哪些
  • 利息 财务费用
  • 礼服租赁套餐
  • 长投成本法分红分录
  • 企业收到现金支票
  • 生产车间消耗品管理表
  • 接管财务要对接哪些内容?
  • 已经认证的发票怎么冲红
  • 企业银行存款转定期分录怎样操作
  • 如果当月增值税进项比销项多怎么结转
  • 企业发生的亏损不一定会导致所有者权益减少
  • linux系统中的文件访问权限包括几种
  • win10更新错误0x8000402
  • php strrpos函数
  • 付给他人押金的会计分录
  • 购入已提完折旧的固定资产怎么入账
  • 公司收入算认缴出资吗
  • 最强笔记本2021
  • thinkphp curl
  • 原材料科目是什么意思
  • 房屋出租一定要签合同吗
  • axios在vue中的使用慕课笔记
  • php 文件传输
  • markdown语法是什么意思
  • gpt-3的功能
  • js中...的用法
  • css加小手
  • 喰种小说在线阅读
  • 为什么增值税最后的负税人是消费者企业还要尽量少交税
  • 运输发票税金如何入账
  • python中如何合并csv
  • 小规模企业所得税怎么征收
  • 资产减值准备怎么理解
  • 加权平均净资产收益率公式
  • 销售货物退款会计分录
  • 周转材料包装物的账务处理
  • 资产负债表里的应交税费怎么填
  • 收入支出结余怎么记账
  • 密码区是什么
  • 安装sql server 2008硬件要求
  • mysql锁表的sql
  • 简述mysql的优势
  • windows7创建虚拟桌面
  • xp系统字体安装方法
  • LibreOffice 4.1.4 正式版下载
  • imac如何删除客人用户
  • centos6 centos7区别
  • NJeeves.exe - NJeeves进程文件是什么意思 有什么用
  • quick3.3 UIListview扩展应用
  • js里的this指向
  • [置顶] 《借.住.情.缘》
  • Android:Activity+Fragment及它们之间的数据交换(一)
  • 批处理 >nul
  • javascript如何学
  • Node.js中的事件循环是什么
  • shell脚本数组的用法
  • pull order
  • python脚本怎么编写
  • unity相关问题
  • 南京退林还耕
  • 税局可以办理哪些业务
  • 焦作国税局官网
  • 水产品企业所得税8行免税填税额还是利润
  • 海南海葬需要多少费用
  • 扣缴个人所得税客户端操作流程
  • 河南省土地使用税减免税优惠
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设