位置: IT常识 - 正文

RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

编辑:rootadmin
RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

推荐整理分享RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

HuggingFace发表了一篇博客,详细讲解了ChatGPT背后的技术原理——RLHF。

笔者读过之后,觉得讲解的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助。

此外,文末整理了几篇关于 RLHF 最热门的12篇必读论文,卖萌酱打包好挂在公众号后台了,感兴趣的小伙伴可以在公众号“夕小瑶的卖萌屋”后台回复【1212】领取。

RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

在过去几年里,基于prompt范式的AI生成模型取得了巨大的成功,诞生了不少有意思的AI应用,例如AI写小说,AI写代码,AI画图甚至AI做视频等。

但其实这种生成模型很难训练。以语言模型为例,大多是采用“自回归生成”的方式,通过循环解码的方式来逐字或逐词生成内容。训练时往往简单的基于上下文信息去预测下一个词,然后用交叉熵来计算每个词的loss。显然这种token-level的loss不能很好的从整体输出的层面去指导模型优化方向。

为了能刻画模型输出的整体质量(而不是单个词),人们往往用BLEU或ROUGH等评价指标来刻画模型输出与人类偏好的相近程度,但这也仅仅是在评价的层面,模型在训练的时候是见不到这些人类真实的偏好的。

因此,训练阶段,如果直接用人的偏好(或者说人的反馈)来对模型整体的输出结果计算reward或loss,显然是要比上面传统的“给定上下文,预测下一个词”的损失函数合理的多。基于这个思想,便引出了本文要讨论的对象——RLHF(Reinforcement Learning from Human Feedback):即,使用强化学习的方法,利用人类反馈信号直接优化语言模型。

抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文_夕小瑶的博客-CSDN博客

从零实现ChatGPT——RLHF技术笔记 - 知乎

Illustrating Reinforcement Learning from Human Feedback (RLHF)

本文链接地址:https://www.jiuchutong.com/zhishi/299233.html 转载请保留说明!

上一篇:提取acc文件字幕的解决方案(acc字幕文件怎么转换srt字幕)

下一篇:9、Linux 高并发Web服务器项目实战(附代码下载地址)(linux 高并发网络编程)

  • 权益法核算转成本法
  • 适用5%征收率的范围
  • 固定资产升值可以入账吗?
  • 装修公司开劳务费发票可以有材料进项票吗
  • 汇票委托书会计分录
  • 混凝土开票的型号规格
  • 小规模纳税人增值税申报表怎么填
  • 购买旧固定资产的增值税进项税
  • 生产企业出口货物会计分录
  • 契税的会计分录有哪些
  • 代理结算费用应该如何处理
  • 母子公司无偿划拨资产
  • 应收账款客户少了几毛没有付怎么处理
  • 营改增后服务业账务处理
  • 承兑汇票打折支付如何账务处理?
  • 简易计税在借方还是贷方
  • 箱包类增值税发票多少点
  • 预收房款什么意思
  • 7月1日后通用机打发票纳税人识别号怎么填?
  • 如何区分劳务派遣和劳动合同
  • 协定存款分析及2018金融机构人民币存款基准利率表
  • 餐饮服务行业会计分析
  • 怎样处理教育费附加会计分录?
  • 预提返利的会计处理
  • 库存商品无发票所得税怎么调增
  • 城市维护建设税计算公式
  • 生产车间折旧为0的原因
  • 腾讯电脑管家网址多少
  • 电脑重装系统怎么激活
  • 进项税加计抵扣最新政策2019
  • ps命令不可用
  • 重置edge浏览器设置
  • 公司为实习生买保险列支什么科目?
  • 即期结售汇期限包括
  • 收到汇票结余会怎么样
  • 在校学生是不是纳税人,请举例说明
  • 大自然水族馆怎么样
  • 漏记收入 罚款
  • webform前端
  • thinkphp获取数据库数据
  • ZED2跑ORB-SLAM3+双目相机、IMU联合标定+显卡驱动与cuda/cudnn安装
  • 电话订票起售时间
  • 原材料用于在建工程,进项税为什么不转出
  • 社保缴费基数3400
  • 入库管理业务流程图
  • 织梦如何使用
  • phpcms使用教程
  • mysql可以存什么
  • 生产成本设置二级科目
  • 清包工方式建筑服务
  • 福利费用属于哪个部门
  • 新会计准则有哪三个
  • 合伙企业怎么建账
  • 其他债权投资期末公允价值的变动应当计入
  • 跨月发票作废怎么做会计分录
  • 代办营业执照安全可靠吗
  • 最全的sql执行顺序
  • MSSQL转MYSQL,gb2312转utf-8无乱码解决方法
  • Mac怎么强制关闭窗口
  • linux 安装指令
  • win7的系统电脑
  • win10系统内置应用软件有哪些
  • 在对linux系统中dir
  • cocos做游戏
  • 批处理/s
  • unity游戏开发的技术路线有哪些
  • Unity3D游戏开发毕业论文
  • jquery自定义组件
  • js indexof undefined
  • python 如何
  • bootstrap教材
  • JavaScript中的数据类型分为两大类
  • 国家税务局浙江电子税务局官网入口
  • 定额发票查询入口在哪里
  • 企业房产税优惠减免政策2020
  • 北京市地方税务局土地增值税清算管理规程
  • 匈牙利离中国广东有多远
  • 小规模纳税人土地税减免政策
  • 什么是党建工作一体化
  • 社保怎么退款申请在手机上
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设