位置: IT常识 - 正文

GPT-4报告解读(gpt指标)

编辑:rootadmin
GPT-4报告解读 写在前面

推荐整理分享GPT-4报告解读(gpt指标),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:gpt46,gpt74,gp报告是什么意思,gpt43,gpt54,gpt43,gpt42,gpt46,内容如对您有帮助,希望把文章链接给更多的朋友!

前面我们介绍了《GPT-4报告的整体情况》,那接下来展开介绍GPT-4报告中讲的内容。

前沿

在模型的结构上,是基于Transformer结构的大模型。接受多模态输入,即图像和文本输入(但只能输出文本)。使用公开的的数据训练,并使用人类反馈的增强学习(RLHF)微调模型,进一步提升模型的整体效果,使其更符合人类习惯的输出。报告中明确指出,不会给出模型的架构(包括模型大小)、硬件、训练计算、数据集的构成及训练方法等详情。也就是说,我们无法想读论文一样了解GPT-4的实现细节。整个报告主要围绕GPT-4的能力,局限和安全等方面展开。

GPT-4的报告的中英文摘要如下:

We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer- based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4’s performance based on models trained with no more than 1/1,000th the compute of GPT-4.

我们报告了 GPT-4 的开发,这是一种大规模的多模式模型,可以接受图像和文本输入并产生文本输出。虽然在许多现实场景中的能力不如人类,但GPT-4 在各种专业和学术基准测试中表现出人类水平的表现,包括通过模拟律师考试,得分在应试者的前 10% 左右。 GPT-4 是一种基于Transformer 的模型,经过预训练可以预测文档中的下一个标记。训练后的对齐过程会提高真实性和遵守所需行为的措施性能。该项目的核心组成部分包括可在广泛范围内预测规模表现的基础设施和优化方法。这使我们能够基于不超过GPT-4 计算量的万分之一的训练模型准确预测 GPT-4某些方面的性能。

GPT-4报告解读(gpt指标)

从摘要中可以看出GPT-4的效果要比之前的GPT模型好很多,以及模型应用落地必须要考虑的方面,接下来对报告的正文展开介绍。 GPT-4的能力(Capabilities )

可预测模型规模表现

GPT-4一个大的核心点事构建一个可预测扩展深度学习栈。主要的原因是像GPT-4这种非常大的训练,针对特定模型的微调是不可行的(时间+人力+投入成本不划算)。为此,GPT开发了一套多尺度上具有可预测行为的基础设置和优化方法。这些改进可以让我们比较可靠的使用GPT-4万分之一的小模型规模,预测GPT-4这种大模型在某些方面的性能(比如loss的走势和在某些数据集上的通过率等指标)。用小参数量的模型,拟合一条X轴为模型规模,Y轴为某个指标的曲线预测大规模参数下模型的表现,可以大大减少试错成本,提升研发效率,前景非常的不错。 为了预测GPT-4的loss,报告中使用最大计算量不超过待预测模型GPT-4规模的万分之一的多个小模型,拟合一条曲线(scaling law): a,b,c是待确定的参数,通过几个小规模的loss即可计算出a,b,c参数,然后根据该函数计算GPT-4的loss。下图就是拟合模型loss的曲线图,从图中可以看出,很精准的预测了GPT-4的loss。 同样的,使用类似的方法可以预测其他可解释性的指标与模型规模的关系,比如在HumanEval评测上,找到了公式: ​ 从实验上看,对于GPT-4的效果预测也是很精准的,其曲线图如下: 当然,也存在某些表现难以预测, 比如在“ Inverse Scaling Prize中提到的几个任务,一般的模型如GPT-3.5都随着模型规模效果变差,而GPT-4却是相反的。 ​ 这种预测规模表现的能力在安全性上也是很重要的,报告提出希望致力于这方面的研究,也希望能够成为一个大众接受并乐于投入研究的领域。

模拟测试对比

对于GPT-4进行了多个不同的bechmark测试,模拟考试中,采用了多选择和自由回答的题型,采用通用的评审方式综合得分排序。在统一律师考试中,GPT-4排到top10%的位置,而GPT3.5排在top90%的位置,差距明显,在我们比较熟悉的leetcode中,在easy、medium和hard类型中,GPT-4的效果都要好于GPT3.5。整体而言,在学术和专业领域的测试中,大部分的测试都是GPT-4的结果好于GPT-3.5的结果。需要强调的是:在这类测试中,使用post-training的RLHF对测试结果的影响不大。

语言模型通用基准对比

GPT-4在也在语言模型领域通用的基准上和最先进(SOTA)模型对比,这些SOTA的效果可能是基于特定数据协议训练的,实验表明即使这样,在大多数基准上,GPT-4都好于当前最先进(SOTA)模型的效果。 ​

多语言能力对比 因为很多ML模型的基准都是英语了,为了测试其他语言上的能力,openAI将MMLU基准中的57个主题的多项选择题翻译成其他语言,然后对比效果。在英语和其他语言上,GPT-4的效果也远远好于其他翻译模型,即使在可使用的语言预料匮乏的拉脱维亚语、威尔士语和斯瓦希里语上。

多模型输入能力 GPT-4在已有的GPT-3.5的基础上增加了图像和文本混合输入能力,图像可以照片、图表或屏幕截图。略显不足的是目前只支持文本的输出。百度的问心一言虽然再效果是比不上GPT-4甚至chat-GPT,但能力上是支持图片输出的。为了展示GPT-4对图片的处理能力,报告了给了一个通过VGA给手机通电的图片,让GPT-4找出图片中的funny之处,如下:

局限(Limitations) 正如前面所述,GPT-4在很多的测试基准上都取得了很好的效果,但尽管如此,依然还有很多的缺陷,并不是完全可靠的。GPT-4会产生幻觉并导致推理的错误,特别是在高风险的环境中,与特定需求相匹配的精确的协议(例如人工审查、附加上下文的基础,或完全避免高风险的使用)的应用中。与GPT-3.5相比,在较少模型的幻觉方面,GPT-4在内部的、对抗性设计的真实性评估中高出19%。

​ 此外,在公开的将符合事实的陈述与一组不正确的陈述中区分开来的基准测试(如TruthfulQA)上也有很大的提升。但需要强调的是:只进行预训练的GPT-4上略微好于GPT3.5,而经过RLHF的post-training之后得到了很大哦的提升。 ​ 再者就是模型知识的局限性,因为模型是使用2022年9月份以前的数据,所以对于再次之后发生的事情,模型也无能为力。比如问GPT-4硅谷银行是否破产了,它的回答肯定是没有。

风险与缓解措施(Risks & mitigations)

openAI在提升模型的安全性和政策对齐上进行了大量的尝试,包括使用领域专家进行红蓝对抗测试、构建模型辅助安全管道以及在前模型基础上提升安全性评估方法。 GPT-4和一般的小语言模型一样,都会生成有害建议、有缺陷的代码和不准确信息的问题,并且GPT-4这些额外能力也会导致一些新的风险,为了更好的力这些风险,openAI聘请了各个领域的专家进行对抗性测试,包括政策对齐风险、网络安全、生物风险和国际安全等。根据专家收集到的风险问题数据,也饿可以增强模型训练改善这种情况,比如拒绝响应合成危险化学品的请求。 ​ 对于之前的GPT模型,GPT-4模型是在pre-training之后使用RLHF对其进行了增强,实验发现,通过RLHF增强后,反而让模型在不安全的输入上更加的脆弱,有时候也会返回一些不符合预期的响应。为了应对该问题,openAI额外增加了一批安全相关的prompts用于RLHF训练,以及根据规则制定强化学习的激励模型(RBRM)。 ​ 针对上面问题采取的缓解措施之后,安全性指标上拒绝不允许的请求相比于GPT3.5下降了82%,在敏感的请求中按照我们的策略响应的提升了29%,另外有害内容的产生也从GPT-3.5的6.48%下降到0.73%。 ​ 总的来说,我们的模型级干预增加了引发不良行为的难度,但仍然有可能产生。例如,仍然存在“越狱”来生成违反我们使用指南的内容。只要存在这些限制,就必须使用部署时安全技术来补充它们,例如监控滥用以及用于快速迭代模型改进的管道。 GPT-4 和后续模型有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员合作,以改进我们理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估。我们将很快发布关于社会可以采取的步骤来为人工智能的影响做准备的建议,以及预测人工智能可能的经济影响的初步想法。

参考文献 GPT-4 Technical Report gpt-4-system-card 《GPT-4报告的整体情况》

本文链接地址:https://www.jiuchutong.com/zhishi/298692.html 转载请保留说明!

上一篇:元宇宙与AI能否相辅相成,打造一个全新的世界观(元宇宙与nft)

下一篇:Java-web实现用户登录、注册功能(javaweb实现用户登录注册)

  • 注意!论坛营销和论坛发帖不是双胞胎(论坛营销有哪些优缺点)

    注意!论坛营销和论坛发帖不是双胞胎(论坛营销有哪些优缺点)

  • 抖音怎么看访问主页的人(抖音怎么看访问我的人)

    抖音怎么看访问主页的人(抖音怎么看访问我的人)

  • mac如何取消开机声音(Mac如何取消开机声音)

    mac如何取消开机声音(Mac如何取消开机声音)

  • 华为Nova5怎么取消锁屏壁纸(华为nova5怎么取出卡槽)

    华为Nova5怎么取消锁屏壁纸(华为nova5怎么取出卡槽)

  • 小红书图片尺寸怎么调(小红书图片尺寸比例)

    小红书图片尺寸怎么调(小红书图片尺寸比例)

  • 华为手机通知栏不显示信息怎么办(华为手机通知栏信息怎么找回)

    华为手机通知栏不显示信息怎么办(华为手机通知栏信息怎么找回)

  • 视频素材哪里找(抖音带货视频素材哪里找)

    视频素材哪里找(抖音带货视频素材哪里找)

  • wps屏幕录制没有声音(wps屏幕录制没有画面)

    wps屏幕录制没有声音(wps屏幕录制没有画面)

  • bm47电池是红米几(bm45电池是什么手机红米)

    bm47电池是红米几(bm45电池是什么手机红米)

  • 微信举报别人成功了,别人会知道吗(微信举报别人成功怎么撤销)

    微信举报别人成功了,别人会知道吗(微信举报别人成功怎么撤销)

  • vivonex3s上市时间(vivonex3s上市时间和价格)

    vivonex3s上市时间(vivonex3s上市时间和价格)

  • 360N6Pro可以双卡双待吗(360手机双卡)

    360N6Pro可以双卡双待吗(360手机双卡)

  • 手机卡2没有信号是怎么回事(手机卡没有信号无服务是什么原因)

    手机卡2没有信号是怎么回事(手机卡没有信号无服务是什么原因)

  • xsmax是a几处理器(xsmax处理器)

    xsmax是a几处理器(xsmax处理器)

  • 金立手机自带壁纸在哪(金立手机自带壁纸暗金)

    金立手机自带壁纸在哪(金立手机自带壁纸暗金)

  • 手机更新系统后卡怎么办(手机更新系统后怎么恢复原来的系统)

    手机更新系统后卡怎么办(手机更新系统后怎么恢复原来的系统)

  • oppo手机桌面时间怎么添加(oppo手机桌面时钟样式怎么设置)

    oppo手机桌面时间怎么添加(oppo手机桌面时钟样式怎么设置)

  • 在酷我音乐怎么唱歌(在酷我音乐怎么分享歌曲)

    在酷我音乐怎么唱歌(在酷我音乐怎么分享歌曲)

  • 淘宝网店设计怎么更大气(淘宝店铺设计是什么工作)

    淘宝网店设计怎么更大气(淘宝店铺设计是什么工作)

  • 快手长腿瘦身怎么才能不显示(快手长腿瘦身怎么隐藏)

    快手长腿瘦身怎么才能不显示(快手长腿瘦身怎么隐藏)

  • 为什么不能极速退货了(为什么不可以享受极速退款了)

    为什么不能极速退货了(为什么不可以享受极速退款了)

  • 如何构建企业it(如何构建企业的护城河)

    如何构建企业it(如何构建企业的护城河)

  • 华为手机遮挡顶部功能怎么取消(华为手机遮挡顶部黑屏怎么关闭)

    华为手机遮挡顶部功能怎么取消(华为手机遮挡顶部黑屏怎么关闭)

  • 小米手环3怎么重启(小米手环3怎么绑定手机)

    小米手环3怎么重启(小米手环3怎么绑定手机)

  • i5 8500无法安装win7系统的解决方法(i5 8500装win10)

    i5 8500无法安装win7系统的解决方法(i5 8500装win10)

  • Pytorch机器学习(八)—— YOLOV5中NMS非极大值抑制与DIOU-NMS等改进(pytorch如何学)

    Pytorch机器学习(八)—— YOLOV5中NMS非极大值抑制与DIOU-NMS等改进(pytorch如何学)

  • HTML小游戏13 —— 仿《神庙逃亡》3D风格跑酷游戏《墓地逃亡》(附完整源码)(html游戏大全)

    HTML小游戏13 —— 仿《神庙逃亡》3D风格跑酷游戏《墓地逃亡》(附完整源码)(html游戏大全)

  • php定义常量方法的区别(php定义变量的方法)

    php定义常量方法的区别(php定义变量的方法)

  • python round()函数是什么(Pythonround函数作用)

    python round()函数是什么(Pythonround函数作用)

  • 可变现净值相关税费包括消费税吗
  • 财会英语汇总:税收术语?
  • 人工费已经支付怎么入账
  • 地方教育费附加的计税依据是什么
  • 在建工程是资产
  • 农产品的收购价格
  • 会计核算过程中的计量尺度通常有
  • 公司收到银行承兑汇票会计分录
  • 公司作为承租方需要交房产税吗
  • 汽车公司场地租金怎么算
  • 有关税收的征收管理规定介绍
  • 短期投资所得收入需要交税吗?
  • 企业所得税收入大于增值税收入的原因
  • 旅游公司发票企业能报销吗
  • 企业收到稳岗补贴的账务处理
  • 小微企业免征增值税报表填写
  • 小微企业附加税减半
  • 所得税季报营业收入本年累计
  • 有限责任公司自然人独资可以增加股东吗
  • 损失性费用的会计科目有
  • 土地使用权的原值和账面价值
  • 行政单位对固定资产购买保险
  • 专票只能开一万的额度开了三万的发票
  • 财务软件里凭证打印如何设置不打印三级科目
  • 交通费进项税抵扣计算
  • 安装设备领用原材料应该用成本还是公允
  • 研发费加计扣除做账务处理吗
  • 建筑公司收到预收款要交税吗?
  • 用盈余公积弥补职工福利费是什么类型
  • unsupportedfirsthd解决办法
  • 如何批量更改多个excel内容
  • 企业汇算清缴怎么退税
  • 食堂现金管理办法
  • 应交税金应交增值税科目设置
  • 邓弗里斯什么水平
  • php怎么设置图片的大小
  • 哪一款macbook
  • 跨年的增值税普通发票怎么冲红
  • mysql性能监控工具和调优
  • 利润表一般采用
  • 个体户注销流程 就找三合一企服
  • 企业不需要交残保金吗
  • 金税盘维护费应该计入什么科目
  • 收到票据又转背书付了账务处理
  • 以前年度会计科目记错
  • 电子商务还会继续发展吗
  • 会计账簿的含义及其作用
  • 新开办企业如何建账
  • sqlserver锁机制
  • 复合索引顺序
  • 安装sql server需要注意什么
  • win8.1怎么安装软件
  • wcu.exe是什么
  • windows10 rs2
  • gzip压缩慢
  • ms office是
  • win8.1无法进入系统
  • 微软推出windows1
  • 怎么提高局域网安全
  • win7共享按钮灰色
  • windows自带视频
  • linux安装docker-compose
  • netcfghlp怎么安装
  • Unity3D游戏开发培训课程大纲
  • webgl基础教程
  • nodejs xhr
  • shell脚本解压tar文件
  • 滚动的纸箱
  • jquery中的事件
  • javascript基于什么的语言
  • 修改update.zip
  • 1、BluetoothChat之BluetoothChat.java
  • 湖南国家电子税务局手机版
  • 湖北省税务局官网电话
  • 网上报税失败怎么办
  • 2016年小微企业所得税优惠政策文号
  • 手机上交了社保可以退吗
  • 钟楼在西安的哪里
  • 2018年3月增值税申报期限
  • 冷库出租需要交什么税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设