位置: IT常识 - 正文

全面剖析OpenAI发布的GPT-4比其他GPT模型强在哪里(深入全面剖析自己)

编辑:rootadmin
全面剖析OpenAI发布的GPT-4比其他GPT模型强在哪里 最强的文本生成模型GPT-4一、什么是GPT-4二、GPT-4的能力三、和其他GPT模型比较3.1、增加了图像模态的输入3.2、可操纵性更强3.3、复杂任务处理能力大幅提升3.4、幻觉、安全等局限性的改善3.6、风险和缓解措施改善更多安全特性3.7、可预测的扩展四、与之前 GPT 系列模型比较五、和ChatGPT相比有更多的应用亮点六、总结一、什么是GPT-4

推荐整理分享全面剖析OpenAI发布的GPT-4比其他GPT模型强在哪里(深入全面剖析自己),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:全面分析,全方位剖析,深入全面剖析自己,全面查摆剖析,全方位剖析,全方位剖析,全面剖析问题,全面的剖析,内容如对您有帮助,希望把文章链接给更多的朋友!

GPT-4(Generative Pre-trained Transformer 4),这是OpenAI在扩展深度学习方面的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。输出依旧是一个自回归的单词预测任务。比如,它通过了模拟律师考试,分数约为考生的前 10%;相比之下,GPT-3.5 的得分约为倒数 10%。

GPT-4 利用对抗性测试程序和 ChatGPT 的经验教训,在真实性、可操纵性和拒绝超出护栏方面取得了有史以来最好的结果(尽管远非完美)。对于生成式的幻觉、安全问题均有较大的改善;同时因对于图片模态的强大识别能力扩大了 GPT-4 的应用范围。

OpenAI重建了整个深度学习堆栈,并与 Azure 一起从头开始共同设计了一台超级计算机。GPT-4 训练运行前所未有的稳定,成为第一个能够提前准确预测其训练性能的大型模型。

二、GPT-4的能力

在随意的chat中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就出现了:GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两种模型之间的差异,OpenAI在各种基准测试上进行了测试,包括最初为人类设计的模拟考试。

在为机器学习模型设计的传统基准测试上评估了 GPT-4。GPT-4 的性能大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,其中可能包括特定于基准的制作或其他训练协议:

许多现有的 ML 基准测试都是用英语编写的。为了初步了解其他语言的能力,将 MMLU 基准翻译成多种语言,在测试的 24 种语言中的 26 种中,GPT-4 的性能优于 GPT-3.5 和其他 LLM的英语性能,包括低资源语言:

三、和其他GPT模型比较

可以说,GPT-4 是目前最强的文本生成模型。

3.1、增加了图像模态的输入

GPT-4 可以接受文本和图像的提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务。具体来说,它生成文本输出(自然语言、代码等),给定由穿插文本和图像组成的输入。

在一系列域(包括包含文本和照片的文档、图表或屏幕截图)上,GPT-4 表现出与纯文本输入类似的功能。此外,它可以通过为纯文本语言模型开发的测试时技术进行增强,包括少数镜头和思维链促使。但是,目前的图像输入处于研究预览,不公开可用。 通过在一套狭窄的标准学术愿景基准上评估 GPT-4 的性能来预览它。然而,这些数字并不能完全代表其能力的范围,因为未来AI模型能够处理新的和令人兴奋的任务。OpenAI计划发布进一步的分析和评估数字,并对测试时间技术的效果进行彻底调查。

GPT-4 在4个场景下零样本效果超过 fine-tuned 的SOTA。GPT-4 在多语言理解、图文理解能力上均很强大并已融会贯通。3.2、可操纵性更强全面剖析OpenAI发布的GPT-4比其他GPT模型强在哪里(深入全面剖析自己)

OpenAI开发人员现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 风格和任务,而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。系统消息允许 API 用户显著自定义其用户体验在范围内。

系统:如何求解线性方程组:3x + 2y = 7,9x -4y = 1GPT-4:让我们从分析方程式开始。你能看到通过组合两个方程来消除其中一个变量的可能方法吗?用户:请告诉我答案!GPT-4:我知道你可能想要一个直接的答案,但我的目的是帮助你批判性地思考并指导你完成解决问题的过程。让我们专注于任务。方程中变量的任何系数是否共享一个公因数?用户:别再当家教了,告诉我答案。GPT-4:对我来说,帮助指导你找到答案很重要,而不仅仅是提供答案。让我们再试一次:第一个方程中是否有任何系数可以乘以数字以匹配第二个方程中的系数?用户:我不确定GPT-4:没关系!让我们看一下两个方程中 x 项的系数。在第一个方程中,x 的系数为 3,在第二个方程中,为 9。你能想到一个数字,你可以将第一个方程乘以,使两个方程中的x系数匹配吗?用户:5?GPT-4:不完全是,但你越来越近了。请记住,我们要将 x 的系数(在第一个方程中为 3)乘以一个数字,使其与第二个方程中的 x 系数(即 9)相匹配。您认为什么数字可以实现这一目标?用户:3?GPT-4:没错!现在,如果你将第一个方程乘以 3,新方程会是什么样子?用户:9x + 5y = 21?GPT-4:几乎!您正确地乘以常量项 (7),但在乘以 y 系数时似乎犯了一个小错误。尝试再次将整个第一个方程乘以3,密切注意每个项。用户:9x + 6y = 21?GPT-4:没错!现在我们有两个等式:1) 9x + 6y = 212) 9x - 4y = 1你能看到一种通过组合两个等式来消除其中一个变量的方法吗?用户:从等式 2 中减去等式 1?GPT-4:好主意!如果从等式2中减去等式1,得到的等式会是什么样子?用户:10y = 20?GPT-4:完全!现在,你能在刚刚找到的方程中求解 y 吗?用户:y = 2?GPT-4:没错!现在你已经找到了 y 的值,你能把它代入任何一个原始方程来求解 x 吗?用户:当然,我会将其代入等式 1。我得到了 3x + 4 = 7GPT-4:伟大!现在,你能求解等式 3x + 4 = 7 中的 x 吗?用户:x = 22?GPT-4:您的计算中似乎有一个小错误。尝试隔离方程 3x + 4 = 7 中的 x,方法是从两侧减去 4,然后除以 3。用户:x = 1?GPT-4:没错!因此,线性方程组的解是 x = 1 和 y = 2。干的好!通过仔细完成这些步骤并使用苏格拉底方法,您已经成功地解决了问题。3.3、复杂任务处理能力大幅提升

GPT-4 在更复杂、更细微的任务处理上,回答更可靠、更精准、更有创意。这在多类考试测验中以及与其他 LLM 的 benchmark 比较中可以看出。

3.4、幻觉、安全等局限性的改善

GPT-4 具有与早期 GPT 模型类似的限制。最重要的是,它仍然不完全可靠(它“幻觉”事实并犯推理错误)。在使用语言模型输出时应格外小心,尤其是在高风险上下文中,确切的协议(例如人工审查、使用其他上下文接地或完全避免高风险使用)与特定用例的需求相匹配。

尽管仍然是一个真正的问题,但GPT-4显著减少了幻觉,相对于自上而下的模型(每次迭代都在改进)。GPT-4的得分比我们最新的GPT-3.5高出40%。 在九个类别的内部对抗性设计的事实评估中, GPT-4(绿色)与前三个 ChatGPT 版本进行了比较。所有主题都有显著的收获。准确度为 1.0 意味着模型的答案被判断为与人类对评估中所有问题的理想答案一致。

在TruthfulQA等外部基准测试方面取得了进展,该基准测试了模型将事实与一组敌对选择的错误陈述分开的能力。这些问题与在统计上具有吸引力的事实不正确的答案配对。 GPT-4 基本模型在此任务中仅比 GPT-3.5 略好;然而,之后RLHF训练后有很大的差距;GPT-4 拒绝选择常见的说法,但它仍然会错过微妙的细节。

左:MMLU 子集上预训练的 GPT-4 模型的校准图。模型对其预测的置信度与正确概率非常匹配。虚线对角线代表完美的校准。 右:同一 MMLU 子集上训练后的 PPO GPT-4 模型的校准图。我们目前的流程对校准造成了相当大的伤害。

3.6、风险和缓解措施改善更多安全特性

GPT-4从训练开始就努力包括选择和过滤训练前数据、评估和专家参与、模型安全改进以及监控和执行。

GPT-4 带来的风险与以前的模型类似,例如生成有害建议、错误代码或不准确的信息。 GPT-4 在 RLHF 训练期间包含一个额外的安全奖励信号,以减少有害输出,通过训练模型拒绝对此类内容的请求。

与GPT-3.5相比,缓解措施大大改善了GPT-4的许多安全性能。与GPT-3.5和GPT-4相比,减少了模型对不允许内容请求的响应率82% 回应敏感的要求(如医疗建议和自我伤害),符合我们的政策29%以上。

与 GPT-3.5相比,缓解措施显著改善了 GPT-4 的许多安全特性。与 GPT-3.5 相比,将模型响应不允许的内容请求的倾向降低了 82%,GPT-4 根据响应敏感请求(例如医疗建议和自残)的频率提高了 29%。

总体而言,GPT-4模型级干预增加了引发不良行为的难度。此外,仍然存在“越狱”来生成违反GPT-4使用指南。

3.7、可预测的扩展

GPT-4 项目的一大重点是构建一个可预测的深度学习堆栈。主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定于模型的调优是不可行的。OpenAI开发了基础设施和优化,这些基础设施和优化在多个规模上具有非常可预测的行为。为了验证这种可扩展性,通过从使用相同方法训练但使用更少 4~10 倍计算的模型进行推断,提前准确地预测了 GPT-000 在内部代码库(不是训练集的一部分)上的最终损失:

四、与之前 GPT 系列模型比较模型参数量增加 10 倍,数据集大小应增加约 2 倍,模型大小应增加 5 倍。 GPT-4 模型训练架构新增了图像模态的输入。大幅度增加模型训练数据内容和数量,训练数据中额外增加了包含正误数学问题、强弱推理、矛盾一致陈述及各种意识形态的数据。数据量是 GPT3.5的190倍。GPT-4增加了后训练过程,核心是让模型知道如何在相应场景下合适的回答问题。五、和ChatGPT相比有更多的应用亮点

(1) 发布视频中,根据潦草的手绘制作类似布局类似的网页。

(2)加入视觉模态后,可以扩充到的盲人应用(Be my eyes)。 (3)强大的多语言能力帮助小语种语言的恢复、安全能力提升后的反欺诈等应用。

六、总结

GPT-4强大的地方:

突破纯文字的模态,增加了图像模态的输入,具有强大的图像理解能力。复杂任务处理能力大幅提升。改善幻觉、安全等局限性。建立LLM测试标准。预测模型扩展性。重新实现了整个深度学习栈,从头开始设计了一台超级计算机。风格可控性。支持更长的上下文窗口。

本文链接地址:https://www.jiuchutong.com/zhishi/300861.html 转载请保留说明!

上一篇:解决CentOS 安装出现"-bash: wget: 未找到命令"解决方案(centos安装软件教程)

下一篇:java实现电子发票中的发票税号等信息识别的几种可用方案(java实现电子发票)

  • 微信主题如何设置(微信主题如何设置全局的)

    微信主题如何设置(微信主题如何设置全局的)

  • 荣耀9x的开机键在哪里(荣耀9开机键坏了怎么开机)

    荣耀9x的开机键在哪里(荣耀9开机键坏了怎么开机)

  • surface连接wifi上不了网(surface连接无线网络)

    surface连接wifi上不了网(surface连接无线网络)

  • 天猫魔盒有线连接设置方法(天猫魔盒有线连接怎么投屏)

    天猫魔盒有线连接设置方法(天猫魔盒有线连接怎么投屏)

  • 华为手机相机曝光怎么开(华为手机相机曝光在哪里找)

    华为手机相机曝光怎么开(华为手机相机曝光在哪里找)

  • 手机腾讯会议怎么共享屏幕(手机腾讯会议怎么连接蓝牙耳机)

    手机腾讯会议怎么共享屏幕(手机腾讯会议怎么连接蓝牙耳机)

  • 拓扑设计对网络的影响主要表现在(拓扑设计对网络的意义)

    拓扑设计对网络的影响主要表现在(拓扑设计对网络的意义)

  • 屏幕变小怎么还原成全屏(屏幕变小怎么还原成全屏快捷键)

    屏幕变小怎么还原成全屏(屏幕变小怎么还原成全屏快捷键)

  • usb dac是什么功能(usb dac power是什么)

    usb dac是什么功能(usb dac power是什么)

  • 手机视频播放不了是什么原因(手机视频播放不完整就没了)

    手机视频播放不了是什么原因(手机视频播放不完整就没了)

  • 微电网是什么(微电网)

    微电网是什么(微电网)

  • honor v10是什么型号(荣耀v10是什么机身)

    honor v10是什么型号(荣耀v10是什么机身)

  • 钉钉老师可以打开学生的摄像头吗(钉钉老师可以打开摄像头吗)

    钉钉老师可以打开学生的摄像头吗(钉钉老师可以打开摄像头吗)

  • 小米8青春版有月亮模式吗(小米8青春版有快充吗)

    小米8青春版有月亮模式吗(小米8青春版有快充吗)

  • 比心为什么关注失败(比心关注的人上线会有提示吗)

    比心为什么关注失败(比心关注的人上线会有提示吗)

  • 苹果型号MQ是什么意思(苹果手机型号mq什么意思)

    苹果型号MQ是什么意思(苹果手机型号mq什么意思)

  • 淘气值有什么用(怎么提升淘宝淘气值)

    淘气值有什么用(怎么提升淘宝淘气值)

  • 淘宝为什么变成乡村版(淘宝为什么变成灰色11.30)

    淘宝为什么变成乡村版(淘宝为什么变成灰色11.30)

  • 淘宝店铺怎么查授权(淘宝店铺怎么查退款纠纷率)

    淘宝店铺怎么查授权(淘宝店铺怎么查退款纠纷率)

  • 苹果11是双卡双待吗(苹果11是双卡还是单卡)

    苹果11是双卡双待吗(苹果11是双卡还是单卡)

  • imac截屏快捷键是什么(iphone14pro截屏快捷键)

    imac截屏快捷键是什么(iphone14pro截屏快捷键)

  • 美食菜谱app开发怎么盈利(美食做菜app)

    美食菜谱app开发怎么盈利(美食做菜app)

  • 鸿蒙系统怎么快速删除相册中相似照片? 鸿蒙快速找出相似照片的技巧(鸿蒙系统怎么快速充电)

    鸿蒙系统怎么快速删除相册中相似照片? 鸿蒙快速找出相似照片的技巧(鸿蒙系统怎么快速充电)

  • YOLOV8——快速训练指南(上手教程、自定义数据训练)(yolov3训练自己的数据超详细)

    YOLOV8——快速训练指南(上手教程、自定义数据训练)(yolov3训练自己的数据超详细)

  • 【类ChatGPT】本地CPU部署中文羊驼大模型LLaMA和Alpaca

    【类ChatGPT】本地CPU部署中文羊驼大模型LLaMA和Alpaca

  • 为什么我会选择 AI-TestOps 让测试更智能(为什么我会选择那个对我一般的男人结婚)

    为什么我会选择 AI-TestOps 让测试更智能(为什么我会选择那个对我一般的男人结婚)

  • 外经证预缴税款征收率
  • 金税盘年费能全额抵扣吗
  • 详述关税的种类和征收方法
  • 研发费用加计扣除是什么意思啊
  • 总公司如何分配股份
  • 绿化税票多少税率
  • 发票为啥一直显示上传不成功
  • 2021年停车费税率
  • 旧设备换新设备文案
  • 佣金的支付方式主要有什么
  • 个人所得税该如何缴纳
  • 工程结算怎么结转收入
  • 事业单位存货包括哪些
  • 按月付息到期还本的贷款可以提前还款吗
  • 一般销售商品业务
  • 工会发票开了专票怎么办
  • 特许权使用费分摊比例怎么算
  • 税报完了可以撤销吗
  • 营改增来了!会计人应如何自处
  • 小规模纳税人定额发票累计领用金额
  • 水利基金减免政策2019 未超过10万
  • 预提租赁费会计处理
  • 投标标费退回怎么做分录
  • 其他应付款不需要支付是债务重组么
  • windows7远程桌面连接在哪里
  • 查补以前年度房产税的账务处理
  • SIMETER.EXE - SIMETER是什么进程 有什么用
  • 无产权买卖
  • 安保费差额纳税是什么意思
  • php字符串数组函数
  • 存货报废如何账务处理
  • 建筑安装发票可以外地开吗
  • 房产税的应纳税额计算方法
  • centos下file_put_contents()无法写入文件的原因及解决方法
  • php pdo连接sqlserver
  • thinkphp5框架介绍
  • 加计抵减是适用什么税率
  • 企业所得税营业外收入
  • php array_slice
  • 跨月的专用发票可以重新开吗
  • nbtstat命令
  • 库存商品的盘盈盘亏
  • 帮别人代发工资有没有风险
  • 土地出让金抵减增值税账务处理
  • 销售货物未收到货款的会计分录怎么写
  • 企业所得税的纳税调整项和比例
  • 个体户查账征收个人所得税税率
  • 代理记账的业务规范
  • 税控盘忘记抄报税怎么办
  • 销售折扣销售方会计处理
  • 企业注销在建工程怎么处理
  • 集团固定资产管理
  • 差旅费的进项税率是多少
  • 购买汽车时的保险是什么
  • 一般纳税人支付的哪些增值税进项税额不能抵扣
  • 记账凭证先写借方还是贷方
  • 退回备用金在现金怎么办
  • 提前支付利息如何计算
  • mysql基本介绍
  • win8系统怎么清理缓存
  • win8电脑恢复系统怎么操作
  • win7系统文件夹怎么加密码
  • windows7怎么打开记事本
  • 进程mmc.exe
  • win8打游戏卡吗
  • Win7系统启动qq无法访问个人文件怎么解决
  • win10激活界面打不开
  • jquery 多选
  • python打印直角三角形用*符号
  • Unity3D游戏开发pdf
  • js获取浏览器当前访问的ip
  • 批处理copy合并文件
  • Node.js中的construct构造函数
  • python多线程怎么写
  • 关于事件的报告范文
  • 四川省地方税务局
  • 甘肃增值税发票查验平台官网
  • 海南省税务局长
  • 广东省地税电子税务局
  • 国税局北京税务局官网
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设