位置: IT常识 - 正文

生成式 AI 分析:大模型 + 大量数据的神奇效果(ai形成生成器工具怎么用)

编辑:rootadmin
原力计划生成式 AI 分析:大模型 + 大量数据的神奇效果 前言

推荐整理分享生成式 AI 分析:大模型 + 大量数据的神奇效果(ai形成生成器工具怎么用),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:生成.a,ai形成生成器工具怎么用,生成式方法,ai生成模型,基于ai的生成器,生成式方法,基于ai的生成器,ai生成技术,内容如对您有帮助,希望把文章链接给更多的朋友!

如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。

大模型的涌现能力 (Emergent Ability)

下图是模型性能(Loss for next token prediction)与「参数量」和「数据集大小」之间的关系,可以看出随着「参数量」和「数据集大小」不断变大,模型性能不断增强,仿佛不会遇到瓶颈。

下图展现了大模型的涌现能力,即语言模型的性能随着参数量增加并不是线性关系,而是突然跃升,即涌现。在未达到门槛之前,性能一直在随机的水平徘徊。

Calibration

在上面的实验图中,Calibration 指「模型置信度」与「真实概率」之间的关系,即满足「置信度高 -> 正确」、「置信度低 -> 可能错误」的模型,其 Calibration 指标越好。

因此 Calibration 实际上对应着「模型是否知道自己错了」这件事,如下图所示,不同参数量的模型对应不同的颜色,可以看到模型越大,其对自己是否出错的把握越大,即「模型置信度」与「真实概率」更为贴合。

Inverse Scaling Prize

一个比赛,奖金悬赏,寻找能让「模型越大,性能越差」的任务。

在这个比赛的任务中,许多之前的 “大模型” 随着参数量变大,其性能确实变差了,但当拿出更大的模型之后,其性能又好了起来,并产生了一段 U 型曲线。

这个比赛中的任务,一般都是「具体误导性的」,例如下述这个例子:

因此对于上述这种 U 型曲线,一种猜测是:这些任务里通常包含着一些误导任务,例如上述的 5 元,当模型还没有很大的时候,由于一知半解,就会接受被误导的方法,进而使其比随机效果还要差,但当其变得足够大时,就会得到真正的结果,类似于上述的计算期望值。

Switch Transformer生成式 AI 分析:大模型 + 大量数据的神奇效果(ai形成生成器工具怎么用)

Switch Transformer 模型参数量为 1.6T(GPT-3 为 1750 亿,GPT-3.5 为 2000 亿),其使用了 Mixture-of-expert 的结构,即在模型推断(Inference)的时候,选取不同的 Module,进而加快推断速度。

大数据的重要性

足够大量的数据才能让模型学会「常识,即世界知识」,如下图所示,横坐标为数据量。 数据集准备过程:

过滤有害内容(google 安全搜索)去除 HTML 标签用规则去除低品质数据去除重复数据过滤出测试集(例如 GPT-3 就未过滤出测试集)

「大模型」还是「大数据」

在固定的运算资源时,应该优先「大模型」还是「大数据」?看目前的趋势,模型大小越来越大,但训练数据量并没有明显变化。

根据下图(颜色代表固定的运算资源,横坐标为参数量,参数量越大,数据量越小),可以发现「大模型」和「大数据」需要取得平衡,只增加模型大小,不增加算力,只会让训练结果变得更差。

每个 U 型曲线取一个最低点,得到下图所示的算力与参数量(Parameters)和数据量(Tokens)之间的关系。

根据上述估计图,Google 重新估计了 Gopher(参数量为 280 Billion,数据量为 300 Billion) 对应的算力下,应该采取的参数量和数据量方案,于是训练得到了 Chinchilla(参数量为 63 Billon,数据量为 1.4 Trillion)。对比之后,发现 Chinchilla 大胜 Gopher。

根据上述结果,进一步给出了具体的「参数量」与「数据量」之间的关系:

最新的 LLaMA 也采用了这种「减少参数量,扩大数据量」的方案:

KNN LM

通常来说,语言模型在做一个分类问题,即输入为「清华大」,输出为各个候选词的概率,随后选出概率最高的词即可。

如下所示,Transformer 得到 Text 的 Embedding,随后通过线性层 + softmax 转换为分类问题。 与之对比,KNN LM 在得到 Repesentation 后,不仅训练了一个分类器,还将测试 Text 的 Repesentation 与训练数据得到的 Repesentation 进行距离计算,并根据距离得到下一个词的预测概率,再与原始分类器结合起来,得到最终结果。

另外,KNN LM 可以拿任意资料与测试 Text 的 Representation 计算距离,并不局限于训练数据。因此 KNN LM 这种机制可以使模型训练时更专注于一些难度更高的问题,对于一些仅需记忆的问题则可以通过这种方式解决。

参考资料Hung-yi Lee:生成式 AI(一)Scaling Laws for Neural Language ModelsEmergent Abilities of Large Language ModelsInverse scaling can become U-shapedSwitch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient SparsityWhen Do You Need Billions of Words of Pretraining Data?Scaling Language Models: Methods, Analysis & Insights from Training GopherDeduplicating Training Data Makes Language Models BetterTraining Compute-Optimal Large Language ModelsScaling Instruction-Finetuned Language ModelsIntroduction of ChatGPTTraining language models to follow instructions with human feedbackLearning to summarize from human feedbackGgeneralization Through Memorization: Nearest Neighbor Language ModelsLanguage Is Not All You Need: Aligning Perception with Language Models
本文链接地址:https://www.jiuchutong.com/zhishi/299778.html 转载请保留说明!

上一篇:ChatGPT频频发疯!马斯克警告:AI将毁灭人类

下一篇:Jquery 选择兄弟节点(jquery 兄弟选择器)

  • 惠普打印机wpspin码在哪里找(惠普打印机wpspin码初始密码是多少)

    惠普打印机wpspin码在哪里找(惠普打印机wpspin码初始密码是多少)

  • 苹果手机如何卸载应用软件(苹果手机如何卸载微信)

    苹果手机如何卸载应用软件(苹果手机如何卸载微信)

  • 华为手机拍照怎么显示手机型号和时间(华为手机拍照怎么去掉手机型号水印)

    华为手机拍照怎么显示手机型号和时间(华为手机拍照怎么去掉手机型号水印)

  • 华为p40是3d面容解锁吗(华为p40人脸识别是3d结构光吗)

    华为p40是3d面容解锁吗(华为p40人脸识别是3d结构光吗)

  • airpods一直充电忘了拔(airpods一直充电会自动断电吗)

    airpods一直充电忘了拔(airpods一直充电会自动断电吗)

  • 手机充电屏幕有点失灵(手机充电屏幕有点失灵怎么解决)

    手机充电屏幕有点失灵(手机充电屏幕有点失灵怎么解决)

  • mac桌面文件没删除但不见(mac桌面上文件消失了)

    mac桌面文件没删除但不见(mac桌面上文件消失了)

  • 3u0电压是什么(3u0电压计算公式)

    3u0电压是什么(3u0电压计算公式)

  • iPhonexr为什么红色比较便宜(xr红屏怎么回事)

    iPhonexr为什么红色比较便宜(xr红屏怎么回事)

  • mate30pro防抖怎么开(华为mate30pro防抖设置)

    mate30pro防抖怎么开(华为mate30pro防抖设置)

  • 看非好友QQ资料对方知道吗(看非好友qq资料卡在附近的人能看吗)

    看非好友QQ资料对方知道吗(看非好友qq资料卡在附近的人能看吗)

  • 无线网英语是wi-fi吗(无线网英语叫什么)

    无线网英语是wi-fi吗(无线网英语叫什么)

  • 华为mate30丹霞橙是什么材质(华为mate30丹霞橙后壳怎么擦)

    华为mate30丹霞橙是什么材质(华为mate30丹霞橙后壳怎么擦)

  • 什么叫苹果官方协议机(什么叫苹果官方显示屏)

    什么叫苹果官方协议机(什么叫苹果官方显示屏)

  • 抖音限流是永久的吗(抖音限流永久能恢复吗)

    抖音限流是永久的吗(抖音限流永久能恢复吗)

  • 小米数据线接口叫什么(小米数据线接口定义图)

    小米数据线接口叫什么(小米数据线接口定义图)

  • 淘宝隐藏评价别人能看到吗(淘宝隐藏评价别人是不是就看不到了)

    淘宝隐藏评价别人能看到吗(淘宝隐藏评价别人是不是就看不到了)

  • 内存储器有哪些(存储设备包括哪些)

    内存储器有哪些(存储设备包括哪些)

  • 抖音上可以隐藏粉丝吗(抖音上可以隐藏浏览记录吗)

    抖音上可以隐藏粉丝吗(抖音上可以隐藏浏览记录吗)

  • 小米9pro无线反充怎么开(小米9反向无线充电在哪打开)

    小米9pro无线反充怎么开(小米9反向无线充电在哪打开)

  • beat solo3 wireless怎么充电

    beat solo3 wireless怎么充电

  • 竖向文本框里的字怎么居中(竖向文本框的括号怎么向下)

    竖向文本框里的字怎么居中(竖向文本框的括号怎么向下)

  • 苹果手机接不到电话怎么回事(苹果手机接不到微信语音通话)

    苹果手机接不到电话怎么回事(苹果手机接不到微信语音通话)

  • 隐藏路由器的SSID广播来防止他人连接(路由器隐藏ssid后果严重)

    隐藏路由器的SSID广播来防止他人连接(路由器隐藏ssid后果严重)

  • java异常编程FutureTask的介绍(java异常编程题)

    java异常编程FutureTask的介绍(java异常编程题)

  • 微信小程序实现tab组件切换动画(微信小程序实现发红包)

    微信小程序实现tab组件切换动画(微信小程序实现发红包)

  • 按份共同保证和连带共同保证
  • 无形资产出售利得计入
  • 高速公路费如何冲抵
  • 不验旧可以领新车吗
  • 应付票据的处理
  • 报销筹建期间的房租押金怎么做会计分录?
  • 营利性医院如何开办对外药房业务
  • 开票未收到款会计分录
  • 丢失增值税专用发票
  • 定额发票上的金额是什么
  • 代购本无罪,逃避关税须处罚
  • 收购药材再销售可以免税
  • 销售收入交的印花税谁交
  • 滴滴开的发票能否抵扣进项税
  • 企业合并无形资产摊销
  • 应收账款坏账准备是信用减值损失还是资产
  • 减免的城建税如何申报
  • 文件夹属性没有安全
  • 幼儿园资金收支管理财务制度
  • 固定资产入账价值计算公式
  • 小米6桌面图标消失了
  • 计提房屋租赁费的会计分录
  • 电脑取消共享文件夹
  • 无形资产的确认与计量
  • the模板引擎
  • LIO-SAM学习与运行测试数据集
  • 待处理流动资产净损失在资产负债表中
  • thinkphp登录
  • 汉字转拚音
  • php编辑器哪个好
  • php实现验证码
  • st的电机库性能怎么样呢
  • php数组中某个元素出现的个数
  • 企业从应付职工工资中代扣的职工房租应借记
  • 微信多开使用方法
  • 政府奖励需要缴纳增值税吗
  • 境外公司委托境内公司付款
  • 应收代垫款
  • 劳务报酬可以专项附加扣除吗
  • 织梦内容页模板修改
  • 购买设备配件
  • 受托加工的物资属于资产吗
  • 零申报一般怎么收费
  • 差额征税的专用发票能抵扣吗
  • Mysql创建通用设备管理信息系统数据库
  • mysql命令行删除库中的所有表
  • 履约保证金没有交足
  • 个人所得税中的速算扣除数是什么意思
  • 小规模纳税人免税会计分录
  • 购进固定资产的账务处理
  • 2021年购买土地需要缴纳什么税
  • 股东出资做什么科目
  • 业务协作费计入什么科目
  • 劳保统筹费缴费比例
  • 会计科目漏记怎么补记
  • 管家婆进货单怎么录入?
  • 普通发票的开具办法是?
  • 在windows中在下列叙述中正确的是
  • 如何解决女性漏尿问题
  • win7系统调亮度怎么调
  • windows10的便签纸在哪
  • centos 环境变量
  • qconsvc.exe - qconsvc是什么进程 有什么作用
  • 2015年win10共发布135个安全补丁 创历年之最
  • cocos-creator
  • linux中文件权限读写执行的三种标志符号依次是
  • textview不换行
  • shell怎么创建用户
  • [置顶]马粥街残酷史
  • js indexof 对象
  • javascript入门教程
  • 初识大学主题征文
  • great 搬运工
  • javascript语法总结
  • python跑出异常
  • js检查邮箱格式
  • 河南新农合缴费记录可以在哪里查?
  • 设计合同需要备案吗
  • 电子税务局怎么添加开票员
  • 国家税务总局云平台网址
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设