位置: IT常识 - 正文

生成式 AI 分析:大模型 + 大量数据的神奇效果(ai形成生成器工具怎么用)

编辑:rootadmin
原力计划生成式 AI 分析:大模型 + 大量数据的神奇效果 前言

推荐整理分享生成式 AI 分析:大模型 + 大量数据的神奇效果(ai形成生成器工具怎么用),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:生成.a,ai形成生成器工具怎么用,生成式方法,ai生成模型,基于ai的生成器,生成式方法,基于ai的生成器,ai生成技术,内容如对您有帮助,希望把文章链接给更多的朋友!

如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。

大模型的涌现能力 (Emergent Ability)

下图是模型性能(Loss for next token prediction)与「参数量」和「数据集大小」之间的关系,可以看出随着「参数量」和「数据集大小」不断变大,模型性能不断增强,仿佛不会遇到瓶颈。

下图展现了大模型的涌现能力,即语言模型的性能随着参数量增加并不是线性关系,而是突然跃升,即涌现。在未达到门槛之前,性能一直在随机的水平徘徊。

Calibration

在上面的实验图中,Calibration 指「模型置信度」与「真实概率」之间的关系,即满足「置信度高 -> 正确」、「置信度低 -> 可能错误」的模型,其 Calibration 指标越好。

因此 Calibration 实际上对应着「模型是否知道自己错了」这件事,如下图所示,不同参数量的模型对应不同的颜色,可以看到模型越大,其对自己是否出错的把握越大,即「模型置信度」与「真实概率」更为贴合。

Inverse Scaling Prize

一个比赛,奖金悬赏,寻找能让「模型越大,性能越差」的任务。

在这个比赛的任务中,许多之前的 “大模型” 随着参数量变大,其性能确实变差了,但当拿出更大的模型之后,其性能又好了起来,并产生了一段 U 型曲线。

这个比赛中的任务,一般都是「具体误导性的」,例如下述这个例子:

因此对于上述这种 U 型曲线,一种猜测是:这些任务里通常包含着一些误导任务,例如上述的 5 元,当模型还没有很大的时候,由于一知半解,就会接受被误导的方法,进而使其比随机效果还要差,但当其变得足够大时,就会得到真正的结果,类似于上述的计算期望值。

Switch Transformer生成式 AI 分析:大模型 + 大量数据的神奇效果(ai形成生成器工具怎么用)

Switch Transformer 模型参数量为 1.6T(GPT-3 为 1750 亿,GPT-3.5 为 2000 亿),其使用了 Mixture-of-expert 的结构,即在模型推断(Inference)的时候,选取不同的 Module,进而加快推断速度。

大数据的重要性

足够大量的数据才能让模型学会「常识,即世界知识」,如下图所示,横坐标为数据量。 数据集准备过程:

过滤有害内容(google 安全搜索)去除 HTML 标签用规则去除低品质数据去除重复数据过滤出测试集(例如 GPT-3 就未过滤出测试集)

「大模型」还是「大数据」

在固定的运算资源时,应该优先「大模型」还是「大数据」?看目前的趋势,模型大小越来越大,但训练数据量并没有明显变化。

根据下图(颜色代表固定的运算资源,横坐标为参数量,参数量越大,数据量越小),可以发现「大模型」和「大数据」需要取得平衡,只增加模型大小,不增加算力,只会让训练结果变得更差。

每个 U 型曲线取一个最低点,得到下图所示的算力与参数量(Parameters)和数据量(Tokens)之间的关系。

根据上述估计图,Google 重新估计了 Gopher(参数量为 280 Billion,数据量为 300 Billion) 对应的算力下,应该采取的参数量和数据量方案,于是训练得到了 Chinchilla(参数量为 63 Billon,数据量为 1.4 Trillion)。对比之后,发现 Chinchilla 大胜 Gopher。

根据上述结果,进一步给出了具体的「参数量」与「数据量」之间的关系:

最新的 LLaMA 也采用了这种「减少参数量,扩大数据量」的方案:

KNN LM

通常来说,语言模型在做一个分类问题,即输入为「清华大」,输出为各个候选词的概率,随后选出概率最高的词即可。

如下所示,Transformer 得到 Text 的 Embedding,随后通过线性层 + softmax 转换为分类问题。 与之对比,KNN LM 在得到 Repesentation 后,不仅训练了一个分类器,还将测试 Text 的 Repesentation 与训练数据得到的 Repesentation 进行距离计算,并根据距离得到下一个词的预测概率,再与原始分类器结合起来,得到最终结果。

另外,KNN LM 可以拿任意资料与测试 Text 的 Representation 计算距离,并不局限于训练数据。因此 KNN LM 这种机制可以使模型训练时更专注于一些难度更高的问题,对于一些仅需记忆的问题则可以通过这种方式解决。

参考资料Hung-yi Lee:生成式 AI(一)Scaling Laws for Neural Language ModelsEmergent Abilities of Large Language ModelsInverse scaling can become U-shapedSwitch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient SparsityWhen Do You Need Billions of Words of Pretraining Data?Scaling Language Models: Methods, Analysis & Insights from Training GopherDeduplicating Training Data Makes Language Models BetterTraining Compute-Optimal Large Language ModelsScaling Instruction-Finetuned Language ModelsIntroduction of ChatGPTTraining language models to follow instructions with human feedbackLearning to summarize from human feedbackGgeneralization Through Memorization: Nearest Neighbor Language ModelsLanguage Is Not All You Need: Aligning Perception with Language Models
本文链接地址:https://www.jiuchutong.com/zhishi/299778.html 转载请保留说明!

上一篇:ChatGPT频频发疯!马斯克警告:AI将毁灭人类

下一篇:Jquery 选择兄弟节点(jquery 兄弟选择器)

  • vivox70pro+是5g吗(vivox70pro+12+256参数配置详情)

    vivox70pro+是5g吗(vivox70pro+12+256参数配置详情)

  • 微信可以查行程码吗(微信查行程轨迹记录)

    微信可以查行程码吗(微信查行程轨迹记录)

  • 蚂蚁森林行走不给能量(蚂蚁森林不能走路线了吗)

    蚂蚁森林行走不给能量(蚂蚁森林不能走路线了吗)

  • 荣耀x10max卡槽的位置在哪里(荣耀x10maxnm卡)

    荣耀x10max卡槽的位置在哪里(荣耀x10maxnm卡)

  • 微博直播如何观看(微博直播的观看量怎么看)

    微博直播如何观看(微博直播的观看量怎么看)

  • qq多选转发怎么没有了(qq多选转发发不出去)

    qq多选转发怎么没有了(qq多选转发发不出去)

  • 手机qq怎么@好友(手机qq怎么好友辅助申诉)

    手机qq怎么@好友(手机qq怎么好友辅助申诉)

  • word右上标怎么打(word右角标上角标)

    word右上标怎么打(word右角标上角标)

  • ipad自动跳屏怎么解决(ipad屏幕自动跳转)

    ipad自动跳屏怎么解决(ipad屏幕自动跳转)

  • 佳能3680打印机闪黄灯(佳能3680打印机三角黄灯闪)

    佳能3680打印机闪黄灯(佳能3680打印机三角黄灯闪)

  • 电脑版微信视频聊天摄像头为什么用不了(电脑版微信视频聊天怎么全屏)

    电脑版微信视频聊天摄像头为什么用不了(电脑版微信视频聊天怎么全屏)

  • qq有没有必要安装flash(qq有没有必要安装flash插件)

    qq有没有必要安装flash(qq有没有必要安装flash插件)

  • 怎样解决手机视频加载失败(手机视频屏幕不清楚怎么办)

    怎样解决手机视频加载失败(手机视频屏幕不清楚怎么办)

  • 照片打不开显示内存已满(照片打不开显示内存不足)

    照片打不开显示内存已满(照片打不开显示内存不足)

  • 微信打不开第三方应用(微信打不开第三方链接换个帐号可以用吗)

    微信打不开第三方应用(微信打不开第三方链接换个帐号可以用吗)

  • 电话怎么输入字母(电话怎么打字母)

    电话怎么输入字母(电话怎么打字母)

  • 钉钉看重播有记录吗(钉钉怎样看重播)

    钉钉看重播有记录吗(钉钉怎样看重播)

  • 苹果7指纹键可以换吗(苹果指纹键可以修吗)

    苹果7指纹键可以换吗(苹果指纹键可以修吗)

  • vivo手机查看本机号码(vivo手机查看本机ip)

    vivo手机查看本机号码(vivo手机查看本机ip)

  • vivo手机屏幕如何常亮(vivo手机屏幕如何校正)

    vivo手机屏幕如何常亮(vivo手机屏幕如何校正)

  • 看过别人的抖音会留痕迹么(看过别人的抖音会有记录吗)

    看过别人的抖音会留痕迹么(看过别人的抖音会有记录吗)

  • mate30pro延迟拍摄是4k吗(华为mate30pro拍照延迟)

    mate30pro延迟拍摄是4k吗(华为mate30pro拍照延迟)

  • 苹果手表4能独立通话吗(apple watch series 4可以独立打电话吗)

    苹果手表4能独立通话吗(apple watch series 4可以独立打电话吗)

  • 苹果手机坏了怎么把照片弄出来(苹果手机坏了怎么把照片导入新手机)

    苹果手机坏了怎么把照片弄出来(苹果手机坏了怎么把照片导入新手机)

  • 单反 光圈在哪调(单反光圈在哪怎么调)

    单反 光圈在哪调(单反光圈在哪怎么调)

  • 红米k20pro长宽比例(红米k20pro机身尺寸长宽高)

    红米k20pro长宽比例(红米k20pro机身尺寸长宽高)

  • 手机颜色怎么恢复正常(手机颜色怎么恢复正常,黑白手机怎么调颜色)

    手机颜色怎么恢复正常(手机颜色怎么恢复正常,黑白手机怎么调颜色)

  • Linux中DNS服务器地址查询命令nslookup使用教程(linux dns配置服务器)

    Linux中DNS服务器地址查询命令nslookup使用教程(linux dns配置服务器)

  • 雪花 (© TothGaborGyula/Getty Images Plus)

    雪花 (© TothGaborGyula/Getty Images Plus)

  • 分期付款发票开具
  • 商贸公司成本大吗
  • 单一窗口出口退税申报
  • 个人房贷利息抵税
  • 递延收益税务处理方法
  • 增值税发票验证
  • 试驾车抵税
  • 收到基金计入什么科目
  • 增值税普通发票几个点
  • 增值税普通发票有什么用
  • 开普通发票现金走账怎样处理?
  • 审计费用需要计什么科目
  • 2018增值税暂行条例
  • 建筑材料营改增之前怎么开发票
  • 土地契税税率怎么计算
  • 安置房视同销售需要缴纳所得税吗?
  • 预付款能开发票吗?
  • 贷款公司利息收据怎么写
  • 帮别的公司代销产品,对方公司不开具发票怎么做帐
  • 预收款项确认主营业务收入谨慎性
  • 双系统怎么卸载ubuntu
  • 固定资产清理是什么项目
  • 鸿蒙可以看小电影吗
  • 微信支付被限制是怎么回事
  • 私立医院执行什么会计准则
  • 平安树的养殖方法和浇水时间
  • 电脑上fci是什么文件
  • wordpress使用
  • .php是什么
  • php随机抽取
  • react中的key的作用
  • 建筑工程增值税怎么算
  • thinkphp伪静态nginx
  • 谷粒学院项目含金量
  • 论文阅读网站排行榜
  • 命令grep
  • sort文件名
  • yii框架教程
  • ppp中启用chap命令
  • php采集器
  • 材料暂估入库的依据有哪些
  • 超过认证期限的发票未抵扣能红冲吗
  • 无形资产摊销是按原值吗
  • PostgreSQL之分区表(partitioning)
  • Linux下MySQL卸载和安装图文教程
  • 将织梦dedecms转换到wordpress
  • 财务报表年报应怎么做
  • 制作费开票属于什么编码类型
  • 港资企业属于什么性质
  • mysql获取字段值的长度
  • 医院执行政府会计制度操作指南 .pdf
  • 关联表的作用
  • 小规模纳税人是什么意思
  • 建筑服务预征缴纳税款期初余额怎么算
  • 处置投资性房地产时影响营业成本的金额
  • 长期股权投资股利确认时间点
  • 公共电话亭的话费怎么算
  • 会计做账的原始凭证有哪些
  • 2020年扶贫拨款
  • 常见的递延所得税
  • 未收到发票暂估分录
  • 自产的产品作为福利增值税
  • 机票抵扣怎么填申报表
  • 如何判断企业实际控制人
  • 工程担保属于什么
  • 劳动者权益包含哪些
  • 多种不同的 MySQL 的 SSL 配置
  • usbmmkbd.exe - usbmmkbd是什么进程
  • winxp系统怎么装
  • win7关机太慢怎么办
  • rsmsink.exe - rsmsink是什么进程 有何作用
  • kdeskcore.exe是什么
  • linux常用命令kill
  • win7系统桌面右键没有个性化
  • Node.js中的construct
  • 全面理解和准确把握新时代党的建设总要求心得体会
  • js获取当前时间
  • jquery旋转动画
  • 前端jsonp解决跨域
  • android 屏幕适配方案
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设