位置: IT常识 - 正文

生成式 AI 分析:大模型 + 大量数据的神奇效果(ai形成生成器工具怎么用)

编辑:rootadmin
原力计划生成式 AI 分析:大模型 + 大量数据的神奇效果 前言

推荐整理分享生成式 AI 分析:大模型 + 大量数据的神奇效果(ai形成生成器工具怎么用),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:生成.a,ai形成生成器工具怎么用,生成式方法,ai生成模型,基于ai的生成器,生成式方法,基于ai的生成器,ai生成技术,内容如对您有帮助,希望把文章链接给更多的朋友!

如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。

大模型的涌现能力 (Emergent Ability)

下图是模型性能(Loss for next token prediction)与「参数量」和「数据集大小」之间的关系,可以看出随着「参数量」和「数据集大小」不断变大,模型性能不断增强,仿佛不会遇到瓶颈。

下图展现了大模型的涌现能力,即语言模型的性能随着参数量增加并不是线性关系,而是突然跃升,即涌现。在未达到门槛之前,性能一直在随机的水平徘徊。

Calibration

在上面的实验图中,Calibration 指「模型置信度」与「真实概率」之间的关系,即满足「置信度高 -> 正确」、「置信度低 -> 可能错误」的模型,其 Calibration 指标越好。

因此 Calibration 实际上对应着「模型是否知道自己错了」这件事,如下图所示,不同参数量的模型对应不同的颜色,可以看到模型越大,其对自己是否出错的把握越大,即「模型置信度」与「真实概率」更为贴合。

Inverse Scaling Prize

一个比赛,奖金悬赏,寻找能让「模型越大,性能越差」的任务。

在这个比赛的任务中,许多之前的 “大模型” 随着参数量变大,其性能确实变差了,但当拿出更大的模型之后,其性能又好了起来,并产生了一段 U 型曲线。

这个比赛中的任务,一般都是「具体误导性的」,例如下述这个例子:

因此对于上述这种 U 型曲线,一种猜测是:这些任务里通常包含着一些误导任务,例如上述的 5 元,当模型还没有很大的时候,由于一知半解,就会接受被误导的方法,进而使其比随机效果还要差,但当其变得足够大时,就会得到真正的结果,类似于上述的计算期望值。

Switch Transformer生成式 AI 分析:大模型 + 大量数据的神奇效果(ai形成生成器工具怎么用)

Switch Transformer 模型参数量为 1.6T(GPT-3 为 1750 亿,GPT-3.5 为 2000 亿),其使用了 Mixture-of-expert 的结构,即在模型推断(Inference)的时候,选取不同的 Module,进而加快推断速度。

大数据的重要性

足够大量的数据才能让模型学会「常识,即世界知识」,如下图所示,横坐标为数据量。 数据集准备过程:

过滤有害内容(google 安全搜索)去除 HTML 标签用规则去除低品质数据去除重复数据过滤出测试集(例如 GPT-3 就未过滤出测试集)

「大模型」还是「大数据」

在固定的运算资源时,应该优先「大模型」还是「大数据」?看目前的趋势,模型大小越来越大,但训练数据量并没有明显变化。

根据下图(颜色代表固定的运算资源,横坐标为参数量,参数量越大,数据量越小),可以发现「大模型」和「大数据」需要取得平衡,只增加模型大小,不增加算力,只会让训练结果变得更差。

每个 U 型曲线取一个最低点,得到下图所示的算力与参数量(Parameters)和数据量(Tokens)之间的关系。

根据上述估计图,Google 重新估计了 Gopher(参数量为 280 Billion,数据量为 300 Billion) 对应的算力下,应该采取的参数量和数据量方案,于是训练得到了 Chinchilla(参数量为 63 Billon,数据量为 1.4 Trillion)。对比之后,发现 Chinchilla 大胜 Gopher。

根据上述结果,进一步给出了具体的「参数量」与「数据量」之间的关系:

最新的 LLaMA 也采用了这种「减少参数量,扩大数据量」的方案:

KNN LM

通常来说,语言模型在做一个分类问题,即输入为「清华大」,输出为各个候选词的概率,随后选出概率最高的词即可。

如下所示,Transformer 得到 Text 的 Embedding,随后通过线性层 + softmax 转换为分类问题。 与之对比,KNN LM 在得到 Repesentation 后,不仅训练了一个分类器,还将测试 Text 的 Repesentation 与训练数据得到的 Repesentation 进行距离计算,并根据距离得到下一个词的预测概率,再与原始分类器结合起来,得到最终结果。

另外,KNN LM 可以拿任意资料与测试 Text 的 Representation 计算距离,并不局限于训练数据。因此 KNN LM 这种机制可以使模型训练时更专注于一些难度更高的问题,对于一些仅需记忆的问题则可以通过这种方式解决。

参考资料Hung-yi Lee:生成式 AI(一)Scaling Laws for Neural Language ModelsEmergent Abilities of Large Language ModelsInverse scaling can become U-shapedSwitch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient SparsityWhen Do You Need Billions of Words of Pretraining Data?Scaling Language Models: Methods, Analysis & Insights from Training GopherDeduplicating Training Data Makes Language Models BetterTraining Compute-Optimal Large Language ModelsScaling Instruction-Finetuned Language ModelsIntroduction of ChatGPTTraining language models to follow instructions with human feedbackLearning to summarize from human feedbackGgeneralization Through Memorization: Nearest Neighbor Language ModelsLanguage Is Not All You Need: Aligning Perception with Language Models
本文链接地址:https://www.jiuchutong.com/zhishi/299778.html 转载请保留说明!

上一篇:ChatGPT频频发疯!马斯克警告:AI将毁灭人类

下一篇:Jquery 选择兄弟节点(jquery 兄弟选择器)

  • 大数据时代下的邮件群发怎样进行良性循环(大数据时代下的电子政务个人发言提纲)

    大数据时代下的邮件群发怎样进行良性循环(大数据时代下的电子政务个人发言提纲)

  • 平安是福(水田里的意外)(平安是福是啥意思)

    平安是福(水田里的意外)(平安是福是啥意思)

  • 华为nova7pro支持内存扩展的吗(华为nova7pro支持nfc功能吗)

    华为nova7pro支持内存扩展的吗(华为nova7pro支持nfc功能吗)

  • 抖音将对方拉黑有提示吗(抖音将对方拉黑后又拉回来,对方会知道吗)

    抖音将对方拉黑有提示吗(抖音将对方拉黑后又拉回来,对方会知道吗)

  • iPhone11镜头要不要贴膜(苹果11镜头需要保护吗)

    iPhone11镜头要不要贴膜(苹果11镜头需要保护吗)

  • 苹果11卡槽怎么放双卡(苹果11卡槽怎么放)

    苹果11卡槽怎么放双卡(苹果11卡槽怎么放)

  • cad无法复制到剪贴板(cad无法复制到剪切板怎回事)

    cad无法复制到剪贴板(cad无法复制到剪切板怎回事)

  • ios13.4.1可以降级吗(ios13.4 降级)

    ios13.4.1可以降级吗(ios13.4 降级)

  • 淘宝直播可以用电脑吗(淘宝直播可以用虚拟背景吗)

    淘宝直播可以用电脑吗(淘宝直播可以用虚拟背景吗)

  • 视频号是什么意思(视频号是什么意思怎样删除)

    视频号是什么意思(视频号是什么意思怎样删除)

  • 专辑预售和正式开售的区别(专辑预售和正式发售有什么区别)

    专辑预售和正式开售的区别(专辑预售和正式发售有什么区别)

  • 豆瓣为什么帖子不能删除(豆瓣有些帖子看不了)

    豆瓣为什么帖子不能删除(豆瓣有些帖子看不了)

  • 手机卡顿闪退是哪里出现了问题(手机卡顿闪退是中病毒了吗)

    手机卡顿闪退是哪里出现了问题(手机卡顿闪退是中病毒了吗)

  • qq余额明细怎么删除(qq钱包余额明细)

    qq余额明细怎么删除(qq钱包余额明细)

  • 淘宝退货退款需要自己承担来回运费吗(淘宝退货退款需要和商家沟通吗)

    淘宝退货退款需要自己承担来回运费吗(淘宝退货退款需要和商家沟通吗)

  • 小米照片打印机连接不上(小米照片打印机怎么样)

    小米照片打印机连接不上(小米照片打印机怎么样)

  • 手机正面朝地摔了黑屏(手机正面朝上摔下去会坏吗)

    手机正面朝地摔了黑屏(手机正面朝上摔下去会坏吗)

  • qualcomm snapdragon632是什么处理器(qualcomm snapdragon632g)

    qualcomm snapdragon632是什么处理器(qualcomm snapdragon632g)

  • 三星note9电池不耐用(三星note9电池电压多少正常)

    三星note9电池不耐用(三星note9电池电压多少正常)

  • 信号源是什么(有线电视信号源是什么)

    信号源是什么(有线电视信号源是什么)

  • oxford是什么牌子(oxford是什么牌子书包)

    oxford是什么牌子(oxford是什么牌子书包)

  • 锡箔纸可以放烤箱吗(锡箔纸可以放烤箱为什么不能放微波炉)

    锡箔纸可以放烤箱吗(锡箔纸可以放烤箱为什么不能放微波炉)

  • 苹果自动开关机在哪里设置(苹果自动开关机APP)

    苹果自动开关机在哪里设置(苹果自动开关机APP)

  • Win10版本20H2/2004 Build 19042.746/19041.746累积更新补丁KB4598242推送(Win10版本21H2卡死)

    Win10版本20H2/2004 Build 19042.746/19041.746累积更新补丁KB4598242推送(Win10版本21H2卡死)

  • 增值税专用发票和普通发票的区别
  • 车辆购置税的税率是多少
  • 以前年度损益对应的科目
  • 筹资现金流量净额为负说明了什么问题
  • 开出收据要做财务报表吗
  • 内账采购含税怎么转不含税
  • 利润表季度怎么填写
  • 报完税没有清卡
  • 工程 开办费
  • 实收资本能是现金流出吗
  • 应交税费明细表填制
  • 建筑企业购进免税苗木1000元
  • 收益法评估的基本思路
  • 固定资产公允价值减去处置费用后的净额
  • 定额发票不够用可以申请额度要交税吗
  • 出售固定资产的净收益
  • 附加税的计税依据是实缴增值税
  • 外出拓展训练活动所花的费用怎么做分录?
  • 银行存款未达账项包括
  • 营业外收入做多了怎么办
  • 挂靠费如何纳税?
  • 代缴代扣增值税
  • 公司结算工资
  • 软件行业的收入怎么样
  • 1697510839
  • 华为p30分屏怎么操作
  • 怎么查看当前刷新率
  • 什么是商务接待与拜访
  • linux字体不清晰
  • 艾叶泡脚的方法和注意事项
  • 发代扣代缴手续费个税免
  • 总包和分包是什么关系
  • PHP:pg_result_status()的用法_PostgreSQL函数
  • 计提职工养老保险金
  • oppor11s输入法怎么清除记忆
  • 归一化的几种方法
  • 个人所得税累计扣除是什么意思
  • 印花税城建税和教育费附加怎么算
  • 代扣费用会计分录
  • 盈余公积弥补以前亏损分录
  • 税控盘全额抵扣发票怎么勾选
  • 企业所得税的计算公式三种
  • 安全生产责任险是强制险吗
  • 租金的支付期限是多久
  • 更正申报季度企业所得税
  • 债券投资属于什么
  • 房地产企业拆迁补偿费入账要求
  • 原材料基本账务处理办法
  • 单位集体旅游算工资吗
  • 长期待摊的分录
  • 现金支票存根联丢失怎么办
  • 营改增之前广告位出租
  • 公允价值的通俗理解
  • 物流公司怎么做利润高
  • linux如何安装c语言编译器
  • 获取sqlsession
  • Windows(x86,64bit)升级MySQL 5.7.17免安装版的详细教程
  • win8连接网络
  • xp系统cad32位用哪个版本
  • warning bios upgrade
  • windows7 ie
  • win7系统只有一个鼠标箭头然后重启
  • xp蓝屏事件
  • linux find命令忽略大小写
  • 电脑系统xp怎么样
  • windows无法配置在此硬件上运行
  • win7未能启动怎么办
  • nodejs操作sqlserver
  • 方块滚动代码怎么写
  • opengles 抗锯齿
  • Quick cocos2dx-Lua(V3.3R1)学习笔记(8) ---- 事件篇之单点触摸事件,让我们用精灵模仿一个按钮吧
  • cocos2dx3.3在Win7(64位)上Android开发环境搭建(提要)
  • JavaScript中setUTCFullYear()方法的使用简介
  • htc windows
  • jquery实现点击按钮
  • python怎么写字符串
  • 江苏国税电子税局
  • 经纪代理服务税率1%
  • 云南国税申报
  • 没有代理记账资格的公司能代理记账吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设