位置: IT常识 - 正文

Transformer中的Q/K/V理解(transformer中的token)

编辑:rootadmin
Transformer中的Q/K/V理解

推荐整理分享Transformer中的Q/K/V理解(transformer中的token),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:transformer中的mask,transformer中的embedding,transformer中的mlp,transformer中的mask,transformer中的mlp的作用,transformer中的token,transformer中的位置编码,transformer中的位置编码如何起作用,内容如对您有帮助,希望把文章链接给更多的朋友!

输入句子序列:我爱吃酸菜鱼

上图为输入矩阵,每个token的维度为768维,则矩阵维度为Lx768。

第一步:通过乘以线性变化矩阵(维度为768x768),得到矩阵Q,K,V(维度为Lx768):

上图为线性变换后得到的矩阵Q,K,V,维度为Lx768,和输入矩阵相比维度未发生变化。

为什么叫自注意力网络:因为可以看到Q/K/V都是通过同一句话的输入算出来的。

第二步:将矩阵Q与相乘:

*向量点积可以表征向量间的相似程度或关联程度

Transformer中的Q/K/V理解(transformer中的token)

首先用Q的第一行,即“我”字的768特征和K中“我”字的768维特征点乘求和,得到输出(0,0)位置的数值,这个数值就代表了“我想吃酸菜鱼”中“我”字对“我”字的注意力权重,然后显而易见输出的第一行就是“我”字对“我想吃酸菜鱼”里面每个字的注意力权重。整个结果自然就是“我想吃酸菜鱼”里面每个字对其它字(包括自己)的注意力权重(就是一个数值)~以此得到注意力权重矩阵(LxL)。

第三步:对注意力权重矩阵进行处理,除以,并通过softmax函数转化:

这个dim就是768,至于为什么要除以这个数值?主要是为了缩小点积范围,确保softmax梯度稳定性。然后就是为什么要softmax,一种解释是为了保证注意力权重的非负性,同时增加非线性。

第四步:注意力权重矩阵与矩阵V相乘:

首先是“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重,和V中“我想吃酸菜鱼”里面每个字的第一维特征进行相乘再求和,这个过程其实就相当于用每个字的权重对每个字的特征进行加权求和,然后再用“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重和V中“我想吃酸菜鱼”里面每个字的第二维特征进行相乘再求和,依次类推~最终也就得到了Lx768维的结果矩阵,和输入保持一致~

K和V中,如果同时替换任意两个字的位置,对最终的结果是不会有影响的。也就是说注意力机制是没有位置信息的,不像CNN/RNN/LSTM。这也是为什么要引入position embedding的原因。

可以将V看作一个token序列,序列中的每个token在一开始都是互相独立的,信息量有限。而想要让每个token包含更多的信息,一个办法就是让每个token去融合该序列中其他token的信息。融合方式中,最差的方法是取平均(mean pool),会有大量实际不相关的信息被融入; 更好的方式是按照该token和其他token的相关度加权求和。

那么问题来了,怎么看V中每一个token和其他token的相关度,并将相关度量化成权重数值(用于最终的加权求和)?

这个时候,Q和K来了,Q是询问的token(对应到V中的某个token),K是被询问的token序列,Q问K,你的哪个token跟我最像?Q挨个问一遍K中的token,每个token和Q比较后(点积)得到一个和Q的相似程度,组成一个相似度序列。

相似度序列归一化后变成一个和为1序列,可以看成是一个权重。

参考:https://www.zhihu.com/people/zui-tian-20-46/answers

参考:https://www.zhihu.com/question/298810062/answer/1829118404

本文链接地址:https://www.jiuchutong.com/zhishi/298938.html 转载请保留说明!

上一篇:无云服务器,Linux本地快速搭建web网站,并内网穿透发布上线(云服务器 chia)

下一篇:【JavaScript】JS实用案例分享:输入智能提示 | 打字机输出效果(js示例)

  • 魅族17支持光学防抖能吗(魅族17有激光对焦吗)

    魅族17支持光学防抖能吗(魅族17有激光对焦吗)

  • 有淘宝主播id号,怎么搜(淘宝直播间主播id)

    有淘宝主播id号,怎么搜(淘宝直播间主播id)

  • vivoz6什么时候上市(vivoz6什么时候出的)

    vivoz6什么时候上市(vivoz6什么时候出的)

  • rx580显卡上面有个开关是啥(rx5800显卡)

    rx580显卡上面有个开关是啥(rx5800显卡)

  • 腾讯会议后台运行老师能看见吗

    腾讯会议后台运行老师能看见吗

  • 戴尔笔记本开机黑屏什么都不显示(戴尔笔记本开机滴滴响5声)

    戴尔笔记本开机黑屏什么都不显示(戴尔笔记本开机滴滴响5声)

  • qq昵称变成qq号(qq昵称变成qq号怎么改回来)

    qq昵称变成qq号(qq昵称变成qq号怎么改回来)

  • 华为p30滤镜在哪(华为p30滤镜在哪里找)

    华为p30滤镜在哪(华为p30滤镜在哪里找)

  • 荣耀9x与华为nova5z对比(荣耀9x与华为nova6se对比)

    荣耀9x与华为nova5z对比(荣耀9x与华为nova6se对比)

  • 自己手机怎样登录别人的QQ(我用手机怎么登录)

    自己手机怎样登录别人的QQ(我用手机怎么登录)

  • 华为手机有系统分身吗(华为手机有系统吗)

    华为手机有系统分身吗(华为手机有系统吗)

  • 苹果美版xsmax是双卡吗(美版苹果xsmax怎么样)

    苹果美版xsmax是双卡吗(美版苹果xsmax怎么样)

  • iphonex指纹解锁在哪(iphonex 指纹识别)

    iphonex指纹解锁在哪(iphonex 指纹识别)

  • 苹果8plus横屏怎么调(苹果8p怎样横屏)

    苹果8plus横屏怎么调(苹果8p怎样横屏)

  • 手机分辨率指什么(手机分辨率是什么意思?)

    手机分辨率指什么(手机分辨率是什么意思?)

  • 怎样查电脑浏览器版本(怎样查电脑浏览记录历史)

    怎样查电脑浏览器版本(怎样查电脑浏览记录历史)

  • 苹果7的诊断与用量在哪(苹果7手机诊断功能在哪里)

    苹果7的诊断与用量在哪(苹果7手机诊断功能在哪里)

  • 京东闲聊是什么(京东闲着赚软件正规吗)

    京东闲聊是什么(京东闲着赚软件正规吗)

  • 微博取关的人怎么找回(微博取关的人怎么找回来)

    微博取关的人怎么找回(微博取关的人怎么找回来)

  • vivox27参数充电快吗(vivox27手机充电器是多少瓦)

    vivox27参数充电快吗(vivox27手机充电器是多少瓦)

  • 华为手机gps信号弱无法导航怎么回事(华为手机gps信号弱导航不了)

    华为手机gps信号弱无法导航怎么回事(华为手机gps信号弱导航不了)

  • 苹果a1701是ipad几代(苹果a1701是什么版本)

    苹果a1701是ipad几代(苹果a1701是什么版本)

  • 电脑搜不到打印机设备(电脑搜不到打印机型号怎么办)

    电脑搜不到打印机设备(电脑搜不到打印机型号怎么办)

  • icwconn2.exe进程是什么文件的 icwconn2进程能删吗(lcasensor是什么进程)

    icwconn2.exe进程是什么文件的 icwconn2进程能删吗(lcasensor是什么进程)

  • autoheader命令  创建C定义的模板文件(head -1命令)

    autoheader命令 创建C定义的模板文件(head -1命令)

  • 个体工商户的纳税人类型怎么选
  • 番茄开发票属于蔬菜吗
  • 施工劳务企业要交增值税吗
  • 手工发票可以抵增值税吗
  • 电子承兑到期怎么操作流程
  • 除了缴纳的税金还有什么
  • 购货无法取得发票财务如何处理
  • 发票冲红增值税怎么申报
  • 收到小规模企业农产品普票可以抵扣进项税吗?
  • 企业分立房产税税收政策
  • 转增股 分红
  • 企业借款不能超过资金多少
  • 年底增值税专用发票入帐不勾选抵扣帐务处理
  • 公司成本票不够交税多少
  • 专票认证不通过退回
  • 建安企业劳务成本怎么入账
  • 合作社未按时报税怎么处理?
  • 怎样冲回多提应收账款?
  • 收到联营企业分派的现金股利为什么不计入利润总额
  • 补充医疗保险报销流程
  • 实收资本减值会计处理
  • 转让金融商品应交增值税计算公式
  • 如何玩转win11
  • win10专业版激活密钥永久
  • u盘文件全都变成快捷方式怎么办
  • 监理多计量承担什么责任
  • 在建工程的概念
  • 汇率调整怎么做分录
  • 对公账户转私人账户有限额吗
  • apache配置多个项目
  • 从价计征房产税如何计算
  • 房产税的应纳税额计算方法
  • 微信小程序四人游戏
  • 深度学习之GPU显存与利用率 浅析小结
  • element ui el-tree
  • 分包工程账务处理
  • jquery制作轮播切换效果
  • php实现和工作原理
  • 其他综合收益的构成项目如何
  • php点击下载
  • 毕业设计基于web难还是JAVA
  • 所得税费用科目的贷方登记
  • 收到利息收入计入什么科目
  • 收回多发的工资在上缴财政,可以用应缴财政款科目吗
  • python怎么用
  • 帝国cms登录
  • mysql基本命令大全
  • phpcms任意文件上传
  • 税控设备抵减增值税必须当月抵减吗
  • 丢失增值税发票怎么办
  • sqlmap暴力破解
  • sqlserver无法打开备份设备
  • 原材料专票入库怎么入账
  • 开票有误重新开票怎么做分录
  • 企业营业外收入有哪些
  • 分公司挣的钱归谁所有
  • 账面价值和公允价值的关系
  • 知识产权申请如何申请
  • 开发成本期末如何结转
  • 成品油经销企业资质
  • 招待费如何做账科目
  • 应付账款平账调到哪个科目
  • 残次品销售计入什么科目
  • 小规模纳税人能抵扣进项税额吗
  • 工会费上缴
  • 什么样的原始凭证不能用
  • win10任务栏恢复原样
  • VirtualBOX给CentOS建共享文件夹的方法
  • 千元以内电脑
  • vim配置语法高亮
  • 微软推送win11
  • 三消游戏在线
  • js 数组去重的四种方法
  • python的cumprod
  • 河南查询税务登记怎么查
  • 卫生志愿服务活动
  • 土地增值税网上申报流程
  • 江苏印花税申报操作流程
  • 小规模纳税人达到一般纳税人标准
  • 贵州泉源会计服务有限公司花溪店位置
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设