位置: IT常识 - 正文

Transformer中的Q/K/V理解(transformer中的token)

编辑:rootadmin
Transformer中的Q/K/V理解

推荐整理分享Transformer中的Q/K/V理解(transformer中的token),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:transformer中的mask,transformer中的embedding,transformer中的mlp,transformer中的mask,transformer中的mlp的作用,transformer中的token,transformer中的位置编码,transformer中的位置编码如何起作用,内容如对您有帮助,希望把文章链接给更多的朋友!

输入句子序列:我爱吃酸菜鱼

上图为输入矩阵,每个token的维度为768维,则矩阵维度为Lx768。

第一步:通过乘以线性变化矩阵(维度为768x768),得到矩阵Q,K,V(维度为Lx768):

上图为线性变换后得到的矩阵Q,K,V,维度为Lx768,和输入矩阵相比维度未发生变化。

为什么叫自注意力网络:因为可以看到Q/K/V都是通过同一句话的输入算出来的。

第二步:将矩阵Q与相乘:

*向量点积可以表征向量间的相似程度或关联程度

Transformer中的Q/K/V理解(transformer中的token)

首先用Q的第一行,即“我”字的768特征和K中“我”字的768维特征点乘求和,得到输出(0,0)位置的数值,这个数值就代表了“我想吃酸菜鱼”中“我”字对“我”字的注意力权重,然后显而易见输出的第一行就是“我”字对“我想吃酸菜鱼”里面每个字的注意力权重。整个结果自然就是“我想吃酸菜鱼”里面每个字对其它字(包括自己)的注意力权重(就是一个数值)~以此得到注意力权重矩阵(LxL)。

第三步:对注意力权重矩阵进行处理,除以,并通过softmax函数转化:

这个dim就是768,至于为什么要除以这个数值?主要是为了缩小点积范围,确保softmax梯度稳定性。然后就是为什么要softmax,一种解释是为了保证注意力权重的非负性,同时增加非线性。

第四步:注意力权重矩阵与矩阵V相乘:

首先是“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重,和V中“我想吃酸菜鱼”里面每个字的第一维特征进行相乘再求和,这个过程其实就相当于用每个字的权重对每个字的特征进行加权求和,然后再用“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重和V中“我想吃酸菜鱼”里面每个字的第二维特征进行相乘再求和,依次类推~最终也就得到了Lx768维的结果矩阵,和输入保持一致~

K和V中,如果同时替换任意两个字的位置,对最终的结果是不会有影响的。也就是说注意力机制是没有位置信息的,不像CNN/RNN/LSTM。这也是为什么要引入position embedding的原因。

可以将V看作一个token序列,序列中的每个token在一开始都是互相独立的,信息量有限。而想要让每个token包含更多的信息,一个办法就是让每个token去融合该序列中其他token的信息。融合方式中,最差的方法是取平均(mean pool),会有大量实际不相关的信息被融入; 更好的方式是按照该token和其他token的相关度加权求和。

那么问题来了,怎么看V中每一个token和其他token的相关度,并将相关度量化成权重数值(用于最终的加权求和)?

这个时候,Q和K来了,Q是询问的token(对应到V中的某个token),K是被询问的token序列,Q问K,你的哪个token跟我最像?Q挨个问一遍K中的token,每个token和Q比较后(点积)得到一个和Q的相似程度,组成一个相似度序列。

相似度序列归一化后变成一个和为1序列,可以看成是一个权重。

参考:https://www.zhihu.com/people/zui-tian-20-46/answers

参考:https://www.zhihu.com/question/298810062/answer/1829118404

本文链接地址:https://www.jiuchutong.com/zhishi/298938.html 转载请保留说明!

上一篇:无云服务器,Linux本地快速搭建web网站,并内网穿透发布上线(云服务器 chia)

下一篇:【JavaScript】JS实用案例分享:输入智能提示 | 打字机输出效果(js示例)

  • 增值税发票综合服务平台怎么下载
  • 建筑综合税率包含企业所得税吗
  • 备用金支出怎么记账
  • 企业所得税成本费用大于发票金额的原因
  • 资产负债表不平的原因有哪些
  • 房地产项目结转条件
  • 固定资产分配分录
  • 应付职工薪酬期初余额在哪方
  • 汽车的购置税可以不交吗
  • 170平方的房子装修费用
  • 给分公司开发票由总公司付款怎么办?
  • 低值易耗品摊销什么意思
  • 小规模代开增值税专票开错了如何处理?
  • 营改增后房地产开发税费一览表
  • 提供建筑服务应在发票备注栏注明
  • 个税申报中劳务报酬
  • 个人借款给公司借条怎么写
  • 小规模纳税人开了3%的专票还能享受1%
  • 预收账款抵扣怎么做分录
  • 怎么看是不是专用发票
  • 数量和单价的乘积
  • 资本公积的借方和贷方各表示什么
  • 客户的佣金
  • 招标服务费计算公式
  • 服务佣金是什么意思
  • 会计分录中结转是什么意思
  • 出租的设备
  • 个人所得税算少了怎么办
  • win10网络带宽
  • 工地安装监控哪个部门管
  • 进口货物怎样报关
  • 2022年苹果iphone14视频配音乐
  • bios 和 uefi
  • vscode怎么开始编程
  • 固定资产一次性扣除申报表怎么填
  • 提足折旧仍使用的逾龄房产是否交房产税
  • 个体工商户筹集资金的难易程度
  • 埃莫尔斯
  • 工程师模式有什么用
  • 怎么查询开具的红字发票
  • 医疗报销发票是什么样的
  • 形成固定资产的主要手段是
  • 经典帝国cms生成器下载
  • 投资款印花税税源采集表税目
  • 所得税预缴申报表资产总额怎么填
  • 公司聘用临时工需要买社保吗
  • 深入mysql源码
  • 什么是异地企业
  • 研发折旧怎么分类
  • 自己做的房子可以办房产证吗
  • 退回的个税手续费如何账务处理
  • 城市综合配套
  • 收付实现制下主营业务成本怎么算
  • 对子公司的投资损失可以税前扣除吗
  • sql 关系数据库
  • mysql int(3)与int(11)的区别详解
  • win8下载软件
  • 升级bios后无法启动
  • linux磁盘格式化后一定会清空数据吗
  • mac下使用8086汇编
  • win8如何打开开始菜单
  • linux shell 函数参数
  • win10可以关闭的功能
  • 微软禁用windows
  • win7旗舰版u盘在电脑上读不出来
  • linux安装后没有网卡只有lo
  • 如何设置edittext控件中的文字
  • 批处理文件是脚本吗
  • linux中date命令详解
  • js双击触发
  • JavaScript事件处理器中的event参数使用介绍
  • 用jquery
  • html5webview交互
  • python3正则
  • unity3d怎么控制人物移动
  • 面向对象的程序设计语言是
  • 国家税务局发票验证查询系统
  • 开票软件连接服务器失败什么原因
  • 县级税务
  • 土地分割抵押 如何实现抵押权
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设