位置: IT常识 - 正文

Transformer中的Q/K/V理解(transformer中的token)

编辑:rootadmin
Transformer中的Q/K/V理解

推荐整理分享Transformer中的Q/K/V理解(transformer中的token),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:transformer中的mask,transformer中的embedding,transformer中的mlp,transformer中的mask,transformer中的mlp的作用,transformer中的token,transformer中的位置编码,transformer中的位置编码如何起作用,内容如对您有帮助,希望把文章链接给更多的朋友!

输入句子序列:我爱吃酸菜鱼

上图为输入矩阵,每个token的维度为768维,则矩阵维度为Lx768。

第一步:通过乘以线性变化矩阵(维度为768x768),得到矩阵Q,K,V(维度为Lx768):

上图为线性变换后得到的矩阵Q,K,V,维度为Lx768,和输入矩阵相比维度未发生变化。

为什么叫自注意力网络:因为可以看到Q/K/V都是通过同一句话的输入算出来的。

第二步:将矩阵Q与相乘:

*向量点积可以表征向量间的相似程度或关联程度

Transformer中的Q/K/V理解(transformer中的token)

首先用Q的第一行,即“我”字的768特征和K中“我”字的768维特征点乘求和,得到输出(0,0)位置的数值,这个数值就代表了“我想吃酸菜鱼”中“我”字对“我”字的注意力权重,然后显而易见输出的第一行就是“我”字对“我想吃酸菜鱼”里面每个字的注意力权重。整个结果自然就是“我想吃酸菜鱼”里面每个字对其它字(包括自己)的注意力权重(就是一个数值)~以此得到注意力权重矩阵(LxL)。

第三步:对注意力权重矩阵进行处理,除以,并通过softmax函数转化:

这个dim就是768,至于为什么要除以这个数值?主要是为了缩小点积范围,确保softmax梯度稳定性。然后就是为什么要softmax,一种解释是为了保证注意力权重的非负性,同时增加非线性。

第四步:注意力权重矩阵与矩阵V相乘:

首先是“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重,和V中“我想吃酸菜鱼”里面每个字的第一维特征进行相乘再求和,这个过程其实就相当于用每个字的权重对每个字的特征进行加权求和,然后再用“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重和V中“我想吃酸菜鱼”里面每个字的第二维特征进行相乘再求和,依次类推~最终也就得到了Lx768维的结果矩阵,和输入保持一致~

K和V中,如果同时替换任意两个字的位置,对最终的结果是不会有影响的。也就是说注意力机制是没有位置信息的,不像CNN/RNN/LSTM。这也是为什么要引入position embedding的原因。

可以将V看作一个token序列,序列中的每个token在一开始都是互相独立的,信息量有限。而想要让每个token包含更多的信息,一个办法就是让每个token去融合该序列中其他token的信息。融合方式中,最差的方法是取平均(mean pool),会有大量实际不相关的信息被融入; 更好的方式是按照该token和其他token的相关度加权求和。

那么问题来了,怎么看V中每一个token和其他token的相关度,并将相关度量化成权重数值(用于最终的加权求和)?

这个时候,Q和K来了,Q是询问的token(对应到V中的某个token),K是被询问的token序列,Q问K,你的哪个token跟我最像?Q挨个问一遍K中的token,每个token和Q比较后(点积)得到一个和Q的相似程度,组成一个相似度序列。

相似度序列归一化后变成一个和为1序列,可以看成是一个权重。

参考:https://www.zhihu.com/people/zui-tian-20-46/answers

参考:https://www.zhihu.com/question/298810062/answer/1829118404

本文链接地址:https://www.jiuchutong.com/zhishi/298938.html 转载请保留说明!

上一篇:无云服务器,Linux本地快速搭建web网站,并内网穿透发布上线(云服务器 chia)

下一篇:【JavaScript】JS实用案例分享:输入智能提示 | 打字机输出效果(js示例)

  • 缘来缘去(缘来缘去缘如水下一句)

    缘来缘去(缘来缘去缘如水下一句)

  • 农业银行卡预留手机号可以在手机上修改吗(农业银行卡预留手机号)

    农业银行卡预留手机号可以在手机上修改吗(农业银行卡预留手机号)

  • 微信可以直接扫哈罗单车吗(微信可以直接扫码登录吗)

    微信可以直接扫哈罗单车吗(微信可以直接扫码登录吗)

  • 建行电子流水账单怎么导出来(建行电子流水账单解压码)

    建行电子流水账单怎么导出来(建行电子流水账单解压码)

  • 荣耀30s支持otg功能吗

    荣耀30s支持otg功能吗

  • 手机剪卡剪坏了怎么办(手机卡用剪刀剪坏了)

    手机剪卡剪坏了怎么办(手机卡用剪刀剪坏了)

  • iPhone11熄屏也能显示时间(苹果十一熄屏)

    iPhone11熄屏也能显示时间(苹果十一熄屏)

  • 闲鱼不确认收货要多久才能收到钱(闲鱼不确认收货申请退款不同意能收到钱吗)

    闲鱼不确认收货要多久才能收到钱(闲鱼不确认收货申请退款不同意能收到钱吗)

  • wps工具栏没有审阅怎么办(wps工具栏不显示图标)

    wps工具栏没有审阅怎么办(wps工具栏不显示图标)

  • 美团到店自取怎么确认收货(美团到店自取怎么设置商家版)

    美团到店自取怎么确认收货(美团到店自取怎么设置商家版)

  • 大王卡能打电话吗(大王卡能打电话用吗)

    大王卡能打电话吗(大王卡能打电话用吗)

  • iphone11耗电快怎么办(iphone11耗电快)

    iphone11耗电快怎么办(iphone11耗电快)

  • x怎么强制关机(苹果xsmax怎么强制关机)

    x怎么强制关机(苹果xsmax怎么强制关机)

  • 红米7后盖如何打开(红米7后盖如何拆)

    红米7后盖如何打开(红米7后盖如何拆)

  • 重启和关机再开机一样吗(重启和关机再开机的区别)

    重启和关机再开机一样吗(重启和关机再开机的区别)

  • 苹果序列号以d开头是什么(苹果序列号以G开头)

    苹果序列号以d开头是什么(苹果序列号以G开头)

  • led显示屏的基本组成(LED显示屏的基本组成单元是)

    led显示屏的基本组成(LED显示屏的基本组成单元是)

  • 微信录音在哪里找到(微信录音在哪里打开权限)

    微信录音在哪里找到(微信录音在哪里打开权限)

  • ipad5代是什么型号(ipad 5代是什么)

    ipad5代是什么型号(ipad 5代是什么)

  • iqoo怎么手动打开液冷(iqoo手机怎么叫)

    iqoo怎么手动打开液冷(iqoo手机怎么叫)

  • 南航国内航班有wifi吗(南航国内航班有多少座位)

    南航国内航班有wifi吗(南航国内航班有多少座位)

  • 华为怎么设置备忘录提醒(华为怎么设置备忘录密码)

    华为怎么设置备忘录提醒(华为怎么设置备忘录密码)

  • 华为jsn一al00a是什么型号(华为型号jsn-al00a)

    华为jsn一al00a是什么型号(华为型号jsn-al00a)

  • 小米系统msa是什么(miuimsa是什么意思)

    小米系统msa是什么(miuimsa是什么意思)

  • bootstrap数据是什么意思(bootstrap数据库)

    bootstrap数据是什么意思(bootstrap数据库)

  • 苹果下载的视频在哪里(苹果下载的视频怎么保存到相册)

    苹果下载的视频在哪里(苹果下载的视频怎么保存到相册)

  • 微信步数是怎么计算的(微信步数是怎么记的)

    微信步数是怎么计算的(微信步数是怎么记的)

  • 布列塔尼大区的城市圣马洛,法国 (© Mathieu Rivrin/Moment/Getty Images)(布列塔尼岛屿)

    布列塔尼大区的城市圣马洛,法国 (© Mathieu Rivrin/Moment/Getty Images)(布列塔尼岛屿)

  • 企业为职工提供无偿服务
  • 合并报表调整分录理解
  • 采购返利怎么生成发票
  • 外资企业对应的企业是什么
  • 企业预算管理为何要以企业战略,核心竞争力,风险为导向
  • 二手房增值税如何交
  • 单位缴纳的社保在哪里查询
  • 监理费可以由施工方出吗
  • 固定资产减半征收2%申报如何填增值税纳税申报表
  • 事业单位去年的年假今年可以休吗
  • 待清算直销银行
  • 旧房转让如何缴纳土地增值税
  • 住房公积金做账怎么看交了哪些人
  • 发票两边的孔怎么做
  • 出口企业取得失业保险
  • 极路由好用吗
  • 戴尔开启vt教程
  • flash设置旋转
  • 非经营性单位支出费用是什么
  • 公司补缴印花税怎么申报
  • 专项资金支出时能直接转出吗
  • 苹果输入法快捷键怎么调出来
  • win7为什么现在不能用了
  • 待摊费用计入哪里
  • 冲回上年多提的费用会计分录
  • 退货时会计分录的银行存款能是负数吗
  • 车辆赔偿款收条怎么写
  • vue怎么做兼容
  • 英国布莱顿霍夫怎么样
  • 企业注销清算需要交什么税
  • 马卡雷纳大教堂
  • 偿还应付账款会使得资产报酬率增加吗
  • vuenode前后端交互的方式
  • 社保新参统委托代发银行
  • 金融企业的代理业务
  • 利息收入包括
  • python getpass模块
  • 股权对价支付
  • 工程发票需要备注吗
  • mac node-gyp
  • 前年度多交附加税怎么交
  • 企业所得税季末资产总额
  • 使用mysqldump备份数据库
  • 代开发票可能遇到的问题是?
  • 公司购买股票会计分录怎么做
  • 未取得发票如何报销
  • 债务重组的方式不包括借新债还旧债
  • 建筑公司挂靠单位的财务处理是?
  • 委托加工物资的加工费计入什么科目
  • 关于消费税的会计处理
  • 上年未计提所得税,本年怎么做分录
  • 计划成本法和实际成本法的适用范围
  • 日常费用报销流程是什么样的?
  • 预收账款怎么做账
  • 私营企业主的现金流特征
  • 修改企业账套的步骤
  • 大型商业企业
  • mysql中的groupby
  • 怎么统计每日产量
  • vmware虚拟机怎么克隆
  • WorkFlowTray.exe是什么进程
  • win8打开桌面
  • 苹果电脑重新安装macos失败
  • xp桌面底部任务在右边
  • fnthex32.dll
  • win10玩cf几分钟无响应
  • 怎么在mac上查找iphone
  • win7登录不进去
  • cocos-2dx
  • perl $?
  • unity的协程
  • javascript入门教程
  • unity3d 使用Quaternion 类实现两个简单功能
  • jquery 表单
  • python解析excel文档
  • jquery如何实现轮播图
  • 上海市国家税务局地址
  • 税务总局电子申报软件怎么用
  • 个人股权转让是否增值了怎么判断
  • 交医保显示已申报怎么办
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设