位置: IT常识 - 正文

Transformer中的Q/K/V理解(transformer中的token)

编辑:rootadmin
Transformer中的Q/K/V理解

推荐整理分享Transformer中的Q/K/V理解(transformer中的token),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:transformer中的mask,transformer中的embedding,transformer中的mlp,transformer中的mask,transformer中的mlp的作用,transformer中的token,transformer中的位置编码,transformer中的位置编码如何起作用,内容如对您有帮助,希望把文章链接给更多的朋友!

输入句子序列:我爱吃酸菜鱼

上图为输入矩阵,每个token的维度为768维,则矩阵维度为Lx768。

第一步:通过乘以线性变化矩阵(维度为768x768),得到矩阵Q,K,V(维度为Lx768):

上图为线性变换后得到的矩阵Q,K,V,维度为Lx768,和输入矩阵相比维度未发生变化。

为什么叫自注意力网络:因为可以看到Q/K/V都是通过同一句话的输入算出来的。

第二步:将矩阵Q与相乘:

*向量点积可以表征向量间的相似程度或关联程度

Transformer中的Q/K/V理解(transformer中的token)

首先用Q的第一行,即“我”字的768特征和K中“我”字的768维特征点乘求和,得到输出(0,0)位置的数值,这个数值就代表了“我想吃酸菜鱼”中“我”字对“我”字的注意力权重,然后显而易见输出的第一行就是“我”字对“我想吃酸菜鱼”里面每个字的注意力权重。整个结果自然就是“我想吃酸菜鱼”里面每个字对其它字(包括自己)的注意力权重(就是一个数值)~以此得到注意力权重矩阵(LxL)。

第三步:对注意力权重矩阵进行处理,除以,并通过softmax函数转化:

这个dim就是768,至于为什么要除以这个数值?主要是为了缩小点积范围,确保softmax梯度稳定性。然后就是为什么要softmax,一种解释是为了保证注意力权重的非负性,同时增加非线性。

第四步:注意力权重矩阵与矩阵V相乘:

首先是“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重,和V中“我想吃酸菜鱼”里面每个字的第一维特征进行相乘再求和,这个过程其实就相当于用每个字的权重对每个字的特征进行加权求和,然后再用“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重和V中“我想吃酸菜鱼”里面每个字的第二维特征进行相乘再求和,依次类推~最终也就得到了Lx768维的结果矩阵,和输入保持一致~

K和V中,如果同时替换任意两个字的位置,对最终的结果是不会有影响的。也就是说注意力机制是没有位置信息的,不像CNN/RNN/LSTM。这也是为什么要引入position embedding的原因。

可以将V看作一个token序列,序列中的每个token在一开始都是互相独立的,信息量有限。而想要让每个token包含更多的信息,一个办法就是让每个token去融合该序列中其他token的信息。融合方式中,最差的方法是取平均(mean pool),会有大量实际不相关的信息被融入; 更好的方式是按照该token和其他token的相关度加权求和。

那么问题来了,怎么看V中每一个token和其他token的相关度,并将相关度量化成权重数值(用于最终的加权求和)?

这个时候,Q和K来了,Q是询问的token(对应到V中的某个token),K是被询问的token序列,Q问K,你的哪个token跟我最像?Q挨个问一遍K中的token,每个token和Q比较后(点积)得到一个和Q的相似程度,组成一个相似度序列。

相似度序列归一化后变成一个和为1序列,可以看成是一个权重。

参考:https://www.zhihu.com/people/zui-tian-20-46/answers

参考:https://www.zhihu.com/question/298810062/answer/1829118404

本文链接地址:https://www.jiuchutong.com/zhishi/298938.html 转载请保留说明!

上一篇:无云服务器,Linux本地快速搭建web网站,并内网穿透发布上线(云服务器 chia)

下一篇:【JavaScript】JS实用案例分享:输入智能提示 | 打字机输出效果(js示例)

  • 加拿大失业率微降 核心年龄段女性就业率创新高

    加拿大失业率微降 核心年龄段女性就业率创新高

  • 12345受理后怎么查询进度(12345受理后怎么查询进度还可以在打吗?)

    12345受理后怎么查询进度(12345受理后怎么查询进度还可以在打吗?)

  • 红米k30s至尊纪念版的屏幕刷新率是60吗(红米k30s至尊纪念版是什么屏幕)

    红米k30s至尊纪念版的屏幕刷新率是60吗(红米k30s至尊纪念版是什么屏幕)

  • 怎么打开手机App(怎么打开手机app定位权限)

    怎么打开手机App(怎么打开手机app定位权限)

  • vivox21a像素是多少(vivo x21像素)

    vivox21a像素是多少(vivo x21像素)

  • 笔记本电脑连不上网出现红叉号为什么(笔记本电脑连不了网是什么原因)

    笔记本电脑连不上网出现红叉号为什么(笔记本电脑连不了网是什么原因)

  • 苹果手机锁了一小时是错几次(苹果手机锁了一个小时怎么弄)

    苹果手机锁了一小时是错几次(苹果手机锁了一个小时怎么弄)

  • 微信里的京东怎么变成京喜了(微信里的京东怎么申请退款)

    微信里的京东怎么变成京喜了(微信里的京东怎么申请退款)

  • 为什么微信无缘无故自助冻结(为什么微信无缘无故身份过期)

    为什么微信无缘无故自助冻结(为什么微信无缘无故身份过期)

  • 3dmax哪一版稳定(3dmax哪个版本最好用最常用)

    3dmax哪一版稳定(3dmax哪个版本最好用最常用)

  • airpodspro怎么看充电盒充满了没(airpodspro怎么看真假)

    airpodspro怎么看充电盒充满了没(airpodspro怎么看真假)

  • 电脑显示屏坏了可以修吗(电脑显示屏坏了怎么办)

    电脑显示屏坏了可以修吗(电脑显示屏坏了怎么办)

  • 小角标数字怎么打(角标数字怎么打手机)

    小角标数字怎么打(角标数字怎么打手机)

  • ipad wlan版什么意思(平板ipadwifi版啥意思)

    ipad wlan版什么意思(平板ipadwifi版啥意思)

  • 快手一个手机号能注册几个号(快手一个手机号能绑几个)

    快手一个手机号能注册几个号(快手一个手机号能绑几个)

  • 计算器中的cnc叫做什么键(计算器上的厂键都是什么意思)

    计算器中的cnc叫做什么键(计算器上的厂键都是什么意思)

  • 黑鲨2代支持无线快充吗(黑鲨v2 无线 评测)

    黑鲨2代支持无线快充吗(黑鲨v2 无线 评测)

  • 淘宝怎么关闭农村淘宝(新版淘宝怎样关闭农村淘宝)

    淘宝怎么关闭农村淘宝(新版淘宝怎样关闭农村淘宝)

  • 文档部件域有什么作用(文档部件中的域和属性)

    文档部件域有什么作用(文档部件中的域和属性)

  • 如何通过手机号定位他人位置(如何通过手机号查机主的名字)

    如何通过手机号定位他人位置(如何通过手机号查机主的名字)

  • soul怎么点亮8个字母(soul怎么点亮soulmate)

    soul怎么点亮8个字母(soul怎么点亮soulmate)

  • 魅族16防水吗(魅族16spro防水测试)

    魅族16防水吗(魅族16spro防水测试)

  • hhw.exe是什么进程 是什么作用 hhw进程查询(nw.exe是什么进程)

    hhw.exe是什么进程 是什么作用 hhw进程查询(nw.exe是什么进程)

  • ✝️ 强制 Vue 重新渲染组件的正确方法

    ✝️ 强制 Vue 重新渲染组件的正确方法

  • 设计模式---适配器模式(设计模式适配器模式代码编写)

    设计模式---适配器模式(设计模式适配器模式代码编写)

  • 企业产生的所得税计入
  • 原材料报废可以退税吗
  • 个人所得税的账务处理
  • 计提附加税的会计分录
  • 借款合同印花税怎么申报
  • 预缴所得税报表填错啦,年报可以修改吗
  • 固定资产出售净残值怎么处理
  • 开分公司赚钱吗
  • 专利年费入什么会计科目
  • 快递费属于哪个商品编码
  • 收入纳税明细里的收入是税前还是税后
  • 视同内销补税的财务处理
  • 税务登记注销前异常项目类型非强制什么意思
  • 飞机票改签费用怎么算1000块
  • 新车购置税怎么算的
  • 部门独立核算管理制度
  • 收到样品费计入什么科目
  • 非金融机构借款计入什么科目
  • 销售货物并运输增值税
  • 同一套房
  • 小规模免征增值税会计处理
  • 增值税进项税额在借方还是贷方
  • 外埠纳税人经营地报验登记税务管理论文
  • 增值税暂行条例属于
  • 房地产工程质量检测费计入什么科目
  • 金税盘上传参数设置服务器设置
  • 企业所得税投资收益纳税调整
  • 房地产商铺增值税税率是多少
  • 一般纳税人问题
  • 公司为员工购买社保流程
  • uniapp异常处理
  • php中数组的概念
  • 标书装订费用分录
  • php tokenizer
  • windows7如何制表
  • php去除空格和换行符
  • PHP:mcrypt_enc_get_supported_key_sizes()的用法_Mcrypt函数
  • 大堡礁分布在澳大利亚的哪里
  • uni-app开发教程
  • php选择结构
  • 【超直白讲解opencv RGB与BGR】RGB模式与BGR模式有什么不同,如何相互转换?
  • 递延收益和其他应付款的区别
  • 没有销售收入月报怎么填
  • 代理记账公司工作经历
  • 固定资产的主要风险有哪些
  • 不免征个人所得税的是个人转让著作权所得
  • python该怎么用
  • 帝国cms模板怎么样用
  • 社保代扣代缴的办理流程
  • 试用产品的账务处理分录
  • 维修费开专票怎么做账
  • 小规模收入账务
  • sql2005备份数据库
  • 代垫电费收回开票吗
  • 应收账款计提减值准备会计处理
  • 实发工资有小数点是如何解决的
  • 安装工程什么时候套脚手架搭拆
  • 建筑行业跨期收益怎么算
  • 电子承兑汇票到期网银上怎么操作
  • 未开票收入是否代表可以不开发票
  • 计算机彻底删除文件的方法
  • iphone os
  • linux promisc
  • win7怎么创建新盘
  • 电脑开机出现ntfs
  • quicktimeplayer.exe - quicktimeplayer是什么进程 有什么用
  • macbook新手
  • win10怎么将桌面图标变小
  • ES6 javascript中class静态方法、属性与实例属性用法示例
  • Android setVisibility的总结~
  • js页面点击怎么随机生成图片
  • 教女朋友学英语
  • jquery valid()
  • node的express干什么用
  • python安装包的命令
  • 电子税务局房产税税源信息采集
  • 湖北税务登不上去是怎么了
  • 领导对税收分析肯定性批示
  • 党费的缴纳是否扣除所得税
  • 怎么找到税控系统发票作废怎么操作
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设