位置: IT常识 - 正文

Transformer中解码器decoder的详细讲解(图文解释)(transformer的解码器)

编辑:rootadmin
Transformer中解码器decoder的详细讲解(图文解释)

推荐整理分享Transformer中解码器decoder的详细讲解(图文解释)(transformer的解码器),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:transformer解析,transformer编码器和解码器,transformer 解码过程,transformer encoder mask,transformer中解码器的输入output来自哪里,transformer中解码器的输入output来自哪里,transformer中解码器的输入output来自哪里,transformer 解码过程,内容如对您有帮助,希望把文章链接给更多的朋友!

假设我们想把英语句子i am good翻译成法语句子 Je Vais bein,首先将原句送入编码器,使编码器学习原句,并计算特征值,在上一篇博客中已经讲解了编码器是如何计算原句的特征值的,然后我们把从编码器求得的特征值送入解码器,解码器将特征值作为输入,并生成目标据,流程如下

 在编码器部分,我们了解到可以叠加N个解码器,同理,解码器也可以有N个叠加在一起,编码器将原句的所有特征值作为输入传给所有解码器,而非只给第一个解码器,因此一个解码器将有两个输入,一个是来自前一个解码器的输出,另一个是编码器输出的特征值

接下来我们学习解码器是如何生成目标句子的,当t=1时(t表示时间步)解码器开始工作,生成目标为句子中的第一个词,当t=2时,解码器使用当前的输入和在上一步生成的单词,来预测句子中的下一个单词,以此类推,在每一步中解码器都将上一步生成的单词与输入的词结合起来,并预测下一个单词

一个解码器模块及其所有的组件如下图所示

 从上图中可以看到,解码器内部有三个子层,分别是

1:带掩码的多头注意力层

2:多头注意力层

3:前馈网络层

与编码器模块相似,解码器模块也有多头注意力层和前馈网络层,但多了带掩码的多头注意力层,下面对它们一一进行讲解

一、带掩码的多头注意力层

 以英法翻译任务为例,假设训练数据集样本如下

解码器将输入的<sos>作为第一个标记,并在每一步中将下一个预测词与输入结合起来,以预测目标句子,直到遇到<eos>为止 

带掩码的多头注意力层就是预测与<sos>相邻的单词时,模型应该只看到<sos>,所有我们掩盖<sos>后边的所有词,因此在使用softmax函数进行归一化之前,我们需要对数值进行掩码转换,可以用负无穷去掩盖

二、多头注意力层Transformer中解码器decoder的详细讲解(图文解释)(transformer的解码器)

由下图可以看出,每个解码器中的多头注意力层都有两个输入:一个来自带掩码的多头注意力层,另一个是编码器输出的特征值 

多头注意力机制的第一步是创建三个矩阵,我们使用从上一个子层获得的注意力矩阵M创建查询矩阵Q,使用编码器输出的特征值R创建键矩阵和值矩阵,因为查询矩阵是从M求得的,所以本质上包含了目标句子的特征,键矩阵和值矩阵则含有原句的特征,因为它们是用R计算的

三、前馈网络层

 解码器的下一个子层是前馈网络层,它的工作原理与我们在编码器中用到的完全相同,此处不再赘述

四、叠加和归一组件

和在编码器部分讲到的一样,叠加和归一组件连接子层的输入和输出

五、线性层和softmax层

一旦解码器学习了目标句子的特征,我们就将顶层解码器的输出送入线性层和softmax层

线性层将生成一个logit向量,其大小等于原句中的词汇量,接下来使用softmax函数将logit向量转换成概率,然后解码器将输出具有高概率值的词的索引值

六、解码器总览

通过上图,我们可以总结出以下几点

1:首先,我们将解码器的输入转换为嵌入矩阵,然后将位置编码加入其中,并将其作为输入送入底层的解码器

2:解码器收到输入,并将其发送给带掩码的多头注意力层,生成注意力矩阵M

3:然后将注意力矩阵M和编码器输出的特征值R作为多头注意力层的输入,并再次输出新的注意力矩阵

4:把从多头注意力层得到的注意力矩阵作为输入,送入前馈网络层,前馈网络层将注意力矩阵作为输入,并将解码后的特征作为输出

5:最后我们把从解码器1得到的输出作为输入,将其送入解码器2

6:解码器2进行同样的处理,并输出目标句子的特征 

七、训练Transformer 

我们可以退哦那个过最小化损失函数来训练Transformer网络,但是应该如何选择损失函数呢,我们已经知道,解码器预测的是词汇的概率分布,并选择概率最高的词作为输出,所有我们需要让预测的概率分布和实际的概率分布之间的差异最小化,要做到这一点,可以将损失函数定义为交叉熵定义函数,我们通过最小化损失函数来训练网络,并使用Adam算法来优化训练过程

另外需要注意,为了防止过拟合,我们可以将dropout方法应用于每个子层的输入以及嵌入和位置编码的总和

创作不易 觉得有帮助请点赞关注收藏~~~

本文链接地址:https://www.jiuchutong.com/zhishi/297286.html 转载请保留说明!

上一篇:DOM(操作)(jQuery dom操作)

下一篇:vue中使用百度地图(vue使用百度地图三方标准地图清空后卡死)

  • 联想拯救者怎么恢复出厂系统(联想拯救者怎么开启独显直连)

    联想拯救者怎么恢复出厂系统(联想拯救者怎么开启独显直连)

  • 10086查流量发什么数字(10086查流量发啥)

    10086查流量发什么数字(10086查流量发啥)

  • 红米k40支持面部解锁吗(红米k40面部解锁什么级别)

    红米k40支持面部解锁吗(红米k40面部解锁什么级别)

  • iphone12动态壁纸怎么弄呢(iphone12动态壁纸按压不动)

    iphone12动态壁纸怎么弄呢(iphone12动态壁纸按压不动)

  • 注册qq跳过辅助验证(注册qq如何跳过辅助验证)

    注册qq跳过辅助验证(注册qq如何跳过辅助验证)

  • 拼多多资金限制多久(拼多多资金限制没有显示时间)

    拼多多资金限制多久(拼多多资金限制没有显示时间)

  • 无线鼠标有延迟吗(无线鼠标有延迟怎么解决)

    无线鼠标有延迟吗(无线鼠标有延迟怎么解决)

  • ppt保存后再打开还是原来的(ppt保存后再打开图片旋转了)

    ppt保存后再打开还是原来的(ppt保存后再打开图片旋转了)

  • led闪烁怎么设置(led闪烁在哪里设置)

    led闪烁怎么设置(led闪烁在哪里设置)

  • 腾讯视频电视端叫什么名字(腾讯视频电视端可以登录几个设备)

    腾讯视频电视端叫什么名字(腾讯视频电视端可以登录几个设备)

  • 视频控制器vga兼容是什么(视频控制器vga兼容感叹号)

    视频控制器vga兼容是什么(视频控制器vga兼容感叹号)

  • 苹果8掉电厉害怎么办(iphone8掉电很厉害)

    苹果8掉电厉害怎么办(iphone8掉电很厉害)

  • 移动光猫los亮红灯闪烁(移动光猫显示los亮红灯)

    移动光猫los亮红灯闪烁(移动光猫显示los亮红灯)

  • 苹果手机序列号g0开头是什么意思(苹果手机序列号开头字母代表什么)

    苹果手机序列号g0开头是什么意思(苹果手机序列号开头字母代表什么)

  • ps怎么调整图片方向(ps怎么调整图片角度)

    ps怎么调整图片方向(ps怎么调整图片角度)

  • 华为mate30支持多少帧慢动作拍摄(华为mate30支持多少瓦快充)

    华为mate30支持多少帧慢动作拍摄(华为mate30支持多少瓦快充)

  • 手机怎么申请邮箱账号(手机怎么申请邮箱免费注册)

    手机怎么申请邮箱账号(手机怎么申请邮箱免费注册)

  • 微信官方收款码怎么取消(微信官方收款码和商家收款一样吗)

    微信官方收款码怎么取消(微信官方收款码和商家收款一样吗)

  • 安居客发布的信息怎么删除(安居客发布的信息怎么修改)

    安居客发布的信息怎么删除(安居客发布的信息怎么修改)

  • 哈罗单车能远程开锁吗(哈罗单车能远程解锁吗)

    哈罗单车能远程开锁吗(哈罗单车能远程解锁吗)

  • 滴滴打车安全吗(高德地图上的滴滴打车安全吗)

    滴滴打车安全吗(高德地图上的滴滴打车安全吗)

  • 手机芯片的主要成分(手机芯片的主要材料是超导体吗)

    手机芯片的主要成分(手机芯片的主要材料是超导体吗)

  • 苹果xs无法开机(苹果xs无法开机怎么办)

    苹果xs无法开机(苹果xs无法开机怎么办)

  • Vue3 <script setup lang=“ts“> 使用指南(vue3 script setup withdefault)

    Vue3 <script setup lang=“ts“> 使用指南(vue3 script setup withdefault)

  • 中了单位大奖要缴个税吗?
  • 资金账簿印花税减半政策
  • 境外旅客购物离境退税条件
  • 一般纳税人商品混凝土税率
  • 季度报税是哪几个月几号申报
  • 营业执照作废声明怎么撤销
  • 采购单是原始凭证吗
  • 小规模纳税人开工程款税率是多少
  • 航天金税服务费诈骗
  • 弃置费用的现值p/f
  • 出差会议纪要模板
  • 一个人可以两家以上公司发放工资么
  • 支付临时工劳务费700元需要开发票吗
  • 高铁费可抵扣适用税吗
  • 年初的进项税额计算公式
  • 金蝶以前年度损益调整属于哪类科目
  • 外出经营能自带食物吗
  • 什么情况下要安起搏器
  • 临时设施费怎么结算
  • 免费更换配件如何做账
  • 经纪代理服务怎么做分录
  • 债券分期还本利息怎么算
  • 房地产建造运费怎么计算
  • 定额发票用来干嘛
  • 附加税里包括地税吗
  • 出口企业增值税怎么算
  • 企业购进货物若发生下列事项,其增值税进项税额
  • 残疾人可以给公司带来税收优惠吗
  • 员工出差买的保险怎么入账
  • 消费税什么时候用最高售价
  • 办理环评费用
  • 存货跌价准备用账面余额还是账面价值
  • win10新建文件夹快捷键ctrl加什么
  • 电脑系统权限管理在哪里
  • 简单制作教程
  • 笔记本win10玩红警怎么全屏
  • macos big sur使用技巧
  • 服务器时间总是不对
  • win7旗舰版叫啥
  • 材料外加工会计分录
  • 乌尤尼盐沼的演化过程
  • 结转本月收入类账户到本年利润
  • php操作字符串
  • 代开增值税额与实际缴款额差一分钱如何入账
  • phalcon model在插入或更新时会自动验证非空字段的解决办法
  • 外经证过期没核销罚多少钱
  • 什么是财务报表分析,方法有哪些
  • 逆回购划算吗
  • 应付职工薪酬中的职工是指
  • 运费和什么有关
  • 认缴资本怎么填
  • 库存现金月末是怎么样结账的
  • 可供出售金融资产属于什么科目
  • 代开发票是不是都要扣增值税呢?
  • 什么混合销售
  • 固定资产改造替换
  • 涉外收入申报单怎么填
  • 专项应付款余额转入资本公积的规定
  • 年底本年利润如何处理
  • 接待客人的场合
  • 负债类科目分录
  • 辞退员工 工资
  • 客户收到产品后应该说什么
  • 借贷行为如何认定
  • 在sql中执行一个创建数据表的脚本文件
  • 基本的select命令及作用
  • mysql常用功能
  • win10补丁导致无法开机
  • ubuntu搭建vsftp
  • 电脑显示无windows
  • win10系统自带的浏览器叫什么
  • win8如何升级系统
  • jquery table加载数据
  • perl \w
  • 不用js多浏览器能用吗
  • div与script
  • android退出程序代码
  • 个税更正申报如何导出大厅申报表
  • 企业所得税到底是卖方承担还是买方承担
  • 马尼拉清关HS几位
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设