位置: IT常识 - 正文

Transformer 中的mask(transformer add norm)

编辑:rootadmin
Transformer 中的mask

简单聊聊transformer里的mask ——转载自链接一

推荐整理分享Transformer 中的mask(transformer add norm),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:transformer add norm,transformer add norm,transforming mars,transformer masked,transformer中的mask,transformer中的mask矩阵,transformer中的mask矩阵,transformer中的mask机制有什么作用,内容如对您有帮助,希望把文章链接给更多的朋友!

1.padding mask

在encoder和decoder两个模块里都有padding mask,位置是在softmax之前,为什么要使用padding mask,是因为由于encoder和decoder两个模块都会有各自相应的输入,但是输入的句子长度是不一样的,计算attention score会出现偏差,为了保证句子的长度一样所以需要进行填充,但是用0填充的位置的信息是完全没有意义的(多余的),经过softmax操作也会有对应的输出,会影响全局概率值,因此我们希望这个位置不参与后期的反向传播过程。以此避免最后影响模型自身的效果,既在训练时将补全的位置给Mask掉,也就是在这些位置上补一些无穷小(负无穷)的值,经过softmax操作,这些值就成了0,就不在影响全局概率的预测。

pytorch nn.Transformer的mask理解 - 知乎 (zhihu.com) //padding mask 讲得比较细

2.Sequence MASK

sequence MASK是只存在decoder的第一个mutil_head_self_attention里,为什么这样做?是因为在测试验证阶段,模型并不知道当前时刻的输入和未来时刻的单词信息。也就是对于一个序列中的第i个token解码的时候只能够依靠i时刻之前(包括i)的的输出,而不能依赖于i时刻之后的输出。因此我们要采取一个遮盖的方法(Mask)使得其在计算self-attention的时候只用i个时刻之前的token进行计算。

举例:“我爱中国共产党”,假如要预测“中”这个词,那么当前时刻的输入就是“我”以及“爱”的输入的叠加,一部分来自"我“的信息输出,一部分来自”爱”的信息输出,如果没有mask将后面的单词信息遮住,那么后面的单词对要预测的这个字“中”也会有相应的信息贡献,在训练的时候整个句子的前后字词的位置是已知的,所以不遮挡模型也是可以运行的,因为本身模型输入时就已经知道了句子的整个信息(也就是ground truth embeding)。 但是在进行模型预测(测试新的输入句子)时,输入的句子是未知的,随机的,模型不知道句子的信息,只能通过上一层的输出和原始的输入知道要预测字的前一个信息,进而依次预测后面的字的信息。这就造成了在训练时模型多训练了“中”后面的词,增加了训练时间,消耗了本没必要的空间及时间。在一开始训练时就mask掉,节省时间的同时也降低了过拟合的风险,提高了模型泛化能力。浅析Transformer训练时并行问题 - 知乎 (zhihu.com)

Transformer 中的mask(transformer add norm)

 //Sequence mask 讲得比较细

【Pytorch】Transformer中的mask ——转载自链接三由于Transformer的模型结构,在应用Transformer的时候需要添加mask来实现一些功能。如Encdoer中需要输入定长序列而padding,可以加入mask剔除padding部分如Decoder中为了实现并行而输入完整序列,需要加上mask剔除不应感知到的部分序列在一些更灵活的应用中,有时候需要设计一些mask形式来调整可利用信息源的范围。因此,本文以官网Transformer做文本翻译为例***官网翻译示例,梳理一下Pytorch实现的Transformer是如何做mask操作的。(164条消息) Transformer的矩阵维度分析和Mask详解_我最怜君中宵舞的博客-CSDN博客_transformer中的mask//讲清楚了训练可以并行,推理和测试的时候不能并行的原因

简单层面讲了TransformerDecoder进行并行

(165条消息) Transformer decoder中masked attention的理解_寺里LZS的博客-CSDN博客 

参考资料

简单聊聊transformer里的mask - 知乎 (zhihu.com)//大白话,讲的很好

(167条消息) Transformer 中的mask_Caleb_L的博客-CSDN博客_transformer中的mask

【Pytorch】Transformer中的mask - 知乎 (zhihu.com) //结合Pytorch代码解释,梳理一下Pytorch实现的Transformer是如何做mask操作的。

这个视频与这篇博客配套使用,讲的很清楚了

全网最详细Transformer中的mask操作及代码详解【推荐】【系列10-4-2】_哔哩哔哩_bilibili

transformer 中的 mask 操作-范仁义-读书编程笔记 (fanrenyi.com)//需要科学上网maybe

本文链接地址:https://www.jiuchutong.com/zhishi/298418.html 转载请保留说明!

上一篇:IDEA如何完美配置Servlet(适用于IDEA 2022及以下版本)(idea配置meaven)

下一篇:超参数调优框架optuna(可配合pytorch)(超参数设置)

  • 华为mate40pro截屏有几种方法(华为mate40pro如何截长屏)

    华为mate40pro截屏有几种方法(华为mate40pro如何截长屏)

  • 手机关机了怎样找到对方位置(手机关机了怎样找人)

    手机关机了怎样找到对方位置(手机关机了怎样找人)

  • 白条可以扫码付款吗(白条扫码付款被限制)

    白条可以扫码付款吗(白条扫码付款被限制)

  • 小爱音响怎么连接手机蓝牙放歌(小爱音响怎么连接电视)

    小爱音响怎么连接手机蓝牙放歌(小爱音响怎么连接电视)

  • 退货买家不确认收货几天自动确认(退货买家不确认收货)

    退货买家不确认收货几天自动确认(退货买家不确认收货)

  • 手机上课怎么投屏到电视上(手机上课怎么投屏到小度上)

    手机上课怎么投屏到电视上(手机上课怎么投屏到小度上)

  • 拼多多违规关店保证金和货款能退回来吗(拼多多违规关店,什么时候可以再开店)

    拼多多违规关店保证金和货款能退回来吗(拼多多违规关店,什么时候可以再开店)

  • 电脑文件发不出去怎么回事(电脑文件发不出去怎么回事微信)

    电脑文件发不出去怎么回事(电脑文件发不出去怎么回事微信)

  • 拉黑后听对方歌对方知道吗(拉黑了还能听到对方彩铃吗)

    拉黑后听对方歌对方知道吗(拉黑了还能听到对方彩铃吗)

  • 仅退款成功还用退货吗(仅退款退款成功还能反悔吗)

    仅退款成功还用退货吗(仅退款退款成功还能反悔吗)

  • ppt保存快捷键(wps卡住了,但电脑没卡,怎么办)

    ppt保存快捷键(wps卡住了,但电脑没卡,怎么办)

  • 光盘是多媒体素材吗(光盘是多媒体素描吗)

    光盘是多媒体素材吗(光盘是多媒体素描吗)

  • focusky是什么软件(focusky什么意思)

    focusky是什么软件(focusky什么意思)

  • 笔记本没有鼠标怎么复制粘贴(笔记本没有鼠标怎么打开触摸板)

    笔记本没有鼠标怎么复制粘贴(笔记本没有鼠标怎么打开触摸板)

  • 国产苹果x是什么基带(苹果x是中国产的还是美国产的)

    国产苹果x是什么基带(苹果x是中国产的还是美国产的)

  • 您的appleid已被暂时禁止获取免费(您的appleid已被锁定申请恢复)

    您的appleid已被暂时禁止获取免费(您的appleid已被锁定申请恢复)

  • 怎么把jpg图片kb变大(怎么把jpg图片kb变大100kb)

    怎么把jpg图片kb变大(怎么把jpg图片kb变大100kb)

  • 小米cc9pro普通版和尊享版区别(小米cc9pro咋样)

    小米cc9pro普通版和尊享版区别(小米cc9pro咋样)

  • 显卡共享系统内存什么意思(显卡共享系统内存怎么设置)

    显卡共享系统内存什么意思(显卡共享系统内存怎么设置)

  • 苹果11app与数据怎么选择(苹果11app与数据怎么选择传输)

    苹果11app与数据怎么选择(苹果11app与数据怎么选择传输)

  • 手机卡被注销了怎么办(手机卡被注销了微信还能用吗)

    手机卡被注销了怎么办(手机卡被注销了微信还能用吗)

  • 北斗定位终端怎么使用(北斗终端的操作使用方法)

    北斗定位终端怎么使用(北斗终端的操作使用方法)

  • 智能养老模式的特点(智能养老模式的前景)

    智能养老模式的特点(智能养老模式的前景)

  • yy怎么搜索频道房间(yy频道搜索在哪里)

    yy怎么搜索频道房间(yy频道搜索在哪里)

  • 新手机上的膜要撕掉么(新手机上的膜要撕掉么再贴钢化膜吗)

    新手机上的膜要撕掉么(新手机上的膜要撕掉么再贴钢化膜吗)

  • qq更新资料失败(qq更新资料失败是什么原因)

    qq更新资料失败(qq更新资料失败是什么原因)

  • JetBrains 官宣:2022.3 版本开始必须 Java 17!!(jetbrainsnews)

    JetBrains 官宣:2022.3 版本开始必须 Java 17!!(jetbrainsnews)

  • 总结帝国cms安装在二级目录步骤(帝国cms下载)

    总结帝国cms安装在二级目录步骤(帝国cms下载)

  • 牛奶的增值税税率
  • 个人物品出售要交哪些税
  • 关税完税价格计算消费税公式
  • 董事会职权是否为强制规定
  • 新换财务软件如何登录
  • 没有进项发票出口转内销
  • 结转本月发生的费用
  • 建筑业异地预缴增值税流程
  • 煤炭企业补偿费会计分录
  • 金融行业打包是什么意思
  • 控股合并的会计准则
  • 让渡资产使用权收入计入什么科目
  • 支付给对方的押金
  • 家电以旧换新怎么做账务处理
  • 理财产品 会计分录
  • 销项已开进项还没有收到分录如何处理?
  • 定期定额户开具增值税专用发票如何申报
  • 主营业务收入怎么结转
  • 销售方开的普票税额怎么处理
  • 业务宣传费企业所得税扣除标准是多少
  • 电子发票已开出客户退款会计处理是怎样的?
  • 股权转让怎么办理才合理
  • 专家费收取多少合适
  • 土地无形资产怎么估值
  • 生育津贴的相关法律规定
  • 废料收入应如何确定
  • 企业所得税申报流程
  • php7.3
  • 哪些发票可以作为替代发票
  • 以商业汇票抵付应付账款会计分录
  • windows 查询进程
  • 销售使用过的机器设备如何缴纳增值税
  • vue父子组件加载顺序
  • 月球合影
  • 购买房屋缴纳的税款
  • php 登陆
  • 图片防止侵权怎么写
  • 三维重建的主要步骤
  • js怎么制作
  • 增值税进项税额计算公式
  • 总分机构纳税
  • 给员工进行拓展活动
  • 费用发票可以抵扣进项税吗
  • 个人工作室需要做账吗
  • 进口关税增值税在哪里打印
  • 所得税费用的账目处理
  • 未分配利润可以弥补亏损吗
  • 专用发票与普通发票的区别有
  • 顾问费交多少税
  • 广告牌制作计入什么科目
  • 固定资产变动方式名称
  • 当月发票是否需要当月支付
  • 应收账款可能出现贷方余额吗
  • 预提费用年底一定要冲回吗
  • 库存商品怎么做表格
  • 村料采购会计科目有哪些
  • 物业管理公司如何应用节能新技术
  • 企业应收账款的事前管理包括
  • 公司代个人缴纳社保
  • 电费发票应收电费怎么开
  • 填制记账凭证有哪些
  • bios没有usb启动项解决方法联想
  • 系统盘gpt转mbr
  • windows7开始菜单不见了
  • linux安装.gz
  • 苹果手机价格
  • windows无法访问\\192.168.1.104
  • win8系统修复在哪里
  • linux就要这样学
  • java如何自定义函数
  • css中dl
  • 跨域资源共享漏洞怎么修复
  • jq转盘抽奖
  • unity全屏
  • nodejs require
  • unity相关问题
  • time模块 python
  • 税务文书送达回证模板
  • 个人所得税税单去哪里打印
  • 广东增值税发票勾选平台
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设