位置: IT常识 - 正文

Transformer 中的mask(transformer add norm)

编辑:rootadmin
Transformer 中的mask

简单聊聊transformer里的mask ——转载自链接一

推荐整理分享Transformer 中的mask(transformer add norm),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:transformer add norm,transformer add norm,transforming mars,transformer masked,transformer中的mask,transformer中的mask矩阵,transformer中的mask矩阵,transformer中的mask机制有什么作用,内容如对您有帮助,希望把文章链接给更多的朋友!

1.padding mask

在encoder和decoder两个模块里都有padding mask,位置是在softmax之前,为什么要使用padding mask,是因为由于encoder和decoder两个模块都会有各自相应的输入,但是输入的句子长度是不一样的,计算attention score会出现偏差,为了保证句子的长度一样所以需要进行填充,但是用0填充的位置的信息是完全没有意义的(多余的),经过softmax操作也会有对应的输出,会影响全局概率值,因此我们希望这个位置不参与后期的反向传播过程。以此避免最后影响模型自身的效果,既在训练时将补全的位置给Mask掉,也就是在这些位置上补一些无穷小(负无穷)的值,经过softmax操作,这些值就成了0,就不在影响全局概率的预测。

pytorch nn.Transformer的mask理解 - 知乎 (zhihu.com) //padding mask 讲得比较细

2.Sequence MASK

sequence MASK是只存在decoder的第一个mutil_head_self_attention里,为什么这样做?是因为在测试验证阶段,模型并不知道当前时刻的输入和未来时刻的单词信息。也就是对于一个序列中的第i个token解码的时候只能够依靠i时刻之前(包括i)的的输出,而不能依赖于i时刻之后的输出。因此我们要采取一个遮盖的方法(Mask)使得其在计算self-attention的时候只用i个时刻之前的token进行计算。

举例:“我爱中国共产党”,假如要预测“中”这个词,那么当前时刻的输入就是“我”以及“爱”的输入的叠加,一部分来自"我“的信息输出,一部分来自”爱”的信息输出,如果没有mask将后面的单词信息遮住,那么后面的单词对要预测的这个字“中”也会有相应的信息贡献,在训练的时候整个句子的前后字词的位置是已知的,所以不遮挡模型也是可以运行的,因为本身模型输入时就已经知道了句子的整个信息(也就是ground truth embeding)。 但是在进行模型预测(测试新的输入句子)时,输入的句子是未知的,随机的,模型不知道句子的信息,只能通过上一层的输出和原始的输入知道要预测字的前一个信息,进而依次预测后面的字的信息。这就造成了在训练时模型多训练了“中”后面的词,增加了训练时间,消耗了本没必要的空间及时间。在一开始训练时就mask掉,节省时间的同时也降低了过拟合的风险,提高了模型泛化能力。浅析Transformer训练时并行问题 - 知乎 (zhihu.com)

Transformer 中的mask(transformer add norm)

 //Sequence mask 讲得比较细

【Pytorch】Transformer中的mask ——转载自链接三由于Transformer的模型结构,在应用Transformer的时候需要添加mask来实现一些功能。如Encdoer中需要输入定长序列而padding,可以加入mask剔除padding部分如Decoder中为了实现并行而输入完整序列,需要加上mask剔除不应感知到的部分序列在一些更灵活的应用中,有时候需要设计一些mask形式来调整可利用信息源的范围。因此,本文以官网Transformer做文本翻译为例***官网翻译示例,梳理一下Pytorch实现的Transformer是如何做mask操作的。(164条消息) Transformer的矩阵维度分析和Mask详解_我最怜君中宵舞的博客-CSDN博客_transformer中的mask//讲清楚了训练可以并行,推理和测试的时候不能并行的原因

简单层面讲了TransformerDecoder进行并行

(165条消息) Transformer decoder中masked attention的理解_寺里LZS的博客-CSDN博客 

参考资料

简单聊聊transformer里的mask - 知乎 (zhihu.com)//大白话,讲的很好

(167条消息) Transformer 中的mask_Caleb_L的博客-CSDN博客_transformer中的mask

【Pytorch】Transformer中的mask - 知乎 (zhihu.com) //结合Pytorch代码解释,梳理一下Pytorch实现的Transformer是如何做mask操作的。

这个视频与这篇博客配套使用,讲的很清楚了

全网最详细Transformer中的mask操作及代码详解【推荐】【系列10-4-2】_哔哩哔哩_bilibili

transformer 中的 mask 操作-范仁义-读书编程笔记 (fanrenyi.com)//需要科学上网maybe

本文链接地址:https://www.jiuchutong.com/zhishi/298418.html 转载请保留说明!

上一篇:IDEA如何完美配置Servlet(适用于IDEA 2022及以下版本)(idea配置meaven)

下一篇:超参数调优框架optuna(可配合pytorch)(超参数设置)

  • 腾讯视频如何邀请好友一起看(腾讯视频如何邀请一起看)

    腾讯视频如何邀请好友一起看(腾讯视频如何邀请一起看)

  • 苹果xsmax可以分屏吗(iphone xsmax可以分屏吗)

    苹果xsmax可以分屏吗(iphone xsmax可以分屏吗)

  • windows7系统如何格式化硬盘

    windows7系统如何格式化硬盘

  • 拼多多动态怎么关(拼多多动态怎么关闭设置)

    拼多多动态怎么关(拼多多动态怎么关闭设置)

  • 苹果x看视频发热正常吗?(苹果x看视频发热卡顿)

    苹果x看视频发热正常吗?(苹果x看视频发热卡顿)

  • 小米10pro是双卡双待吗(小米10pro双卡都支持5g吗)

    小米10pro是双卡双待吗(小米10pro双卡都支持5g吗)

  • 无线鼠标dpi什么意思(无线鼠标dpi什么功能)

    无线鼠标dpi什么意思(无线鼠标dpi什么功能)

  • 4g手机开热点网速慢(4g手机开热点网速如何)

    4g手机开热点网速慢(4g手机开热点网速如何)

  • 支付宝如何加大量好友(支付宝如何加大转账额度)

    支付宝如何加大量好友(支付宝如何加大转账额度)

  • 华为手机扫码黑屏怎么回事(华为手机扫码黑屏)

    华为手机扫码黑屏怎么回事(华为手机扫码黑屏)

  • 拼多多分享链接怎么变成复制了(拼多多分享链接怎么变成口令)

    拼多多分享链接怎么变成复制了(拼多多分享链接怎么变成口令)

  • iphonex手机屏幕尺寸(iphonex手机屏幕失灵怎么强制关机)

    iphonex手机屏幕尺寸(iphonex手机屏幕失灵怎么强制关机)

  • 华为后台运行如何关闭

    华为后台运行如何关闭

  • word的显示方式包括(文档显示方式)

    word的显示方式包括(文档显示方式)

  • 中央空调auto是什么意思(中央空调AUTO是什么开关)

    中央空调auto是什么意思(中央空调AUTO是什么开关)

  • 显卡怎么安装 台式机(显卡怎么安装驱动)

    显卡怎么安装 台式机(显卡怎么安装驱动)

  • 快手怎么弄私密用户(快手如何设成私密)

    快手怎么弄私密用户(快手如何设成私密)

  • 荣耀9x能用快充吗(荣耀9x能用快充线会怎么样)

    荣耀9x能用快充吗(荣耀9x能用快充线会怎么样)

  • 时标网络图关键线路怎么找(时标网络图关键线路有几条)

    时标网络图关键线路怎么找(时标网络图关键线路有几条)

  • 一个人能开发app吗(一个人能开发手游吗)

    一个人能开发app吗(一个人能开发手游吗)

  • 淘宝贷款如何申请(淘宝贷款如何操作)

    淘宝贷款如何申请(淘宝贷款如何操作)

  • 手环测血压原理(手环血压测量仪有没有用)

    手环测血压原理(手环血压测量仪有没有用)

  • 如何解决Win10蓝屏提示错误memory management?(win10蓝屏怎么弄)

    如何解决Win10蓝屏提示错误memory management?(win10蓝屏怎么弄)

  • 最全ROS 入门(ros入门21讲)

    最全ROS 入门(ros入门21讲)

  • Node.js到底是什么?(node.js什么意思)

    Node.js到底是什么?(node.js什么意思)

  • 注意力机制详解系列(二):通道注意力机制(注意力机制工作原理)

    注意力机制详解系列(二):通道注意力机制(注意力机制工作原理)

  • 驾驶培训 增值税
  • 增值税延期滞纳金是多少
  • 月末怎么计提税费
  • 房产税和城镇土地使用税的区别
  • 小微企业第一季度不符合条件怎么处理
  • 哪些固定资产不需要计提折旧
  • 土地增值税属于所得税类
  • 应收账款转让的会计处理
  • 销售给客户红包,说给的现金,如何把控
  • 收入跨期审计调整分录如何滚调
  • 减免的增值税如何账务处理
  • 当月作废的专票需要开负数发票么
  • 其他应收款包括的内容
  • 土地使用权摊销的会计分录
  • 退货但发票不冲销
  • 维修服务费税率是多少?
  • 有子公司一定要交社保吗
  • 融资租赁哪些项目可以增值税抵扣
  • 电子承兑如何转出换成现金
  • 利润表里的其他业务利润怎么形成的
  • 企业利息收入如何做分录
  • 遗属补助是死亡当月发放还是次月发放
  • 企业购车按揭产生的费用
  • 生物资产全套账务处理
  • 移动网速测试软件
  • 纳税人识别号和税号一样吗
  • 房租发票需要缴房产税吗
  • 客户罚款记哪个科目
  • 总公司以固定资产出资入股,固定资产是不是新公司的
  • php版本常用的排版软件
  • win10商店无法加载
  • 进口增值税公式计算公式
  • 公司购置办公楼自用
  • 税务机关为小规模纳税人
  • 融资性售后回租承租方为什么不交税
  • 商业连锁企业有哪些
  • 退款会退货吗
  • 存货捐赠视同销售要不要确认收入?
  • thinkphp框架入门
  • 自学前端好学吗
  • js正则用法
  • mysql封装函数
  • quota命令 显示磁盘已使用的空间与限制
  • ip a命令详解
  • 注销营业执照的电话号码是多少
  • 财务没有及时缴费怎么办
  • 红字信息表重复开具怎么处理
  • 归属于母公司所有者权益合计
  • 一次性开票分期确认收入如何纳税申报
  • 增值税零税率和免税的范围
  • 高新企业奖励金怎么开票
  • 工资0申报怎么报
  • 制造费用主要核算项目
  • 代理进口产品
  • 研发支出费用化支出期末有余额吗
  • 月末需要做的会计分录
  • 不是公司股东的情况说明模板
  • 外商投资企业的中国投资者
  • 汇兑损益的税务处理
  • 公司场地租赁交什么税
  • 政府禁用windows8
  • unix操作系统有哪些主要特色
  • 苹果MAC电脑怎么玩圣安地列斯
  • linux用中文怎么说
  • centos安装yun
  • win10安装 升级
  • 安装centos7.0
  • 一开机弹出个微软重新设定
  • iphone服务器
  • js调用音频文件
  • js计算字符串长度 汉字长度
  • 怎么查看u盘有没有传输过数据
  • unity3d android 插件
  • Android屏幕适配分屏
  • 手游炫酷
  • python中的get方法
  • 贵州新农合可以打电话停保吗
  • 国税增值税申报怎么记账凭证填写
  • 国网福建电力微信公众
  • 争议问题
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设