位置: IT常识 - 正文

Transformer 中的mask(transformer add norm)

编辑:rootadmin
Transformer 中的mask

简单聊聊transformer里的mask ——转载自链接一

推荐整理分享Transformer 中的mask(transformer add norm),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:transformer add norm,transformer add norm,transforming mars,transformer masked,transformer中的mask,transformer中的mask矩阵,transformer中的mask矩阵,transformer中的mask机制有什么作用,内容如对您有帮助,希望把文章链接给更多的朋友!

1.padding mask

在encoder和decoder两个模块里都有padding mask,位置是在softmax之前,为什么要使用padding mask,是因为由于encoder和decoder两个模块都会有各自相应的输入,但是输入的句子长度是不一样的,计算attention score会出现偏差,为了保证句子的长度一样所以需要进行填充,但是用0填充的位置的信息是完全没有意义的(多余的),经过softmax操作也会有对应的输出,会影响全局概率值,因此我们希望这个位置不参与后期的反向传播过程。以此避免最后影响模型自身的效果,既在训练时将补全的位置给Mask掉,也就是在这些位置上补一些无穷小(负无穷)的值,经过softmax操作,这些值就成了0,就不在影响全局概率的预测。

pytorch nn.Transformer的mask理解 - 知乎 (zhihu.com) //padding mask 讲得比较细

2.Sequence MASK

sequence MASK是只存在decoder的第一个mutil_head_self_attention里,为什么这样做?是因为在测试验证阶段,模型并不知道当前时刻的输入和未来时刻的单词信息。也就是对于一个序列中的第i个token解码的时候只能够依靠i时刻之前(包括i)的的输出,而不能依赖于i时刻之后的输出。因此我们要采取一个遮盖的方法(Mask)使得其在计算self-attention的时候只用i个时刻之前的token进行计算。

举例:“我爱中国共产党”,假如要预测“中”这个词,那么当前时刻的输入就是“我”以及“爱”的输入的叠加,一部分来自"我“的信息输出,一部分来自”爱”的信息输出,如果没有mask将后面的单词信息遮住,那么后面的单词对要预测的这个字“中”也会有相应的信息贡献,在训练的时候整个句子的前后字词的位置是已知的,所以不遮挡模型也是可以运行的,因为本身模型输入时就已经知道了句子的整个信息(也就是ground truth embeding)。 但是在进行模型预测(测试新的输入句子)时,输入的句子是未知的,随机的,模型不知道句子的信息,只能通过上一层的输出和原始的输入知道要预测字的前一个信息,进而依次预测后面的字的信息。这就造成了在训练时模型多训练了“中”后面的词,增加了训练时间,消耗了本没必要的空间及时间。在一开始训练时就mask掉,节省时间的同时也降低了过拟合的风险,提高了模型泛化能力。浅析Transformer训练时并行问题 - 知乎 (zhihu.com)

Transformer 中的mask(transformer add norm)

 //Sequence mask 讲得比较细

【Pytorch】Transformer中的mask ——转载自链接三由于Transformer的模型结构,在应用Transformer的时候需要添加mask来实现一些功能。如Encdoer中需要输入定长序列而padding,可以加入mask剔除padding部分如Decoder中为了实现并行而输入完整序列,需要加上mask剔除不应感知到的部分序列在一些更灵活的应用中,有时候需要设计一些mask形式来调整可利用信息源的范围。因此,本文以官网Transformer做文本翻译为例***官网翻译示例,梳理一下Pytorch实现的Transformer是如何做mask操作的。(164条消息) Transformer的矩阵维度分析和Mask详解_我最怜君中宵舞的博客-CSDN博客_transformer中的mask//讲清楚了训练可以并行,推理和测试的时候不能并行的原因

简单层面讲了TransformerDecoder进行并行

(165条消息) Transformer decoder中masked attention的理解_寺里LZS的博客-CSDN博客 

参考资料

简单聊聊transformer里的mask - 知乎 (zhihu.com)//大白话,讲的很好

(167条消息) Transformer 中的mask_Caleb_L的博客-CSDN博客_transformer中的mask

【Pytorch】Transformer中的mask - 知乎 (zhihu.com) //结合Pytorch代码解释,梳理一下Pytorch实现的Transformer是如何做mask操作的。

这个视频与这篇博客配套使用,讲的很清楚了

全网最详细Transformer中的mask操作及代码详解【推荐】【系列10-4-2】_哔哩哔哩_bilibili

transformer 中的 mask 操作-范仁义-读书编程笔记 (fanrenyi.com)//需要科学上网maybe

本文链接地址:https://www.jiuchutong.com/zhishi/298418.html 转载请保留说明!

上一篇:IDEA如何完美配置Servlet(适用于IDEA 2022及以下版本)(idea配置meaven)

下一篇:超参数调优框架optuna(可配合pytorch)(超参数设置)

  • 华为鸿蒙os6月2日直播回放入口(鸿蒙os6月2日知乎)

    华为鸿蒙os6月2日直播回放入口(鸿蒙os6月2日知乎)

  • vivox70怎么应用加密(vivox7如何设置应用锁?)

    vivox70怎么应用加密(vivox7如何设置应用锁?)

  • 苹果手机通讯录怎么备份(苹果手机通讯录没有了怎么恢复)

    苹果手机通讯录怎么备份(苹果手机通讯录没有了怎么恢复)

  • iphone11可以换手机主题吗(苹果11可以依旧换新)

    iphone11可以换手机主题吗(苹果11可以依旧换新)

  • iphonexsmax多长(iphonexs max 有多长)

    iphonexsmax多长(iphonexs max 有多长)

  • 苹果11怎么修改微信号(苹果11怎么修改锁屏密码)

    苹果11怎么修改微信号(苹果11怎么修改锁屏密码)

  • 手机进了一点水有杂音(手机进了一点水声音有杂音)

    手机进了一点水有杂音(手机进了一点水声音有杂音)

  • 第三方代充是什么意思(什么叫第三方代充)

    第三方代充是什么意思(什么叫第三方代充)

  • 微信通话可以录音吗(微信通话可以录音吗怎样录音)

    微信通话可以录音吗(微信通话可以录音吗怎样录音)

  • 抖音私信撤回对方是不是就看不到了(抖音私信工具)

    抖音私信撤回对方是不是就看不到了(抖音私信工具)

  • 电脑qq下载的文件在哪个文件夹(电脑QQ下载的文件怎么打开)

    电脑qq下载的文件在哪个文件夹(电脑QQ下载的文件怎么打开)

  • P40耗电量为什么这么快(p40耗电量为什么那么大)

    P40耗电量为什么这么快(p40耗电量为什么那么大)

  • 苹果充电头发烫是什么原因(苹果充电头发烫充不进去电)

    苹果充电头发烫是什么原因(苹果充电头发烫充不进去电)

  • 虎牙开播需要什么条件(虎牙开播要钱吗)

    虎牙开播需要什么条件(虎牙开播要钱吗)

  • qq怎么设置恋人关系(qq如何设置和某人恋爱中)

    qq怎么设置恋人关系(qq如何设置和某人恋爱中)

  • ps红眼工具怎么不显示(ps2019红眼工具在哪里)

    ps红眼工具怎么不显示(ps2019红眼工具在哪里)

  • word怎么在字下面画线(Word怎么在字下面打勾)

    word怎么在字下面画线(Word怎么在字下面打勾)

  • 京东如何删除拒收订单(京东如何删除拒收快递)

    京东如何删除拒收订单(京东如何删除拒收快递)

  • qq音乐上可以改qq密码吗(qq音乐怎么改用户名)

    qq音乐上可以改qq密码吗(qq音乐怎么改用户名)

  • 阿里云是iaas还是paas(阿里云是saas吗)

    阿里云是iaas还是paas(阿里云是saas吗)

  • 80486中有多少个32位通用寄存器(在8080800中,三个8表示的数值是一样的)

    80486中有多少个32位通用寄存器(在8080800中,三个8表示的数值是一样的)

  • 苹果xs港版支持全网通吗(苹果xs港版可以用电信卡吗)

    苹果xs港版支持全网通吗(苹果xs港版可以用电信卡吗)

  • 红米note5屏幕材质(红米note5pro屏幕材质)

    红米note5屏幕材质(红米note5pro屏幕材质)

  • 美图m6充电线是哪种(美图m6充电线是什么接口)

    美图m6充电线是哪种(美图m6充电线是什么接口)

  • 无法接听电话请留言是什么意思(无法接听电话请留言是挂了吗)

    无法接听电话请留言是什么意思(无法接听电话请留言是挂了吗)

  • 抖音怎么退工会(抖音怎么退工会120天)

    抖音怎么退工会(抖音怎么退工会120天)

  • 会计凭证借贷方向
  • 普票需要填写全部开票信息吗
  • 开具16个点发票情况说明
  • 申报后发现未勾选发票
  • 公司销售固定资产汽车如何填申报表
  • 居民企业核定征收企业所得税的项目有哪些
  • 接受投资转入固定资产不影响现金流量变动
  • 保险没有合同能退保吗
  • 稽查查补税款企业所得税
  • 车辆商业险和交强险可以分开买吗
  • 个人负担社保
  • 收到小微企业补贴如何做账
  • 亏损企业股东年底借钱未还
  • 简易征收一般纳税人可以收专票吗
  • 买车交税怎么算价格
  • 如果没有预缴就开票会怎样?
  • 集团内部股权无偿划转引起资本公积增加需要印花税
  • 增值税抵扣联退税多少
  • 计提减值准备怎么计算?
  • 企业所得税内部辅助机构说明怎么写
  • 苹果电脑使用u盘之前需要设置什么?
  • 农业种植公司要纳税吗
  • linux传输数据
  • 支付以前年度增值税怎么做账
  • php图片叠加
  • 用友结算成本处理的作用
  • 小茴香的栽培技术
  • 医疗知识科普图片
  • 批发企业商品盘点发生短缺时
  • thinkphp 手机号和用户名同时登录
  • gridview怎么连接数据库
  • 企业所有的支出是什么
  • 前端部署发布项目有哪些
  • 包装物应交消费税
  • vue2vue3的区别
  • php framework框架
  • 预付装修款账务处理
  • 小企业会计准则财务报表至少包括
  • 开个人劳务发票怎么缴个人所得税
  • 季度报税有利润必须要报交所得税吗
  • 进项税额大于销项税额期末留抵
  • 卖固定资产计入
  • 家居办公装修
  • 差旅费单子格式表
  • 转租行为的税务处理方法
  • 发票金额大于付款金额怎么写说明
  • 合伙人资本属于个人资本吗?
  • 小规模未达起征点申报表怎么填
  • 应发工资账务处理
  • 差旅费会计科目怎么做
  • 债券清算原则
  • 公路工程投标保证金
  • 《实施条例》第二十七条
  • 工程物资盘盈为什么冲减在建工程
  • 什么是权益性投资企业
  • 企业建帐的基本要求
  • windows下mysql安装配置教程
  • node使用mysql
  • win8无法修复你的电脑
  • 让Windows XP、2003、2008自动登录的设置
  • ubuntu调出命令行
  • 在linux2.4.0版本中
  • freebsd中文手册
  • secbizsrv.exe是什么程序
  • windows识别码
  • opengl 3d engine
  • shell脚本监控进程
  • 详解金球奖之争
  • node解决跨域
  • shell脚本语句
  • jquery教程 csdn
  • android 自定义dialog
  • 安卓框架是什么怎么用
  • python操作json数据
  • django批量上传图片
  • 同源策略详解
  • Python的for和in
  • 江苏国税电子国税局
  • 土地增值税鉴证业务的流程
  • 精准扶贫就业补贴怎么领?
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设