位置: IT常识 - 正文

DEFORMABLE DETR详解(deformable detr代码)

编辑:rootadmin
DEFORMABLE DETR详解 1.解决问题DETR需要比现有的目标检测器更长的训练时间来收敛。 DETR在检测小物体方面的性能相对较低,并且无法从高分辨率特征地图中检测到小物体。可变形卷积可以识别重要特征,但是无法学习重要特征之间的联系

推荐整理分享DEFORMABLE DETR详解(deformable detr代码),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:define format,deform详细教程,deformable convolution,deformable to rigid,deformable detr代码,define format,deformable to rigid,deformable detr代码,内容如对您有帮助,希望把文章链接给更多的朋友!

        transformer组件在处理图像特征图中的不足。在初始化时,注意模块对特征图中的所有像素施加了几乎一致的注意权重。长时间的训练周期是为了学习注意权重,以关注稀疏的有意义的位置。另一方面,transformer编码器中的注意权值计算是二次计算w.r.t.像素数。因此,处理高分辨率的特征映射具有非常高的计算和内存复杂性。

2.核心思想

        Deformable DETR,它的注意模块只关注一个目标周围的一小部分关键采样点。Deformable DETR可以获得比DETR(特别是在小物体上)更好的性能,在训练时间少10×的时期。 

3.实施细节

        可变形注意模块无论特征图的空间大小如何,都只关注参考点周围的一小组关键采样点(reference point)。通过为每个queries只分配少量固定数量的keys,可以缓解收敛性和特征空间分辨率的问题。 

        对于初始化,首先初始化采样附近的n个点(默认为4),即认为附近的点的特征对该点的关系最强,但是一定是吗?不一定,那么我们可以通过网络学习,偏移到关系最强的点。但是神经网络学习到的偏移不一定是小数,怎么办呢?那么我们就可以通过周围的点进行插值得到该点的特征。

 公式详解:

DEFORMABLE DETR详解(deformable detr代码)

         表示初始的采样的关键点,表示偏移量,表示特征的权重,即表示特征映射,

表示queries与keys的点乘,即注意力,其中和都是通过全连接而来。

        如下图所示, 表示特征图上的原始特征,经过全连接层做特征映射,同时采样出3个采样点。同时经过全连接层可得到注意力权重(qk)

  Multi-scale Deformable Attention Module. 

设为输入的多尺度特征映射(特征金字塔),其中。表示尺度信息,为每个queries的参考点的归一化坐标,即因为有多个尺度,需要将绝对坐标转为相对坐标,则应用多尺度可变形注意模块为

        外部的m表示多头注意力机制,L表示特征金字塔的维度,作者可能认为不同尺度同一位置的特征相似,因此,做相加操作。K表示采样的特征点

4.整体架构

         对于输入图片,首先经过Multi-scale Deformable self-Attention选取特征点,并做特征映射,生成向量,对于位置编码,有两种,一种是在相对位置编码加上绝对level级别编码,另外一种是加入可学习的level编码。然后输入decoder中,对于decoder,首先初始化300个初始化向量,经过self-Attention的处理,然后与ecoder特征做注意力运算,最后做预测。

 5.预测头的设置

        Iterative Bounding Box Refifinement. 建立了一种简单有效的迭代边界框细化机制,以提高检测性能。在这里,每个解码器层根据上一层的预测来细化边界框。        

        Two-Stage Deformable DETR. 在原始的DETR中,解码器中的对象查询与当前图像无关。受两阶段目标探测器的启发,我们探索了可变形DETR的一种变体,用于生成区域建议作为第一阶段。生成的区域建议将被输入解码器作为对象查询以进一步细化,形成一个两阶段可变形的DETR。         在第一阶段,为了实现高召回率的建议,多尺度特征图中的每个像素都将作为一个对象查询。然而,直接将对象查询设置为像素会给解码器中的自注意模块带来不可接受的计算和内存成本,其复杂度随着查询的数量呈二次增长。为了避免这个问题,我们去掉了解码器,并形成了一个仅限编码器的可变形的DETR,用于区域提案的生成。在它中,每个像素被分配为一个对象查询,它直接预测一个边界框。得分最高的边界框被选为区域提案。在将区域提案提交到第二阶段之前,不应用NMS。

本文链接地址:https://www.jiuchutong.com/zhishi/300391.html 转载请保留说明!

上一篇:Three.js一学就会系列:05 加载3D模型(three.js入门指南)

下一篇:【微信小程序】条件渲染和列表渲染(微信小程序开发)

  • 苹果手表微信怎么打字回复(苹果手表微信怎么安装)

    苹果手表微信怎么打字回复(苹果手表微信怎么安装)

  • 钉钉办公软件能定位吗(用钉钉办公)

    钉钉办公软件能定位吗(用钉钉办公)

  • 扩容机可以升级系统吗(扩容机可以升级还原吗)

    扩容机可以升级系统吗(扩容机可以升级还原吗)

  • 微信语音提醒功能在哪里(微信语音提醒功能没有声音)

    微信语音提醒功能在哪里(微信语音提醒功能没有声音)

  • 华为手机怎么投影到电视上播放(华为手机怎么投屏)

    华为手机怎么投影到电视上播放(华为手机怎么投屏)

  • 加密技术主要有哪些类型(加密技术主要有两大类)

    加密技术主要有哪些类型(加密技术主要有两大类)

  • 淘宝怎么删除好评(淘宝怎么删除好友代付记录)

    淘宝怎么删除好评(淘宝怎么删除好友代付记录)

  • 华为nova7怎样截屏(华为nova7怎样截视频)

    华为nova7怎样截屏(华为nova7怎样截视频)

  • 绑定手机号收款什么意思(绑定手机号收款手机号未认证)

    绑定手机号收款什么意思(绑定手机号收款手机号未认证)

  • 美团的现金券兑换的密码在哪(美团的现金券兑换在哪里)

    美团的现金券兑换的密码在哪(美团的现金券兑换在哪里)

  • 手机怎么截屏发送(手机怎么截屏发给朋友)

    手机怎么截屏发送(手机怎么截屏发给朋友)

  • 荣耀20上面的黑点是什么(荣耀20上面的黑边是什么)

    荣耀20上面的黑点是什么(荣耀20上面的黑边是什么)

  • iphone11跟iphone11pro的区别(iphone11跟iphone11pro拍照效果)

    iphone11跟iphone11pro的区别(iphone11跟iphone11pro拍照效果)

  • 多媒体信息主要有几种类型(多媒体信息主要包括数字文本声音图形图像视频动画)

    多媒体信息主要有几种类型(多媒体信息主要包括数字文本声音图形图像视频动画)

  • 隐身访问会留下痕迹吗(隐身访问会留下记录嘛)

    隐身访问会留下痕迹吗(隐身访问会留下记录嘛)

  • 苹果手机无法连接appstore是什么意思(苹果手机无法连接局域网)

    苹果手机无法连接appstore是什么意思(苹果手机无法连接局域网)

  • 8p有原彩显示吗(苹果8p带不带原彩显示)

    8p有原彩显示吗(苹果8p带不带原彩显示)

  • 苹果手机怎么在手机上面下载铃声到手机里(苹果手机怎么在图片上编辑文字)

    苹果手机怎么在手机上面下载铃声到手机里(苹果手机怎么在图片上编辑文字)

  • 苹果x是第几代产品(苹果x是第几代处理器)

    苹果x是第几代产品(苹果x是第几代处理器)

  • iphonex支持指纹解锁吗(苹果x可用指纹吗)

    iphonex支持指纹解锁吗(苹果x可用指纹吗)

  • vue视频相机怎么添加音乐(vue怎么拍视频启动)

    vue视频相机怎么添加音乐(vue怎么拍视频启动)

  • 怎么更新app版本(如何更新手机app版本)

    怎么更新app版本(如何更新手机app版本)

  • 如何把合并的pdf分开(如何把合并的pdf变得一样大)

    如何把合并的pdf分开(如何把合并的pdf变得一样大)

  • 快手浏览设置怎么没了(快手浏览设置怎么调)

    快手浏览设置怎么没了(快手浏览设置怎么调)

  • 易失性存储器有哪些(储存器中易失性存储器是)

    易失性存储器有哪些(储存器中易失性存储器是)

  • 如何通过word制作电子贺卡(如何用word的文档制作)

    如何通过word制作电子贺卡(如何用word的文档制作)

  • 微信亲属卡解绑对方知道吗(微信亲属卡解绑了怎么看消费记录)

    微信亲属卡解绑对方知道吗(微信亲属卡解绑了怎么看消费记录)

  • 如何在EXCEL中取消隐藏行(如何在excel中取最早与最晚)

    如何在EXCEL中取消隐藏行(如何在excel中取最早与最晚)

  • 税务知识:价外费用包括哪些费用?
  • 减免增值税款怎么算
  • 个人净资产包括房子吗
  • 纳税申报的具体流程个体户
  • 收付转记凭证如何填写例题
  • 冲减应收帐款分录
  • 合并报表盈余公积怎么提
  • 纳税申报一般什么时候
  • 六月涉税提醒通知
  • 延期缴纳税款的条件是什么
  • 查询税务信用评级
  • 当月所得税是什么意思
  • 社保不报的情况下保险报销吗
  • 应付职工薪酬包括公积金吗
  • 发票和实际业务发生时间不一致
  • 工业企业销售管理制度
  • 销售的增长率公式是什么
  • 买卖不破租赁什么情况必须搬走
  • 税收法定原则的意义
  • 2019一般纳税人和小规模纳税人的区别
  • 资源税计税依据含不含增值税
  • 2021最新版静疗规范指南
  • 关于企业之间资金拆借的法律规定
  • 购买交易性金融资产时,支付的交易费用应计入
  • Win11/Win10 21H2 正式版发布前,微软再次推送可靠性补丁更新 KB4023057
  • php面向对象的三大特征
  • 红字发票只能一张一张开吗
  • 本月销售未开票怎么做分录
  • geeklink 极联科技
  • 债务转换为资本
  • 克扣拆迁款
  • 没有初级会计证可以从事会计工作吗
  • 会展中心高新技术展览
  • 成本会计科目的三级科目有哪些
  • 开发产品的成本
  • 织梦系统网站搭建教程
  • 主营业务收入未收到钱
  • inner join用法示例
  • 长期无法收回的应收账款如何处理
  • 上市公司收购其它公司是好是坏
  • mysql5.5远程连接
  • 劳务外经证预缴税款
  • 发票开具流程是?
  • 无形资产的处置损益
  • 债务转为股份的协议
  • 税金及附加多计提了怎么办
  • 企业为什么要转移用工风险什么意思
  • 本年利润为
  • 电子发票已开出客户退款会计处理是怎样的?
  • 外聘人员差旅费用无票调增
  • 银行承兑汇票背面怎么填写
  • 赠送商品需要开发票吗
  • 贷款利息天数怎么算的
  • 存货期末计量按什么分类
  • 播放winner
  • apt-key
  • linux内容查找
  • centos的命令
  • dell t110服务器
  • win10系统无法卸载补丁
  • rhel7配置ip地址
  • 进程mmc.exe
  • win8系统搜索不到wifi
  • 微软推送win11
  • win10更新需要重启怎么办
  • win10怎么禁用device/credential guard
  • win7系统电脑蓝牙怎么开
  • 错误日志项数
  • 对于cookie的描述
  • js类继承的几种方式
  • javascript运行环境有哪些
  • jqueryon事件
  • js indexof 对象
  • jquery可以实现哪些效果
  • python编写一个函数求斐波那契
  • Activity与Theme
  • Python注释详解
  • 广西地方税务网站官网
  • 港股印花税什么时候下调
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设