位置: IT常识 - 正文

【yolov6系列一】深度解析网络架构(yolov5官方)

编辑:rootadmin
【yolov6系列一】深度解析网络架构

推荐整理分享【yolov6系列一】深度解析网络架构(yolov5官方),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:yolo6d,yolov5,yolov5s,yolov5m,yolov5,yolov5m,yolov5s,yolo v6,内容如对您有帮助,希望把文章链接给更多的朋友!

在yolov5霸屏计算机视觉领域很久时,六月处美团开源了yolov6,并号称在精度和速度上均超越其他同量级的计算机视觉模型,刚刚瞅了一眼,star已经超过2.8k,脑子里莫名冒出一个词:“国货之光”。

网上基于yolov6的解读有很多,文末会附上美团的官方解读和开源代码的github链接。文本开始yolov6系列,先和大家分享下整个yolov6的网络架构(基于tag0.1版本的yolov6s),后续再基于各个模块根据自己的理解分享给大家。

整体框架

大家如需图中ppt使用,请关注公众号,后台回复ppt 添加微信领取

【yolov6系列一】深度解析网络架构(yolov5官方)

以上为yolov6s整体的网络架构,从图中可看出yolov6网络由四个部分组成:input,backbone,neck以及head。对各个部分的功能和yolov5相同,如backbone用于提取特征,head用于预测。

根据上图的架构图走一遍网络流程:先对输入的图片预处理,对齐成640*640大小的RGB图片,输入到backbone网络中,根据backbone网络中的三层输出,在neck层通过Rep-PAN网络继续输出三层不同size大小的feature map(以下简称fm),输入到最后的head层中,对图像检测的三类任务(分类、前后背景分类、边框)预测,输出最后的结果。

backbone

yolov6s的backbone层参见RepVGG网络的backbone[3],如上图所示(s表示stride, o为outchannel, i为inchannel, 其中o=i表示outchannel=inchannel, o≠i表示outchannel与inchannel无相关性,并非其值一定不相等),由若干RepVGG block(以下RepVGG block简称RVB, RepBlock简称RB)组成。 RVB在训练和部署的时候结构不同,在训练的时候由33的卷积添加11的卷积分支,同时如果输入和输出的channel以及h,w的size一致时,再添加一个BN的分支,三个分支相加输出,在部署时,为了方便部署,直接取3*3的主分支卷积输出。 RB为几个RVB的串联,其中第一个RVB用于特征层的size变化,后面N个RVB 用于特征层的融合,size保持不变。 stem为s=2的RVB,同时输入输出的channel不相同,这样stem的RVB变成: 同时ERBlock5中增加SPPF层: 其中SConv是有conv+BN+ReLu组成: 这样SPPF网络则先通过一个SConv层,特征图h,w的size不变,outchannel变成inchannel的一半,输出做为一个分支,而后经过3个maxpooling层,每个maxpooling的kernel=5,s=1,padding=kernel//2, 每经过一个maxpooling后,fm size均不变,并做为分支。而后通过cat将几个分支在channel维度上相加,得到的size较于SPPF的输入,h,w不变,channel为输入的2倍,最后再通过一个SConv层,通道减半,使得输入和输出的fm size不变。

整个backbone层流程为:输入6406403的图片,通过stem层(s=2)输出为32032032,后面接几个ERBlock,每个ERBlock均做特征层的下采样和channel的增大,每个ERBlock由一个RVB和一个RB组成(ERBlock5多加SPPF层),在RVB中做特征层的下采样,同时channel增大,在RB中对特征层充分融合后输出,最后backbone输出三个fm分别为(2020512, 4040128, 808064)。

neck

Neck层美团官方称其为Rep-PAN,是基于PAN的拓扑方法,如上图所示,类似一种“U”型结构,其中U型左侧从上到下fm的h,w增大,右侧从下到上fm的h,w减小,其中Upsample上采样基于torch官方自带的转置卷积实现: 整个neck层的流程为,U型左侧,从ERB5输出2020512的fm,通过SConv 变成2020128大小,上采样后h,w较之前增大一倍后与ERB4的输出在channel层上concate后fm变成404384,通过一个RB(s=1, o≠i)后,输出 404128,重复上述步骤后,输出808064的fm。U型右侧,将808064的fm先SConv下采样,得到404064的fm,与U型左侧h,w一致的fm在channel层上concate后,通过一个RB(s=1, o≠i),输出第二个fm,重复U型右侧以上步骤,输出第三个fm。至此,neck层输出三个fm分别为(2020256, 4040128, 808064).

Head

如上图,head基于三层输出预测,分别对应了大小不同的从大到小的感受野。

其中BConv是由conv+bn+SiLu组成: 整个head借鉴了yolox中的解耦头设计,并对其做了改进,head流程如下:从neck层输出三个分支,对于每个分支,先对输出fm通过BConv层,做fm的特征融合后,分成两个分支一个分支通过BConv+Conv完成分类任务的预测,另外一个分支先通过BConv融合特征后再分成两个分支,一个分支通过Conv完成边框的回归,一个分支通过Conv完成前后背景的分类,至此三个分支再通过concate在channel层上融合,输出未经后处理的预测结果。

结语

以上为个人理解,yolov6s在0.1版本上的整体网络架构,如有理解偏差,欢迎交流,后续根据yolov6中各个模块中的详细的原理以及代码继续更新,希望对大家有帮助。 参考: [1]https://mp.weixin.qq.com/s/RrQCP4pTSwpTmSgvly9evg(美团官方解读) [2] https://github.com/meituan/YOLOv6(美团官方代码) [3] https://zhuanlan.zhihu.com/p/353697121

本文链接地址:https://www.jiuchutong.com/zhishi/300438.html 转载请保留说明!

上一篇:三维点云预处理之点云去噪(三维点云识别)

下一篇:基于Pytorch的MNIST手写数字识别实现(含代码+讲解)(基于Pytorch的风格转换)

  • 微信行程轨迹记录在哪里看(微信行程轨迹记录可以记录帮别人买的吗)

    微信行程轨迹记录在哪里看(微信行程轨迹记录可以记录帮别人买的吗)

  • 华为p40支持红外线功能吗(华为p40支持红外线开空调吗)

    华为p40支持红外线功能吗(华为p40支持红外线开空调吗)

  • 华为nove7与nove7se的区别是什么(华为nove7与nove8的区别)

    华为nove7与nove7se的区别是什么(华为nove7与nove8的区别)

  • 微信来源看不见是怎么回事(微信来源看不到)

    微信来源看不见是怎么回事(微信来源看不到)

  • 苹果怎么录视频有声音(苹果怎么录视频把声音录进去)

    苹果怎么录视频有声音(苹果怎么录视频把声音录进去)

  • 刚换的路由器能连上没有网络(换的新路由器)

    刚换的路由器能连上没有网络(换的新路由器)

  • i78550u属于什么级别(i78550u好不好)

    i78550u属于什么级别(i78550u好不好)

  • 苹果用户之间发短信要钱吗(苹果用户之间发短信什么颜色)

    苹果用户之间发短信要钱吗(苹果用户之间发短信什么颜色)

  • 抖音能加几个粉丝团(抖音可以加多个粉丝牌吗)

    抖音能加几个粉丝团(抖音可以加多个粉丝牌吗)

  • 闲鱼资金保护什么意思(闲鱼资金保护会被退款吗)

    闲鱼资金保护什么意思(闲鱼资金保护会被退款吗)

  • 快手点亮为什么不显示(快手点亮为什么是红色的)

    快手点亮为什么不显示(快手点亮为什么是红色的)

  • 抖音剪切视频用哪个软件(抖音剪切视频用什么软件)

    抖音剪切视频用哪个软件(抖音剪切视频用什么软件)

  • mq8f2ch a是什么版本(mq8d2zp/a是什么版本)

    mq8f2ch a是什么版本(mq8d2zp/a是什么版本)

  • 手机运存6g和8g的区别(手机运行内存6g与8g)

    手机运存6g和8g的区别(手机运行内存6g与8g)

  • 手机主板发烫怎么回事(手机主板发烫怎么维修)

    手机主板发烫怎么回事(手机主板发烫怎么维修)

  • 快手骂人举报会封号吗(快手骂人举报会怎么样)

    快手骂人举报会封号吗(快手骂人举报会怎么样)

  • wps表格改成wps文字(wps表格改成word文档)

    wps表格改成wps文字(wps表格改成word文档)

  • qq关联有什么用(qq关联有什么用处)

    qq关联有什么用(qq关联有什么用处)

  • 无u盘怎么进入pe系统(没有u盘怎么进入pe系统win10)

    无u盘怎么进入pe系统(没有u盘怎么进入pe系统win10)

  • 怎么用手机玩云顶(怎么用手机玩云电脑)

    怎么用手机玩云顶(怎么用手机玩云电脑)

  • 苹果怎么无线充电(苹果怎么无线充电不了)

    苹果怎么无线充电(苹果怎么无线充电不了)

  • 怎么制作网线(怎么制作网线接口)

    怎么制作网线(怎么制作网线接口)

  • e_s0hic1.exe是什么进程 e_s0hic1进程安全吗(.exe是指什么文件)

    e_s0hic1.exe是什么进程 e_s0hic1进程安全吗(.exe是指什么文件)

  • 路由器怎么选择连接模式?选择MW300RM路由器模式的方法(穿墙路由器怎么选择)

    路由器怎么选择连接模式?选择MW300RM路由器模式的方法(穿墙路由器怎么选择)

  • 图像超分综述:超长文一网打尽图像超分的前世今生 (附核心代码)(图像超分综述怎么做)

    图像超分综述:超长文一网打尽图像超分的前世今生 (附核心代码)(图像超分综述怎么做)

  • 收到个税手续费退费会计分录
  • 小规模纳税人能开1%的专票吗
  • 哪些税种属于中央固定收入
  • 企业合并怎么处理
  • 附加税期末余额在贷方怎么处理
  • 企业所得税汇算清缴补缴税款分录
  • 政府补贴流程
  • 交房前是否需要给房产局交房租维修费
  • 办公室低值易耗品管理员职责
  • 股权计税成本如何计算?
  • 个人取得的咨询费是什么
  • 自产自用增值税组成计税价格
  • 以前没有计提增值税吗
  • 购入债券计入什么科目
  • 开具增值税专用发票承诺函
  • 公司一季度报表一般是什么时候出
  • 季报资产负债表和利润表的勾稽关系
  • 开了发票必须记收入吗
  • 广告代理服务计入什么费用
  • 在建工程转固定资产需提供的资料
  • 合作保证金规定
  • 应收账款分录借方负数转到预收账款的哪方
  • 收到带息商业票据贴现会计处理
  • 利润表中的减是什么意思
  • macos big sur最新版本
  • 什么是汇兑损益,汇兑损益产生的原因有哪些?(10分)
  • win10开机重启陷入死循环
  • php缓存优化
  • 日记账和总账一般采用
  • wordpress恢复主题默认设置
  • 个人出租商用房个人所得税
  • 在清算土地增值税销项时,允许扣除的土地价款包括哪些?
  • 存货损失的会计处理方法
  • php 获取网页内容
  • framework3.5怎么打开
  • vue的路由守卫有哪些钩子函数
  • 京东到家的物流模式
  • 新必应申请使用资格
  • vue路由跳转的三种方法
  • 建筑企业其他应付款包含什么内容
  • 生活垃圾处理费标准
  • 注册机械加工公司需要什么
  • 公司借调员工
  • 进项税额转出月底需要结转吗
  • 未开票收入下月开票
  • 房租费税金计入哪个科目
  • mysql联合索引使用规则
  • 在mysql中创建数据库和表作业
  • 工程施工新科目
  • 各人所得税法规定
  • 生育津贴到公司了公司什么时候发给个人
  • 小规模纳税人免税额度是多少
  • 增值税纳税申报表附列资料(一)
  • 购进固定资产的账务处理
  • 短期借款有哪几种类型
  • 以前年度费用未入账,现可以入账吗?
  • 利息发票如何做会计分录
  • 母公司代子公司收款,子公司开具发票
  • 支付借款利息需要交税吗
  • 2020公司年会奖品清单
  • 销售红酒的公司
  • mysql drop database删除数据库命令实例讲解
  • linux系统讲解
  • 怎么快速判断哪些角是第几象限
  • mmc无法创建管理单元怎么办win11
  • WIN10如何设置字体大小
  • xp设置程序开机启动
  • 远程关机对话框怎么打开
  • win7怎么禁止网络连接
  • win10系统自定义设置
  • linux在网络方面的应用
  • win10玩饥荒
  • kmp算法代码完整实现
  • json jquery
  • unity shader cull off
  • js移动dom
  • jquery map遍历
  • 安卓手机加速方法
  • 安徽省电子发票开具流程
  • 什么是免抵税额和免抵退税额
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设