位置: IT常识 - 正文

【yolov6系列一】深度解析网络架构(yolov5官方)

编辑:rootadmin
【yolov6系列一】深度解析网络架构

推荐整理分享【yolov6系列一】深度解析网络架构(yolov5官方),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:yolo6d,yolov5,yolov5s,yolov5m,yolov5,yolov5m,yolov5s,yolo v6,内容如对您有帮助,希望把文章链接给更多的朋友!

在yolov5霸屏计算机视觉领域很久时,六月处美团开源了yolov6,并号称在精度和速度上均超越其他同量级的计算机视觉模型,刚刚瞅了一眼,star已经超过2.8k,脑子里莫名冒出一个词:“国货之光”。

网上基于yolov6的解读有很多,文末会附上美团的官方解读和开源代码的github链接。文本开始yolov6系列,先和大家分享下整个yolov6的网络架构(基于tag0.1版本的yolov6s),后续再基于各个模块根据自己的理解分享给大家。

整体框架

大家如需图中ppt使用,请关注公众号,后台回复ppt 添加微信领取

【yolov6系列一】深度解析网络架构(yolov5官方)

以上为yolov6s整体的网络架构,从图中可看出yolov6网络由四个部分组成:input,backbone,neck以及head。对各个部分的功能和yolov5相同,如backbone用于提取特征,head用于预测。

根据上图的架构图走一遍网络流程:先对输入的图片预处理,对齐成640*640大小的RGB图片,输入到backbone网络中,根据backbone网络中的三层输出,在neck层通过Rep-PAN网络继续输出三层不同size大小的feature map(以下简称fm),输入到最后的head层中,对图像检测的三类任务(分类、前后背景分类、边框)预测,输出最后的结果。

backbone

yolov6s的backbone层参见RepVGG网络的backbone[3],如上图所示(s表示stride, o为outchannel, i为inchannel, 其中o=i表示outchannel=inchannel, o≠i表示outchannel与inchannel无相关性,并非其值一定不相等),由若干RepVGG block(以下RepVGG block简称RVB, RepBlock简称RB)组成。 RVB在训练和部署的时候结构不同,在训练的时候由33的卷积添加11的卷积分支,同时如果输入和输出的channel以及h,w的size一致时,再添加一个BN的分支,三个分支相加输出,在部署时,为了方便部署,直接取3*3的主分支卷积输出。 RB为几个RVB的串联,其中第一个RVB用于特征层的size变化,后面N个RVB 用于特征层的融合,size保持不变。 stem为s=2的RVB,同时输入输出的channel不相同,这样stem的RVB变成: 同时ERBlock5中增加SPPF层: 其中SConv是有conv+BN+ReLu组成: 这样SPPF网络则先通过一个SConv层,特征图h,w的size不变,outchannel变成inchannel的一半,输出做为一个分支,而后经过3个maxpooling层,每个maxpooling的kernel=5,s=1,padding=kernel//2, 每经过一个maxpooling后,fm size均不变,并做为分支。而后通过cat将几个分支在channel维度上相加,得到的size较于SPPF的输入,h,w不变,channel为输入的2倍,最后再通过一个SConv层,通道减半,使得输入和输出的fm size不变。

整个backbone层流程为:输入6406403的图片,通过stem层(s=2)输出为32032032,后面接几个ERBlock,每个ERBlock均做特征层的下采样和channel的增大,每个ERBlock由一个RVB和一个RB组成(ERBlock5多加SPPF层),在RVB中做特征层的下采样,同时channel增大,在RB中对特征层充分融合后输出,最后backbone输出三个fm分别为(2020512, 4040128, 808064)。

neck

Neck层美团官方称其为Rep-PAN,是基于PAN的拓扑方法,如上图所示,类似一种“U”型结构,其中U型左侧从上到下fm的h,w增大,右侧从下到上fm的h,w减小,其中Upsample上采样基于torch官方自带的转置卷积实现: 整个neck层的流程为,U型左侧,从ERB5输出2020512的fm,通过SConv 变成2020128大小,上采样后h,w较之前增大一倍后与ERB4的输出在channel层上concate后fm变成404384,通过一个RB(s=1, o≠i)后,输出 404128,重复上述步骤后,输出808064的fm。U型右侧,将808064的fm先SConv下采样,得到404064的fm,与U型左侧h,w一致的fm在channel层上concate后,通过一个RB(s=1, o≠i),输出第二个fm,重复U型右侧以上步骤,输出第三个fm。至此,neck层输出三个fm分别为(2020256, 4040128, 808064).

Head

如上图,head基于三层输出预测,分别对应了大小不同的从大到小的感受野。

其中BConv是由conv+bn+SiLu组成: 整个head借鉴了yolox中的解耦头设计,并对其做了改进,head流程如下:从neck层输出三个分支,对于每个分支,先对输出fm通过BConv层,做fm的特征融合后,分成两个分支一个分支通过BConv+Conv完成分类任务的预测,另外一个分支先通过BConv融合特征后再分成两个分支,一个分支通过Conv完成边框的回归,一个分支通过Conv完成前后背景的分类,至此三个分支再通过concate在channel层上融合,输出未经后处理的预测结果。

结语

以上为个人理解,yolov6s在0.1版本上的整体网络架构,如有理解偏差,欢迎交流,后续根据yolov6中各个模块中的详细的原理以及代码继续更新,希望对大家有帮助。 参考: [1]https://mp.weixin.qq.com/s/RrQCP4pTSwpTmSgvly9evg(美团官方解读) [2] https://github.com/meituan/YOLOv6(美团官方代码) [3] https://zhuanlan.zhihu.com/p/353697121

本文链接地址:https://www.jiuchutong.com/zhishi/300438.html 转载请保留说明!

上一篇:三维点云预处理之点云去噪(三维点云识别)

下一篇:基于Pytorch的MNIST手写数字识别实现(含代码+讲解)(基于Pytorch的风格转换)

  • 中小企业网站运营推广计划分享(中小企业网站运营方案)

    中小企业网站运营推广计划分享(中小企业网站运营方案)

  • pcnm00是oppo哪个型号(oppopcnm00是什么型号手机)

    pcnm00是oppo哪个型号(oppopcnm00是什么型号手机)

  • 荣耀60防水吗(荣耀magic5防水不)

    荣耀60防水吗(荣耀magic5防水不)

  • 小米8老是自动关机(小米8老是自动关机怎么回事)

    小米8老是自动关机(小米8老是自动关机怎么回事)

  • 电子白板没声音咋回事(电子白板没声音一键恢复)

    电子白板没声音咋回事(电子白板没声音一键恢复)

  • 闲鱼宝贝重新上架影响销量吗(闲鱼卖出去的宝贝怎么重新上架)

    闲鱼宝贝重新上架影响销量吗(闲鱼卖出去的宝贝怎么重新上架)

  • p40带红外吗(p40带不带红外功能)

    p40带红外吗(p40带不带红外功能)

  • 钉钉回放可以保存多久(钉钉回放可以保留多久)

    钉钉回放可以保存多久(钉钉回放可以保留多久)

  • 华为nemul10什么型号(华为nemal10)

    华为nemul10什么型号(华为nemal10)

  • qq上的解除关系是什么意思(qq解除关系有提示吗)

    qq上的解除关系是什么意思(qq解除关系有提示吗)

  • 怎样取消qq里面的隐藏会话(怎样取消qq里面的关注)

    怎样取消qq里面的隐藏会话(怎样取消qq里面的关注)

  • iPhoneX的底部小白条如何取消(iphonex底部菜单栏在哪里)

    iPhoneX的底部小白条如何取消(iphonex底部菜单栏在哪里)

  • 怎么发起多人视频通话(怎么发起多人视频群聊)

    怎么发起多人视频通话(怎么发起多人视频群聊)

  • 电脑桌面没有我的电脑了怎么调出来(电脑桌面没有我的电脑怎么打开u盘)

    电脑桌面没有我的电脑了怎么调出来(电脑桌面没有我的电脑怎么打开u盘)

  • 苹果手机和ipad可以用一个id吗(苹果手机和ipad怎么共享屏幕)

    苹果手机和ipad可以用一个id吗(苹果手机和ipad怎么共享屏幕)

  • 苹果11有防水功能吗(苹果11有防水功能吗,被洗衣机洗了几分钟)

    苹果11有防水功能吗(苹果11有防水功能吗,被洗衣机洗了几分钟)

  • 天猫购物津贴怎么领(天猫购物津贴是什么意思,怎么使用)

    天猫购物津贴怎么领(天猫购物津贴是什么意思,怎么使用)

  • 京东下单后怎么取消订单(京东下单后怎么更改地址收货地址)

    京东下单后怎么取消订单(京东下单后怎么更改地址收货地址)

  • 央视影音听电视怎么关(央视影音听电视怎么收费)

    央视影音听电视怎么关(央视影音听电视怎么收费)

  • 抬头亮屏怎么设置(抬头显示设置)

    抬头亮屏怎么设置(抬头显示设置)

  • 苹果怎么用微信充值(苹果怎么用微信分身)

    苹果怎么用微信充值(苹果怎么用微信分身)

  • 1080和1080ti性能差距在哪(1080对比1080ti性能提升多少)

    1080和1080ti性能差距在哪(1080对比1080ti性能提升多少)

  • qq好友热播怎么关(qq好友热播怎么看关注的人)

    qq好友热播怎么关(qq好友热播怎么看关注的人)

  • 手机上怎样取消爱奇艺会员(手机上怎样取消黑名)

    手机上怎样取消爱奇艺会员(手机上怎样取消黑名)

  • 华为手机一直语音说话,什么都点不了(华为手机一直语音播报还必须点两下)

    华为手机一直语音说话,什么都点不了(华为手机一直语音播报还必须点两下)

  • 兴业银行汇款手续费
  • 查账征收纳税申报表
  • 公司代扣个人所得税有完税凭证明
  • 简易计税方法的计算公式
  • 税率变更后账务怎么处理
  • 服务费发票需要交印花税吗
  • 费用分割单模板
  • 钱收多了退回去怎么说好
  • 应税销售行为的购买方为消费者个人的可以开专票吗
  • 个体户购买社保和自由人购买社保区别
  • 可控费用包括工资吗
  • 财务杠杆和经营杠杆的区别
  • 企业所得税的营业成本怎么算
  • 员工在社保局报备流程
  • 供应销用商品给的返利怎么做?
  • 营改增后房地产公司税种及税率
  • 不动产转让费用咋算
  • 返利失效了怎么找回
  • 延期缴纳税款的条件是什么
  • 失控发票不处理的后果
  • 定额手撕发票怎么买
  • 境内企业向香港股东分红税率是多少
  • 维修开票单位写什么
  • 审计费可以抵扣进项吗
  • 银行增值税免税收入有哪些
  • deepin隐藏分区
  • php字符串定义的三种方式
  • 商业银行的票据贴现业务与票据抵押贷款业务的区别
  • 扣除年度未扣除怎么计算
  • 辅料分配方法
  • php抽奖程序源码
  • 第十四届蓝桥杯大赛官网
  • gpio口是什么意思?
  • js获取当前日期的函数
  • 【综述】分子预训练模型综述
  • yolov4参数设置
  • PHP自定义函数实现计算机整数的四次方
  • 帝国cms wordpress
  • 应收利息的罚息是复利吗
  • 有问题的原始凭证是什么
  • 经费支出的定义
  • 销售货物免税
  • 开出租车怎么租车
  • 资产处置收益的账务处理
  • mongodb cond
  • 软件行业的成本核算
  • 工会经费计算表
  • 人工费支付协议
  • 金蝶低值易耗品报废操作
  • 汇算清缴可以不调整吗
  • 画完图不给钱怎么办
  • 电子承兑过期超过10天就无法转让吗
  • 产品出口认证
  • 年终奖财务是以工资形势发放,个税怎么单独计税
  • 企业间贴现手续怎么办理
  • 汇算清缴调增的工资怎么做账
  • 免抵退怎么理解
  • 注册资本实缴后钱怎么出来
  • 如何当好一个农民
  • Windows8.1和Ubuntu14.04双系统卸载Ubuntu的方法
  • macOS 10.12.2下PDF崩溃严重怎么回事 macOS 10.12.2下PDF崩溃的原因以及解决办法
  • win10怎么关闭防火系统
  • archlinux ip地址
  • win10 edge浏览器设置信任站点
  • pqhelper.exe是什么进程 pqhelper进程查询
  • nodejs创建vue
  • 原生js实现ajax步骤
  • android之handler
  • shell 比较大小
  • unitysdk接入
  • 安卓仿平板
  • html5过渡的触发机制
  • Python遍历循环
  • 江西省国家税务局总局官网
  • 注销税务登记需要哪些材料
  • 福建省地方amc
  • 劳办发1994第48号文全文原文
  • 补税务登记证报税要钱吗
  • 审批制改为备案制有什么区别
  • 国家税务总局大连电子税务局
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设