位置: IT常识 - 正文

【目标检测】YOLOV1详解(目标检测yolov5)

编辑:rootadmin
【目标检测】YOLOV1详解 前言

推荐整理分享【目标检测】YOLOV1详解(目标检测yolov5),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:目标检测算法yolo,目标检测算法yolo,目标检测tricks,目标检测 yolov3,目标检测怎么入门,目标检测yolov5,目标检测yolo,目标检测 yolov3,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在公司实习,看到其实很多落地的模型都是基于yolo来改进的。在闲暇之余又重新温故了一下yolo系列,并想着将它们进行一个总结。今天就从V1下手,接下来的几个系列也会分别进行详解。

相比起Faster R-CNN的两阶段算法,2015年诞生的YOLOv1创造性地使用端到端(end to end)结构完成了物体检测任务。直接预测物体的类别和位置,没有RPN网络,也没有Anchor的预选框,因此速度很快。 YOLOv1是YOLO系列的基准,虽然后面在工程上面大家都是直接使用YOLOV5的开源代码,但是还得需要直到这些原理,而不是像黑盒一样进行调用。后续的YOLOv3、YOLOv5都是在原来的基础上做的改进,因此完全掌握和理解YOLOv1是学好YOLO系列的关键。

1、实现方式

YOLOV1的思想就是将图像分成S*S的小网格,如果物体的中心点落在了某一个网格内,那么就由这个网格来进行预测这个物体。

 每一个网格预测B个bounding boxes,以及这些bounding boxes的得分:confidence score。confidence score反映了模型对于网格中预测是否含有物体,以及是这个物体的可能性是多少。confidence定义为:

 在这里需要区分开confidence score和confidence。上面公式的定义就是如果网格中不含有物体,则置信度为0,否则就是predicted box与ground truth之间的IOU。每一个bounding box由5个预测值组成:x,y,w,h,confidence。坐标(x,y)代表了bounding box的中心与grid cell边界的相对值。width,height则是相对于整幅图像的预测值(边框的宽和高),confidence就是预测框和真实框的IOU。每一个网格还要预测C个conditional class probability(条件类别概率):Pr(Class|Object),即在一个网格包含Object的前提下,它属于某个类的概率,只为每个网格预测一组(C个)类概率,而不考虑框B的数量,也就是说一个网格只能预测一个物体这也是YOLOV1的缺点之一。如果一个物体的中心点落在了某个网格内,具体是该网格的两个bounding box与真实物体框进行匹配,IoU更大的bounding box负责回归该真实物体。

【目标检测】YOLOV1详解(目标检测yolov5)

 对于PASCAL VOC数据集,图像输入为448×448,取S=7(即在经过神经网络之后的最终输出特征图大小为7*7),B=2(即每个grid cell中有两个bounding box负责预测落在这个gird cell中的物体),C=20(即一共有20个类别)。则输入图片经过网络的最终输出为一个7×7x30的tensor,如下图所示。且一张图片最多可以检测出49个对象,一共生成7×7×2=98个bounding box。

 以上是训练的时候需要的实现方式,在进行测试的时候,就涉及到了confidence score这个概念,具体来说在测试阶段,每个网格预测的class信息和bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score:

得到每个bbox的confidence score以后,设置阈值,滤掉的得分低的bboxes,对保留的bboxes进行NMS处理,就得到最终的检测结果。 

2、backbone

YOLO的网络结构由24个卷积层和2个全连接层组成,网络结构借鉴了GoogLeNet分类网络结构,但是没有使用Inception module,使用的1×1卷积(交替的1×1卷积用来减少前几层的特征空间)和3×3卷积简单替代。网络输入的图片大小为448×448,最终输出为7×7×30的张量(在PASCAL VOC数据集上)。

在这里需要注意的是因为最后用到了两层全连接层,这就使得对网络的输入有一定的要求,不可以变换其余大小的输入。

3、训练预训练

YOLOV1会现在imagnet上面进行预训练一个分类网络,预训练的网络即为整个网络结构的前20个卷积层+池化层+全连接层。然后再去进行训练检测网络,在预训练网络的基础上添加4个卷积层和2个全连接层,随机初始化权重。最后一层预测类概率和bounding box坐标。通过图像宽度和高度对bounding box的宽度和高度进行归一化,使它们下降到[0,1]之间,同时将(x,y)坐标参数化为特定网格单元位置的偏移,因此它们也在[0,1]之间。

损失函数

YOLOV1的损失函数算是比较经典的了,后面的也是基于这个损失函数进行梯度下降的。 YOLOv1的Loss一共由5个部分组成,均使用均方误差(sum-square error,MSE)损失,如下图所示:

 在这里需要注意的是第三点的值是0.5,而不是5。

4、优劣

YOLOV1是采用回归的思想,并没有提前设计好锚框,使用轻量型的网络对物体进行定位和分类,处理速度很快。但是不足也很明显: ● 由于每一个区域默认只有两个bounding box做预测,并且只有一个类别,因此YOLOv1有这天然的检测限制。这种限制会导致模型对于小物体,以及靠得特别近的物体检测效果不好(一个网格只能预测一个物体)。 ● 由于没有类似于Anchor的先验框,模型对于新的或者不常见宽高比例的物体检测效果不好。另外,由于下采样率较大,边框的检测精度不高。

参考:【目标检测】单阶段算法--YOLOv1详解

本文链接地址:https://www.jiuchutong.com/zhishi/298650.html 转载请保留说明!

上一篇:小程序和H5页面的相互跳转(小程序和h5页面的区别)

下一篇:Angular快速入门(angular 初学者快速上手教程)

  • 苹果13怎么关闭振动(苹果13怎么关闭勿扰模式)

    苹果13怎么关闭振动(苹果13怎么关闭勿扰模式)

  • 怎么把桌面文件放到D盘(怎么把桌面文件删除)

    怎么把桌面文件放到D盘(怎么把桌面文件删除)

  • qq音乐宠物领养后怎么换(qq音乐的宠物)

    qq音乐宠物领养后怎么换(qq音乐的宠物)

  • 已连接但不可上网有感叹号怎么办(已连接不可上网该怎么办)

    已连接但不可上网有感叹号怎么办(已连接不可上网该怎么办)

  • 抖音一直网络无法连接(抖音总是显示无网络是怎么回事)

    抖音一直网络无法连接(抖音总是显示无网络是怎么回事)

  • oppor17充电器型号(oppor17手机充电器是什么接口)

    oppor17充电器型号(oppor17手机充电器是什么接口)

  • 淘宝小铺是阿里巴巴的吗(淘宝小铺是什么)

    淘宝小铺是阿里巴巴的吗(淘宝小铺是什么)

  • 手机知乎为什么不能复制了(手机知乎为什么要下载)

    手机知乎为什么不能复制了(手机知乎为什么要下载)

  • 剪映视频导出失败(剪映视频导出失色)

    剪映视频导出失败(剪映视频导出失色)

  • 拼多多物流订阅是什么意思(拼多多物流订阅提醒收费不)

    拼多多物流订阅是什么意思(拼多多物流订阅提醒收费不)

  • igbt作用(igbt作用工作原理)

    igbt作用(igbt作用工作原理)

  • 微博怎么清空艾特记录(微博怎么清空艾特我的评论)

    微博怎么清空艾特记录(微博怎么清空艾特我的评论)

  • 电脑一直充电不拔会有影响吗(电脑一直充电不关机有影响吗)

    电脑一直充电不拔会有影响吗(电脑一直充电不关机有影响吗)

  • 快手一天点赞多少上限(快手一天点赞多少作品)

    快手一天点赞多少上限(快手一天点赞多少作品)

  • 创qq号要好友辅助怎么办(现在注册qq要好友辅助)

    创qq号要好友辅助怎么办(现在注册qq要好友辅助)

  • 快手怎么用快手号登录(快手怎么用快手号登陆)

    快手怎么用快手号登录(快手怎么用快手号登陆)

  • vivo怎么设置倒计天数(vivo怎么设置倒数日在锁屏界面)

    vivo怎么设置倒计天数(vivo怎么设置倒数日在锁屏界面)

  • 手机通话时如何录音(手机通话中怎么设置)

    手机通话时如何录音(手机通话中怎么设置)

  • 手机wps邮件发不出来(手机wps邮件发送)

    手机wps邮件发不出来(手机wps邮件发送)

  • 拼多多免拼卡在哪里(拼多多免拼卡在哪里领取)

    拼多多免拼卡在哪里(拼多多免拼卡在哪里领取)

  • 如何查看下载过的软件(如何查看下载过的软件华为)

    如何查看下载过的软件(如何查看下载过的软件华为)

  • 电脑打字不出现打字框怎么办(电脑打字不出现候选字)

    电脑打字不出现打字框怎么办(电脑打字不出现候选字)

  • 由于微信限制,仅支持口令分享怎么解除(由于微信限制,您需要授权后查看完整内容)

    由于微信限制,仅支持口令分享怎么解除(由于微信限制,您需要授权后查看完整内容)

  • qq畅聊之火断了怎么办(qq畅聊之火消失了怎么补回来)

    qq畅聊之火断了怎么办(qq畅聊之火消失了怎么补回来)

  • 快手魔筷口令是什么(快手魔筷什么意思)

    快手魔筷口令是什么(快手魔筷什么意思)

  • 自动生成目录怎么设置(自动生成目录怎么设置字体)

    自动生成目录怎么设置(自动生成目录怎么设置字体)

  • Vue3 京东到家项目实战第一篇(首页及登录功能开发) 进阶式掌握vue3完整知识体系(京东到家的物流模式)

    Vue3 京东到家项目实战第一篇(首页及登录功能开发) 进阶式掌握vue3完整知识体系(京东到家的物流模式)

  • 建筑劳务公司怎么做账
  • 中级会计实务主观题
  • 个人社保信息变更
  • 个体户做了定额还需要申报个税吗
  • 增值税发票税控开票软件打不开
  • 企业出现亏损的原因有哪些
  • 小规模纳税人销售收入会计分录
  • 软件企业享受税收优惠
  • 工会经费交税会计分录
  • 外出经营活动结束纳税人应当向经营地税务机关填报
  • 抵扣发票未申报
  • 租赁的生产设备计入哪个科目
  • 备用金被盗怎么找回来
  • 电力公司安装变压器要多少钱
  • 存货毁损计入
  • 预付款怎么做账务处理
  • 营改增后小规模都是三个点吗
  • 绿化企业所得税税率是多少
  • 关于抄税的详细介绍
  • 金融公司一般有哪些业务
  • 管理费用销售费用
  • 会计费用涉及哪些科目?
  • 纳税退税申请表的基本情况如何写
  • 产品研发的规则
  • 增值税一般纳税人是什么意思
  • 租车公司的车能租吗
  • 什么情况下一般纳税人可以转为小规模纳税人
  • 股东撤资退出
  • 商品进销差价主营业务收入
  • 赡养老人个税扣除标准和条件是什么
  • 月末计提固定资产折旧时,应借记
  • 文件类型设置
  • 劳务费意思
  • winds10教育版
  • 调整之前的凭证怎么删除
  • 建筑业开具发票
  • msp 什么意思
  • 总分类账和明细账
  • 老电脑更新系统会怎么样
  • 加载分页
  • 电子退库款
  • 股东以原材料出资
  • 傅里叶级数狄利克雷判别法
  • opencv实战项目教程
  • php识别验证码的库高级
  • 个体工商户有固话吗
  • 没有发票以及收款怎么办
  • 税收返还会计处理办法
  • 增值税发票开具规定
  • 二季度报表是累计数吗
  • linux数据库导入命令
  • 学习笔记——Django项目的删除数据、查询数据(filter、get、exclude)
  • 电子承兑汇票贴现怎么操作
  • 未确认融资费用怎么算
  • 库存暂估入账的会计分录
  • 电子钥匙报税
  • 工会活动个人奖励标准
  • 贴现的概念及计算公式
  • 建筑工程劳务分包,工伤责任承担
  • 购买的商品属于什么会计科目
  • 小规模发票冲红了退税怎么处理
  • 测绘费发票图片
  • 软件开发是否属于采购目录
  • sqlserver 获取字符位置
  • mysql 死锁解决
  • WINDOWS体验指数5.1
  • vmware vnc连接
  • 获取方法
  • dx12不支持dx11解决办法
  • 如何解除系统默认
  • xp怎么删除电脑系统
  • nodejs oom
  • linux find命令用法
  • 常用正则表达式汇总
  • unity3d地图定位
  • javascript类的继承
  • JavaScript中Object.prototype.toString方法的原理
  • 贸易型企业进项发票
  • 增值税纳税申报时间
  • 物业优质服务我们在行动
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设