位置: IT常识 - 正文

单目深度估计--深度学习篇(单目深度估计算法)

编辑:rootadmin
单目深度估计--深度学习篇 文章目录一:深度估计应用背景1.深度估计的定义2.深度估计的应用场景3.几种深度估计的方法4.使用深度学习估计的优缺点二:单目深度估计模型1.使用的数据集2.整体网络架构3.分模块解析Ⅰ:层级Ⅱ:ASPPⅢ:特征图减法操作Ⅳ:特征融合Ⅴ:Coarse-to-FineⅥ:权重参数预处理WS与pre_act操作Ⅶ:损失函数一:深度估计应用背景1.深度估计的定义

推荐整理分享单目深度估计--深度学习篇(单目深度估计算法),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:单目深度估计评价指标,单目深度估计算法,单目深度估计网络,单目深度估计综述,单目深度估计网络,单目深度估计综述,单目深度估计网络,单目深度估计原理,内容如对您有帮助,希望把文章链接给更多的朋友!

假设我们有一张2d图片III,我们需要一个函数 FFF 来求取其相对应的深度ddd.这个过程可以写为:

d=F(I)d = F(I)d=F(I)

这里的深度信息ddd其实就代表着由3D物体投射而来的2D图像中每个像素点与相机的实际距离。

但是众所周知, FFF是非常复杂的函数,因为从单张图片中获取具体的深度相当于从二维图像推测出三维空间,即使人眼在两只眼睛来定位自然世界的物体的情况下也依然会有问题存在,更何况使用单张照片了。所以传统的深度估计在单目深度估计上效果并不好,人们更着重于研究立体视觉 (Stereo Vision),即从多张图片中得到深度信息.因为两张图片就可以根据视角的变化得到图片之间disparity的变化,从而达到求取深度的目的。话说多了,先往后看。

2.深度估计的应用场景

除了上面两张图片中提到的应用场景,深度估计还可以运用于3D重建,障碍物检测,SLAM等一系列需要深度信息的下游任务中。因此,可见深度估计往往作为上游任务存在,重要性不言而喻。

3.几种深度估计的方法

利用激光雷达或结构光在物体表面的反射获取深度点云 这种方法可谓是“土豪法”,直接利用传感器扫一扫,便可获得高精度点云深度信息,但是价格昂贵!

传统的双目测距 双目立体视觉,由两个摄像头组成,像人的眼睛能看到三维的物体,获取物体长度、宽度信息,和深度的信息。摄像头的位置是一般手动标定(比如张正友相机标定算法),然后通过目标点在图像坐标系和世界坐标系中的位置来推导相机内外参数矩阵的过程,往往是一个坐标转换的过程。

传统的单目测距 单目视觉是能获取二维的物体信息,即长度、宽度,所以如果想要测距,需要拍摄出几张不同角度(时序)的图像,再通过Mobileye单目测距等一系列方法,进行求解。同时,计算量复杂,而且精度不如双目高,往往是在条件艰难的时候使用。

4.使用深度学习估计的优缺点

前面铺垫完了几种传统领域的几种常见方法,现在开始聊聊今天的主角–深度学习单目估计。顾名思义,深度学习深度学习,第一反应End2End,把图像往训练好的网络里一扔,不需要任何人工参与,直接得出最后的深度图,一个词,方便!同时,我们只需要单目相机,一个词,成本低!

那有什么缺点呢,首先是80m以内的深度估计精度还行,但是再远误差就很大了,可见精度低、估计距离局限性,都是它的缺点。当然,还有一个深度学习一直绕不走的问题,需要大量训练集,在一些缺少训练数据的环境里显然是不容忽视的问题。

单目深度估计--深度学习篇(单目深度估计算法)

但是毕竟和时代前沿技术搭边了,咱们就来好好唠一唠,下面进入正题。

二:单目深度估计模型1.使用的数据集

这里讲解的深度估计模型,使用的是KITTI数据集,取景于城市、乡村的道路上,该数据集在多个研究领域内被广泛使用,具体见下图:

2.整体网络架构

深度估计模型是输入一张图像,输出一张包含深度信息的图片,所以是一种生成模型,那么必然离不开编码和解码这个核心过程了,见下图: 当然,真正的网络架构没有这么简单,但都是围绕编码-解码进行的,下面展示CVPR最近发布的一种网络架构,我将逐模块地讲解这个“庞然大物”:

3.分模块解析Ⅰ:层级

其实就是经过几层池化后,每次缩一半,这里的backbone使用的是Resnet101。和U-net等网络的操作相似,主要是为了后面的操作,如图:

Ⅱ:ASPP

作者在backbone的最后一个特征图做了ASPP,这里什么是ASPP不再赘述了,就是空洞卷积和SPP的结合,之所以用ASPP目的就是加点特征多样性,同时保留一定的分辨率(也是图像分割领域常规操作)。如图所示:

Ⅲ:特征图减法操作

在深度估计研究领域,物体的轮廓深度信息是一个挑战,作者为了有效解决这个问题,进行了神操作,将两张特征图A−BA-BA−B相减(特征图B是上采样后和A一样尺寸的特征图),提取出了差异特征,得到轮廓特征图L。如下图:

Ⅳ:特征融合

进行一顿叠加,首先充分利用高层特征图与本层特征图的融合,得到中间特征图X,来增加特征的多尺度性。接着拼接高层的预测结果R‘’和本层的轮廓图L,大杂烩乱炖后得到本层预测结果R。每层都是这样操作,如图所示:

Ⅴ:Coarse-to-Fine

最后是细节“雕琢”的阶段,对每一层的R进行融合,得到最后的预测结果R‘’‘,如图所示:

Ⅵ:权重参数预处理WS与pre_act操作

在真个网络中还加入了一些细节,首先是加入了权重标准化WS操作,让权重参数分布更均匀一些,不然经过ReLU后大量权重会被杀死(笔者提出疑问,那这样为什么不换一下激励函数,比如Mish,Leaky ReLU,Swish啥的??),接着还加入了pre_act,就是先对x进行ReLU,然后再进入卷积层,比较佛系,对于他们的实验,确实准确度有了质的飞跃,如下图所示:

Ⅶ:损失函数

化简后的损失函数中的 ddd 其实就是每个像素点预测深度和真实深度的差值,重点是后面的didjdi djdidj求和是什么意思,前面为什么还加了个负号。举个例子,大家就理解了,找出两个像素点,预测值和真实值的差值分别是d1d1d1和d2d2d2,如果两个差值都是负数,那么相乘是个正值,前面加个负号,那么代表不被惩罚,相反的如果两者异号则被惩罚。可见损失函数中这一项的目的是,希望得到的预测值要么都是低了一点,要么都高了一点,而不是这里预测大了,那里预测小了,这样效果其实更糟糕,模型更不可靠。

  至此我对利用深度学习进行单目深度估计的原理,进行了简单讲解,希望对大家有所帮助,有不懂的地方或者建议,欢迎大家在下方留言评论。

我是努力在CV泥潭中摸爬滚打的江南咸鱼,我们一起努力,不留遗憾!

本文链接地址:https://www.jiuchutong.com/zhishi/298405.html 转载请保留说明!

上一篇:vue3 中使用百度地图(vue3使用教程)

下一篇:opencv调用yolov7 yolov7 c++ yolov7转onnx opencv调用yolov7 onnx(opencv调用yolov8)

  • 荣耀手机怎么设置自己喜欢的来电铃声(荣耀手机怎么设置指纹解锁)

    荣耀手机怎么设置自己喜欢的来电铃声(荣耀手机怎么设置指纹解锁)

  • 关机键是什么字母(关机键长什么样子)

    关机键是什么字母(关机键长什么样子)

  • vivo x30和s6的区别(vivos6vsvivox30)

    vivo x30和s6的区别(vivos6vsvivox30)

  • 天猫开团什么意思(天猫开团和发售)

    天猫开团什么意思(天猫开团和发售)

  • 计算机存储器容量的基本单位是(计算机存储器容量的基本单位是字节,在表示)

    计算机存储器容量的基本单位是(计算机存储器容量的基本单位是字节,在表示)

  • 华为nova7se手机怎么长截屏(华为nova7se手机屏幕多少钱)

    华为nova7se手机怎么长截屏(华为nova7se手机屏幕多少钱)

  • 手机视频播放失败如何处理(手机视频播放失败是什么原因)

    手机视频播放失败如何处理(手机视频播放失败是什么原因)

  • qq号是邮箱号吗(qq号是邮箱号吗怎么注册)

    qq号是邮箱号吗(qq号是邮箱号吗怎么注册)

  • 腾讯会议可以看到每个人吗(腾讯会议可以看见成员在线时长吗)

    腾讯会议可以看到每个人吗(腾讯会议可以看见成员在线时长吗)

  • 小米应用商店加载不出(小米应用商店加载失败,但是联网了)

    小米应用商店加载不出(小米应用商店加载失败,但是联网了)

  • 红米k20上市时间(红米k20几时发布的)

    红米k20上市时间(红米k20几时发布的)

  • 虎牙直播公会有什么用(虎牙直播的公会)

    虎牙直播公会有什么用(虎牙直播的公会)

  • qq删不了好友怎么办(qq好友删除不掉怎么办)

    qq删不了好友怎么办(qq好友删除不掉怎么办)

  • ipadmini3是哪一年出的(ipadmini3什么时候出的)

    ipadmini3是哪一年出的(ipadmini3什么时候出的)

  • 微信滴滴是自动付款吗(微信滴滴是自动接单吗)

    微信滴滴是自动付款吗(微信滴滴是自动接单吗)

  • 抖音绑定头条后会有收益吗(抖音号绑定头条)

    抖音绑定头条后会有收益吗(抖音号绑定头条)

  • 华为畅享10s什么时候开售(华为畅享10s参数)

    华为畅享10s什么时候开售(华为畅享10s参数)

  • 单反可以带上飞机吗(单反带上飞机需要拆镜头吗)

    单反可以带上飞机吗(单反带上飞机需要拆镜头吗)

  • 苹果x摄像头多少像素(苹果x摄像头多少倍)

    苹果x摄像头多少像素(苹果x摄像头多少倍)

  • ppt上面的工具栏不见了(ppt上面的工具栏固定按钮不见了)

    ppt上面的工具栏不见了(ppt上面的工具栏固定按钮不见了)

  • 开关一是开还是0是开(开关一是开还是o是开)

    开关一是开还是0是开(开关一是开还是o是开)

  • 新开传世,产品介绍(传世新传)

    新开传世,产品介绍(传世新传)

  • 安卓手机微博视频缓存在哪里(安卓手机微博视频怎么保存到手机相册里)

    安卓手机微博视频缓存在哪里(安卓手机微博视频怎么保存到手机相册里)

  • 用支付宝如何缴水费(用支付宝如何缴纳违章罚款)

    用支付宝如何缴水费(用支付宝如何缴纳违章罚款)

  • 闲鱼怎么评论宝贝(闲鱼怎么评价让别人看见)

    闲鱼怎么评论宝贝(闲鱼怎么评价让别人看见)

  • win10系统怎么永久激活 win10激活秘钥神key推荐(含激活工具+教程)(win10系统怎么永久激活)

    win10系统怎么永久激活 win10激活秘钥神key推荐(含激活工具+教程)(win10系统怎么永久激活)

  • 如何用宝塔解决wordpress上传文件限制问题,傻瓜教程-电脑学习网(宝塔怎么搭建)

    如何用宝塔解决wordpress上传文件限制问题,傻瓜教程-电脑学习网(宝塔怎么搭建)

  • 评估报告是什么
  • 国家税收与地方税收
  • 公司收到劳务发票怎么申报个税
  • 增值税现代服务业6大行业
  • 金税盘维护费抵税账务处理
  • 4s店代办保险回扣
  • 三证合一后税务登记证要收回吗
  • 出租的土地使用权是无形资产吗
  • 货拉拉电子货票收款凭证是发票吗
  • 新会计准则固定资产报废账务处理
  • 房地产开发企业的土地使用权计入哪里
  • 售后服务企业返利政策
  • 折旧已经计提完的固定资产如何盘点
  • 增值税逾期未申报的税务怎么处理
  • 机动车销售发票怎么抵扣
  • 设备折旧费用的作用
  • 总公司亏损分公司盈利如何处理
  • 计提税金与缴纳有差额
  • 增值税专用发票有效期是多长时间
  • 建筑业的发票
  • 申报水利基金减免性质在哪里找?
  • 销售款的印花税是按含税还是不含税价款申报?
  • 什么是清算资金
  • 企业应交增值税的计算公式
  • 培训费和差旅费可以一起报嘛
  • 进项构成比例是啥
  • 人工成本全额扣除吗
  • 货物劳务和应税收入区别
  • b4纸张尺寸
  • 包装物租金怎么计算增值税
  • 公司绿化工程计入什么科目
  • win10应用商店下载微信
  • 微软surface售后电话人工
  • 代办退税账务处理
  • 财务如何核对会计信息
  • 塞巴斯蒂安电影 豆瓣
  • 承接旅游业务
  • 拉贾安帕特群岛地图中文版
  • 上月的会计分录做错了
  • 支付个人赔偿款入账
  • 库存品处理的方式
  • file file=new file()的作用
  • dedecmsv6
  • 个体工商户增值税申报操作流程
  • 高新技术企业三季度申报所得税研发费加计怎么扣除
  • 员工出差时法律规定
  • 工会经费到底是什么
  • 机场工作人员的家属票
  • 施工企业预估成本怎么算
  • 个体工商户不缴纳印花税吗
  • 增值税普通发票和电子普通发票的区别
  • 劳务派遣公司账务
  • 车辆上牌的费用应付多少?
  • 股权转让印花税减半征收政策
  • 生物资产转让增值税
  • 招标代理专家库合法吗
  • 固定资产处置办法
  • 成立教育培训司
  • 数字证书限额多少
  • 旅行社的代订机票产品能报销吗
  • 委托收款商业汇票
  • win7显示无线网络未连接
  • linux系统故障及解决方法
  • linux那些事儿
  • win7开机出现标志后就重启
  • svhost.exe - svhost是什么进程 有什么作用
  • win7系统如何将插孔设置为ac97前面板
  • win7打印机图标显示感叹号
  • win8升win8.1
  • unity3d教学视频
  • linux的ftp命令
  • unity3d碰撞检测源码
  • unity 3渲2
  • Android的AdapterView及其子类简介-android学习之旅(二十三)
  • javascript有哪些常用的属性和方法
  • shape form的区别
  • python3 split()
  • python 正则 \s
  • 涠洲岛船票售完
  • 镇江市物业管理协会
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设