位置: IT常识 - 正文

【深度估计】单目深度估计(深度计算公式)

编辑:rootadmin
【深度估计】单目深度估计 文章目录什么是深度估计?什么是视差深度估计与三维重建单目深度估计研究历程单目深度估计方法传统方法基于线索线性透视聚焦/散焦度天气散射阴影纹理遮挡高度运动线索基于物体自身运动基于摄像机的运动基于机器学习参数学习方法开创性工作改进加入语义信息条件随机场 (Conditional Random Field,CRF)非参数学习方法第一个里程的工作进一步完善基于多帧其他非参数学习方法深度学习方法基于有监督的深度学习方法首次应用改进:多尺度网络深度卷积神经场深度残差网络利用分类思想基于无监督的深度学习方法利用立体视图利用相对关系利用视频序列应对动态障碍物Struct2DepthDepth in the WildDepth and motion learning数据集KITTINY UCityScapes论文推荐CVPR 2021什么是深度估计?

推荐整理分享【深度估计】单目深度估计(深度计算公式),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:深度估计应用,深度计算公式,深度估计数据集,深度估计应用,深度估计的意义,深度估计的意义,深度估计应用,深度估计算法,内容如对您有帮助,希望把文章链接给更多的朋友!

深度估计,就是获取图像中的场景里的每个点到相机的距离信息,这种距离信息组成的图称之为深度图 – Depth map

什么是视差

两张图像中相同的物体的像素坐标不同; 较近的物体的像素坐标差异较大,较远的物体的差异较小; 同一个世界坐标系下的点在不同图像中的像素坐标差异,就是视差; 不同图像之间的视差,通过相机参数、两个拍摄点之间的位置信息即可换算出物体和拍摄点之间的距离;

深度估计与三维重建

1、获取深度图以及尺度信息 深度图是三维重建的基础 可以通过激光/双目/相机姿态获取尺度 2、将像素坐标转换到世界坐标 通过内参矩阵、外参矩阵以及尺度关系,得到基于世界坐标系下的点云信息 3、三维重建 得到点云后,再将图像的纹理信息贴到点云上,完成三维重建

单目深度估计研究历程

单目深度估计方法

传统方法基于线索

从图像本身的特征和线索计算图像的深度值。

常用的单日深度线索有:线性透视、聚焦/散焦、大气散射、阴影、纹理、遮挡、相对高度和运动线索。

线性透视

通过检测平行线,识别这些线的会聚点(消失点)来进行深度估计 当距离眼睛更远时,固定尺寸的物体将产生较小的视角 根据消失线和消失点的位置对深度进行适当的分配

聚焦/散焦度

在凸面镜所成的像中,物体只有处在离镜头特定的距离才能够被聚焦,在其他位置都会产生不同程度的模糊现象,模糊程度与其所处的距离有关。

例子:基于聚焦信息构造高阶统计量图,区分出图像中的前景区域和背景区域并对这两个区域进行深度分配。

天气散射

当光线通过大气层传播时,空气中的灰尘微粒对光线具有散射和吸收作用,远处物体相对于近处物体亮度、对比度和色彩饱和度较低,看起来不太清晰。

根据大气散射现象,大脑可以判断不同对比度的物体具有不同的深度。

例子: 通过在输入图像上添加雾面来模拟雾图像,并通过去雾算法中的透射估计方法估计深度图。

阴影

图像中物体表面阴影的变化可以反映物体的形状信息。

SFS(Shape from shading 阴影恢复形状): 利用图像的亮度和表面几何之间的关系,从灰度图像中恢复出物体的三维形状当物体表面的颜色和纹理不属于同一分布的时候,该方法就会失效。

纹理

根据表面纹理标记的提示来估计表面的形状。 距离一个物体越近时,越能清楚地看到物体表面的纹理细节,对于距离较远的物体看不清。 通常仅限于特定类型的图像。

遮挡

当一个物体遮挡住另一个物体时,它比被遮挡的物体距离观看者更近一般认为轮廓线连续平滑的物体是遮挡物体,即距离观察者更近。

例子:通过对遮挡的明确推理,恢复了场景中独立结构的深度排序。

高度

靠近图像底部的物体通常比图片顶部的物体更近,主要包含在户外和景观场景中要提取出这个深度线索,通常要识别出水平线,将图像分成从左边界到右边界的条纹。

例子:应用线追踪算法来恢复最优分割线,并进一步采用深度优化方法来提高最终深度图的质量。

运动线索基于物体自身运动

利用运动视差近大远小的原理,通过对视频序列的前后帧进行点匹配求得运动视差·只适用于摄像机处于静止的情形,没有运动物体时失效

基于摄像机的运动

运动恢复结构(Structure From Motion,SFM):假定场景静止不变,仅存在摄像机的运动SFM 可以从图像序列中恢复出摄像机的外参和场景的深度信息 1.首先对相机标定。 2.提取图像特征,并计算相邻图像匹配的特征点。 3.根据对极几何得到相机位姿以及深度信息。 缺点 1.要求必须存在相机的运动,运动幅度不能较大。 2.当场景中存在运动物体时,对精度影响很大;速度相对较慢。 3.依赖相邻图像间的特征点匹配,不适用图像纹理较少或相机的运动幅度大的场景。

基于机器学习

将大量训练图像集和对应的深度图输入定义好的模型中,进行有监督的学习。 分为参数学习方法与非参数学习方法。

参数学习方法

参数学习方法是指能量函数中含有未知参数的方法,训练的过程是对这些参数的求解

开创性工作

2005年,斯坦福大学的Saxena等人利用**马尔科夫随机场(Markov RandomField,MRF)**学习输入图像特征与输出深度之间的映射关系。

利用图像中多尺度的纹理、模糊等深度线索,分别构建了高斯和拉普拉斯MRF。

对每个分割图像块的深度进行了建模,同时建立相邻块之间的深度关系。

改进

2007年,在最大化后验概率框架下,以超像素为单元,利用MRF 拟合特征与深度、不同尺度的深度之间的关系,进而实现对深度的估计。

(超像素:把一些具有相似特性的像索“聚合”起来,形成一个更具有代表性的大“元素”)

加入语义信息

通过引入场景中的附加信息,如语义假设和重复纹理等,能有效提高深度估计的精度。

2010年,Liu 等人对整个图像的不同区域按照语义标签进行分类。

采用更简单的特征向量作为监督学习的输入,充分利用不同类别之间的深度信息和几何约束。

将语义信息及对应的深度约束结合,构建MRF模型,优化模型得到场景的深度信息。

MRF通常很难进行精确地学习和推理,大多都采用近似计算,导致预测深度的准确率不高,且效率低。

条件随机场 (Conditional Random Field,CRF)

Cheng 等人首先利用遮挡和消失点这两种深度线索获取深度梯度图,构建基于像素的条件随机场。

Zhuo等人提出对深度图的分层表达进行建模,对超像素、区域和布局的不同层融合推理。

J等人研究了超像素标记和深度估计之间的内在关系,提出弹性条件随机场模型Elastic Conditional Random Field,ECRF),利用它们的相互关联来加强彼此。

上述方法需假设RGB图像与深度之间的关系满足某种参数模型,而假设模型难以模拟真实世界的映射关系,预测精度有限

非参数学习方法

非参数学习方法,使用现有的数据集进行相似性检索推测深度。

一种数据驱动算法。

给定一幅测试图像,通过融合RGBD数据库中相似图像的深度得到。

第一个里程的工作

Konrad 等人提出采用最近邻搜索(k Nearest Neighbor,kNN)。

从RGBD训练库中选出与测试图像最相似的幅候选图像。

再将这 K 幅候选图像对应的深度图进行中值融合得到测试图像的深度。

进一步完善【深度估计】单目深度估计(深度计算公式)

Karsch等人采用变形步骤,将候选图像和深度与测试图像对齐,构建了【融合变形后的K幅候选深度图的】 能量最小化方程。

基于多帧

利用视频中时间信息来获得时间上一致的深度估计。

Liu等人将单目深度估计视为离散-连续最优化问题。

通过非参数学习方式在数据库中检索相似的深度图,并利用遮挡信息构建目标函数进行深度推理。

其他非参数学习方法

Henera等人使用基于局部二进制模式的特征来估计相似的图像。采用自适应的方法进行融合得到最终深度。

在此基础上他们又提出了基于聚类的深度提取学习算法。

该方法首先根据结构的相似度将 RGBD 数据库进行聚类处理,分割成数个集合。对于给定的输入图像,先找到最相似的图像集计算出先验的深度图,之后采用基于分割的导向滤波对先验深度进行优化。

优点:非参数化方法不需要设计参数化的模型,同时也没有引入太多的场景假设。

缺点:当数据库中不存在与测试图像相似的图像时,很难恢复理想的深度图;依赖于图像检索,计算量大、耗时高,难以实际应用。

深度学习方法基于有监督的深度学习方法

基于有监督学习的的单目深度估计方法,在模型训练时需要依赖真实深度依赖庞大的数据进行网络模型的训练,数据集一般包括单目图像和对应的深度真值。

基于有监督学习的单目深度估计方法中,网络模型的训练需要依赖真实深度值。真实深度值的获取成本高昂,且范围有限,需要精密的深度测量设备和移动平台采集的原始深度标签通常是稀疏点,不能与原图很好的匹配。

首次应用

2014年,Eigen等人使用Deep CNN估计单幅图像的深度,两个分支以RGB图片作为输入,第一个分支网络粗略预测整张图像的全局信息,第二个分支网络细化预测图像的局部信息原始图片输入粗网络后,得到全局尺度下场景深度的粗略估计将粗网络的输出传递给细网络,进行局部优化,添加细节信息先训练Coarse网络,再固定Coarse网络的训练参数,去训练Fine网络

一种全局+局部的策略,Coarse网络预测整体趋势,Fine网络局部调优。

改进:多尺度网络

2015年,Eigen等人基于上述工作,提出了一个统一的多尺度网络框架。

使用了更深的基础网络VGG,利用第3个细尺度的网络进一步增添细节信息,提高分辨率,scale1网络对整张图片做粗略估计,scale2和scale3 网络对全局预测进行细节优化,将scale1网络的多通道特征图输入 scale2 网络,联合训练前面两个尺度的网络,简化训练过程,提高网络性能。

分别用于深度预测,表面法向量估计和语义分割3个任务,将同一框架独立应用于不同任务,使用不同的数据集训练。

深度卷积神经场

Liu等人(2015)将深度卷积神经网络与连续条件随机场结合,提出深度卷积神经场;

使用深度结构化的学习策略,学习连续CRF的一元势能项和成对势能项;

通过解析地求解函数的积分,可以精确地求解似然概率优化问题。

Li等人(2015)提出多尺度深度估计方法,用深度神经网络对超像素尺度的深度进行回归;

再用多层条件随机场后处理,结合超像素尺度与像素尺度的深度进行优化;

多尺度图片作为输入,有利于学习全局的深度信息。

深度残差网络

Laina 等人(2016)提出一种基于残差学习的全卷积网络(FCN)架构,去掉全连接层,减少参数,不限制图像输入尺寸。

整个网络可以看做是一个encoder-decoder的过程,使用了预训练的ResNet50,网络结构更深。

为了提高输出分辨率同时优化效率,提出一种新的上采样方法。

考虑到深度的数值分布特性,引入逆Huber Loss作为优化函数。

利用分类思想

考虑到场景由远及近的特性,可以利用分类的思想。

Cao等人(2018)将深度估计问题看作像素级的分类问题。

离散化:将深度值投影到对数空间,按照深度范围离散化为类别标签。

训练:深度残差网络预测每个像素对应的类别,损失函数包含信息增益的多项逻辑函数(对离真值越远惩罚越大,网络更加关注难样本)。

后处理:分类可以得出概率分布,便于条件随机场作为后处理优化细节。

基于无监督的深度学习方法

基于有监督学习的单目深度估计方法中,网络模型的训练需要依赖真实深度值。真实深度值的获取成本高昂,且范围有限,需要精密的深度测量设备和移动平台采集的原始深度标签通常是稀疏点,不能与原图很好的匹配。

无监督学习的方法不依赖深度真值,是单目深度估计研究中的热点。

相对于传统算法和有监督学习算法,无监督学习方法在网络训练时只依赖多帧图像,不需要深度真值具有数据集易获得、结果准确率高和易于应用等优点。

根据图像对之间的几何关系重建出对应的图像,通过图像重建损失监督训练。

利用立体视图

Garg等人(2016)提出利用立体图像对实现无监督单目深度估计;

利用左右立体图像对,用预测的深度图重构左图,计算重构损失;

训练时需要左右图像对,预测时只需要一张图;

Godard 等人(2017)对上述方法进一步改进: Monodepth;

利用左右视图的一致性实现无监督的深度预测;

利用对极几何约束生成视差图,再利用左右视差一致性优化性能,提升鲁棒性。

利用相对关系

Zoran等人(2015)关注相对深度关系,利用图像中点对之间的相对关系推断深度信息。(需要少量相对远近的标签,算是弱监督)

网络输出点对之间的相对关系,再利用数值优化方法将稀疏的输出稠密化为最终结果。

优点:比数值回归更加简单;人们能够很容易判断相对关系,训练数据集获取成本低相对关系不受数据的单应变换影响,系统更加鲁棒

整体框架由3部分组成: 第1部分从图像中选择点对。 第2部分估计每一个点对的相对关系,提取相关信息并做三分类。 第3部分将点对之间的相对关系扩展至全局,得到稠密输出。

Chen 等人( 2016)利用相对深度关系构造损失函数通过多尺度的神经网络直接预测像素级的深度。

此损失函数的设计,让网络能够利用相对深度关系作为标签,深度值作为网络的输出结果,将相对深度关系与连续深度值联系了起来。

利用视频序列

SFMLearner Monodepth2 Featdepth

应对动态障碍物

上述方法都基于静态场景假设,如果场景中出现了动态目标,动态目标在两帧中的变化就会很小,可能将近处的物体误判为远处的物体(因为远处的物体误差小)。

Struct2DepthDepth in the WildDepth and motion learning数据集KITTINY UCityScapes论文推荐CVPR 2021

本文链接地址:https://www.jiuchutong.com/zhishi/298600.html 转载请保留说明!

上一篇:yolov3模型训练并部署到K210(零基础也可)(yolov2模型)

下一篇:基于Web Speech API给ChatGPT加上语音功能,距离MOSS又近了一步(基于网络创新形成的大数据的最突出特征是什么?( ))

  • 钉钉手机怎么设置虚拟背景(钉钉手机怎么设置子管理员)

    钉钉手机怎么设置虚拟背景(钉钉手机怎么设置子管理员)

  • qq群怎么发全体通话(qq群怎么发)

    qq群怎么发全体通话(qq群怎么发)

  • 淘宝退款理由选择其他对卖家有影响么(淘宝退款理由选择缺货对卖家有影响么)

    淘宝退款理由选择其他对卖家有影响么(淘宝退款理由选择缺货对卖家有影响么)

  • 什么叫导向定位基准(导向定位策略主要包括)

    什么叫导向定位基准(导向定位策略主要包括)

  • 苹果自带的视频app没了(苹果自带的视频软件怎么用)

    苹果自带的视频app没了(苹果自带的视频软件怎么用)

  • 苹果x屏幕自动变暗怎么调(苹果怎么双击屏幕就亮)

    苹果x屏幕自动变暗怎么调(苹果怎么双击屏幕就亮)

  • 路由器ddns有什么用(无线路由器ddns有什么用)

    路由器ddns有什么用(无线路由器ddns有什么用)

  • 快手闪回啥意思(快手公屏上闪回是啥意思)

    快手闪回啥意思(快手公屏上闪回是啥意思)

  • 为什么qq加群要发短信(为什么qq加群要验证码)

    为什么qq加群要发短信(为什么qq加群要验证码)

  • 抖音连着点赞会限流吗(抖音连着点赞会被限流吗)

    抖音连着点赞会限流吗(抖音连着点赞会被限流吗)

  • ipad为什么不能下载微信(ipad为什么不能连手机热点)

    ipad为什么不能下载微信(ipad为什么不能连手机热点)

  • 正常有信号打电话就没信号了(正常有信号打电话怎么打)

    正常有信号打电话就没信号了(正常有信号打电话怎么打)

  • 得物闪电发货和普通有什么区别(得物闪电发货和品牌专供哪个好)

    得物闪电发货和普通有什么区别(得物闪电发货和品牌专供哪个好)

  • 手机卡上的数字什么意思(手机卡上的数字怎么查出手机号码)

    手机卡上的数字什么意思(手机卡上的数字怎么查出手机号码)

  • 闲鱼系统繁忙请稍后再试(闲鱼服务繁忙请稍后再试)

    闲鱼系统繁忙请稍后再试(闲鱼服务繁忙请稍后再试)

  • 苹果更新id设置啥意思(苹果更新id设置是怎么回事)

    苹果更新id设置啥意思(苹果更新id设置是怎么回事)

  • 快手注销账号还能用吗(快手注销账号还能看到作品吗)

    快手注销账号还能用吗(快手注销账号还能看到作品吗)

  • ipad在哪里保修(ipad保修计划怎么用)

    ipad在哪里保修(ipad保修计划怎么用)

  • 手机qq怎么设置动态头像(手机qq怎么设置加好友权限)

    手机qq怎么设置动态头像(手机qq怎么设置加好友权限)

  • 桌面小爱同学搜索栏怎么关(小爱同学搜索框怎么打开)

    桌面小爱同学搜索栏怎么关(小爱同学搜索框怎么打开)

  • 手机怎么查工商银行卡余额(手机怎么查工商银行卡号)

    手机怎么查工商银行卡余额(手机怎么查工商银行卡号)

  • 电脑显卡怎么看档次(win11电脑显卡怎么看)

    电脑显卡怎么看档次(win11电脑显卡怎么看)

  • 华为p30夜景怎么拍(华为p30介绍夜景功能怎样调出夜视)

    华为p30夜景怎么拍(华为p30介绍夜景功能怎样调出夜视)

  • 如何看对方撤回的消息(如何看对方撤回的图片)

    如何看对方撤回的消息(如何看对方撤回的图片)

  • ntpdc命令  查询NTP守护进程(查看ntpdate状态)

    ntpdc命令 查询NTP守护进程(查看ntpdate状态)

  • 2019年个人所得税要补税怎么办
  • 委托加工物资的成本包括哪些内容
  • 结转固定资产清理的会计科目
  • 建筑安装增值税税负率行业标准
  • 开业费用属于什么费用
  • 个人去税务局开专票需要提供什么
  • 为职工提供免费午餐
  • 小企业长期股权投资的核算
  • 机动车销售发票是否需要认证
  • 抵扣认证发票时间
  • 查补的税款怎样做账
  • 托收承付怎么理解
  • 流动负债中的短期借款
  • 公司冲账发票做不够该如何处理合适?
  • 购买货物运送运费怎么算
  • 个税起征点调整至5000
  • 网上购物退款后又收到产品了怎么办
  • 预付账款损失的账务处理如何编制呢?
  • 年终奖扣税和工资扣税
  • 纳税人备案信息包括
  • 政府土地出让金返还
  • 企业所得税季报怎么申报
  • 税务局怎么知道你的收入
  • 暂估销售收入怎么做分录
  • 长期股权投资计提减值准备
  • 出售固定资产账务如何处理
  • 商业承兑汇票需要银行审核吗
  • 微信公众号认证年审怎么弄
  • 卸载了驱动程序会怎么样
  • 企业废业怎样做会计分录
  • 辞退补偿入账
  • linux i
  • 水利建设基金是税还是费
  • 纳税人解除劳动合同证明
  • ios 的 safari 浏览器
  • 解决的英文
  • 冰河湖怎么去
  • php格式图片
  • 美国大提顿国家公园
  • 待抵扣进项税的限额是什么
  • php写excel
  • php中函数定义没有返回值类型
  • phpunit
  • 企业预缴所得税怎么算
  • vuexl
  • 大前端最新
  • 增值税农产品免税是哪一条
  • 进口消费税如何计税
  • mysql数据库三种复制类型
  • 应交增值税进项税额
  • 企业有哪些固定资产
  • 其他应收款在现金流量表怎么填
  • 公司没有销售收入
  • 不合格品的处理方式一般包括哪些
  • 一般纳税人出现以下哪些情况时,其进项税额不得抵扣( )
  • 利润表里公允价值变动损益怎么算
  • 公司注册资金可以变更减少吗
  • sql server 服务器配置
  • win7怎么设置麦克风权限
  • ubuntu如何截图快捷键
  • xp系统exiting pxe rom
  • gpt分区方法
  • rtmservice.exe - rtmservice是什么进程 有什么用
  • Linux dpkg-query 命令用法详解(Debian Linux中软件包的查询工具)
  • win7系统怎样安装字体
  • win10触屏操作
  • linux filezilla使用教程
  • win7图标随便移动
  • linux mangle
  • jquery的心得
  • 在线视频爬取工具
  • js实现拖拽元素改编顺序
  • javascript中checkbox使用方法简单实例演示
  • python魔法方法有啥用
  • flask框架下使用scrapy框架
  • 如何查询票据真伪信息
  • 河南运输客票查询管理条例
  • 广州市公安局分局待遇
  • etc可以抵扣吗
  • 上市股票转为非上市
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设