位置: IT常识 - 正文

【BEV】TPVFormer复现以及原理

编辑:rootadmin
【BEV】TPVFormer复现以及原理 1. 前言

推荐整理分享【BEV】TPVFormer复现以及原理,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

在环视图像的网络中,常使用鸟瞰图来进行特征提取,尽管比体素表示更加高效,但也会损失部分信息,为了解决这个问题,TPVFormer论文中提出了三个视图来表示三维特征的方法,并且在实验中验证了仅使用图像作为输入,能够与雷达获得相当的分割效果。

本文主要介绍如何在本地运行mini数据集,以及生成对应的视频,后续会对源码进行深入学习。

mini数据集: https://pan.baidu.com/s/1oKvicVacbPFZNtXO7l9t7A?pwd=p4h4 提取码: p4h4

结果可视化:https://www.bilibili.com/video/BV1oX4y1o7FQ/?spm_id_from=333.999.0.0 BEV交流群,v群:Rex1586662742、q群:468713665。

2. 运行

在TPVFormer的仓库中,作者只针对完整的nuscenes数据集制作了 nuscenes_infos_train.pkl、nuscenes_infos_val.pkl,对于学习者来说,通常无法在完整nuscences数据集上进行测试,在后来的咨询下,原作者也是给出了mini数据集的pkl文件,通过下文的链接即可获得。以及liar文件

2.1 运行eval.py

在整理好数据集后,运行下面的指令就可以进行验证了

python eval.py --py-config xxxx --ckpt-path xxxx

直接运行应该会报错,如果报错为 self.table_names 里面没有 “lidarseg”,则需要修改如下内容 将/home/snk/anaconda3/envs/tpv/lib/python3.8/site-packages/nuscenes_devkit-1.1.10-py3.8.egg/nuscenes/nuscenes.py文件中的 self.table_names中添加一个变量 ‘lidarseg’

self.table_names = ['category', 'attribute', 'visibility', 'instance', 'sensor', 'calibrated_sensor', 'ego_pose', 'log', 'scene', 'sample', 'sample_data', 'sample_annotation', 'map','lidarseg']【BEV】TPVFormer复现以及原理

同时在附近添加一行代码

self.lidarseg = self.__load_table__('lidarseg')

再次运行

python eval.py --py-config xxxx --ckpt-path xxxx2.2 vis_scence.py

按照项目中的指示来安装环境可能会有问题,可以按照下面的方式来安装

pip install vtk==9.0.1pip install mayavi==4.7.3sudo apt updatesudo apt install xvfb

安装完毕即可运行生成视频,个人生成的视频见下方的链接。

python visualization/vis_scence ...python visualization/generate_videos.py

如果报错说pyqt5有问题,就卸载pyqt5

3 论文简介3.1 原理学习

一般只用俯视图来计算三维特征,而在本文中主要提出了一种表征三维特征的方法,即提出了tri-perspective view representation(TPV),通过三个方向的特征,很容易完成纯视觉的3d分割、3d语义分割等,作者将TPVFormer对标特斯拉的occupancy network。TPVFormer的主要流程如下图所示:

输入为6张环视图片,通过Image Backbone,可以得到不同尺度的特征层,多尺度特征层目前应用十分广泛。再通过TPVFormer模块可以获得TPV特征,最终将三个方向特聚合在[100,100,8]的体素中,每个体素特征是由三个方向的特征相加得到。在训练时,使用真实Lidar来监督,在预测时,可以输出稠密的体素特征。

img_feats = self.extract_img_feat(img=img, use_grid_mask=use_grid_mask) // 提取多尺度特征outs = self.tpv_head(img_feats, img_metas) # [1, 10000, 256]、 [1, 800, 256]、[1, 800, 256] 三个方向的BEV特征outs = self.tpv_aggregator(outs, points) # 分割结果

为何要提出三个方向的特征图,论文通过下图来进行说明: 如果直接用Voxel来表示三维特征,那么会极大的增加计算量,而直接用BEV特征会损失高度上的信息,而TPV在前面两者之间进行了折中处理,在保留不同视图特征的同时,极大的减少了计算量。因此,如何得到TPV特征是本文的重点。

上图即第一张图的补充版本,主要看后半段,TPVFormer可以分为Cross-Attention和HyBird-Attention,其中Cross-Attention就是在不同尺度上的特征层做self-atten,HyBird-Attention是TPV三个特征之间做self-atten,且全部使用deformable transformer来减少计算量。通过TPVFormer之后,就得到了TPV特征。通过TPV特征,即可获得任意一个Voexl在3D空间中的特征,然后利用分割头即可对其分类,以达到Occupancy的效果。

3.2 结果

4、总结

本文介绍了如何在本地进行TPVFormer的运行,对论文中的原理图片进行了学习,主要是学习到了文章中是如何进行TPV特征提取,以及如何使用TPV特征,文章的代码十分友好,后续会继续对源码进行学习。

本文链接地址:https://www.jiuchutong.com/zhishi/298640.html 转载请保留说明!

上一篇:【工程实践】np.loadtxt()读取数据(工程实践指的是)

下一篇:vue和react的区别(vue和react区别大吗)

  • 微信如何解绑信用卡(微信如何解绑信用银行卡)

    微信如何解绑信用卡(微信如何解绑信用银行卡)

  • excel文本格式怎么设置(Excel文本格式怎么设置4位数)

    excel文本格式怎么设置(Excel文本格式怎么设置4位数)

  • 探探不充会员没法配对吗(探探不买会员)

    探探不充会员没法配对吗(探探不买会员)

  • 拼多多支付方式怎么选择(拼多多支付方式怎么改成支付宝)

    拼多多支付方式怎么选择(拼多多支付方式怎么改成支付宝)

  • 淘宝投诉撤销后还可以再次投诉吗(淘宝投诉撤销后还能再次发起投诉吗)

    淘宝投诉撤销后还可以再次投诉吗(淘宝投诉撤销后还能再次发起投诉吗)

  • wps的主要功能是什么(wps演示功能简介)

    wps的主要功能是什么(wps演示功能简介)

  • 苹果手机序列号fk开头什么意思(苹果手机序列号真伪查询官网)

    苹果手机序列号fk开头什么意思(苹果手机序列号真伪查询官网)

  • 微信账号异常多久恢复(微信账号异常多久能恢复正常)

    微信账号异常多久恢复(微信账号异常多久能恢复正常)

  • 抖音显示的地址是不是到哪就显示哪(抖音显示的地址是定位还是注册地址)

    抖音显示的地址是不是到哪就显示哪(抖音显示的地址是定位还是注册地址)

  • 手机腾讯视频不自动跳下集(手机腾讯视频不能滑动快进)

    手机腾讯视频不自动跳下集(手机腾讯视频不能滑动快进)

  • 脚注和尾注有什么区别(脚注和尾注有什么用)

    脚注和尾注有什么区别(脚注和尾注有什么用)

  • qq被对方拉黑显示什么(qq对方把我拉黑显示什么)

    qq被对方拉黑显示什么(qq对方把我拉黑显示什么)

  • 黑莓q30一代二代区别(黑莓q30一代二代哪个好)

    黑莓q30一代二代区别(黑莓q30一代二代哪个好)

  • 微信收款延迟怎么回事(微信收款延迟怎么解除限制)

    微信收款延迟怎么回事(微信收款延迟怎么解除限制)

  • 怎么打开华为手机的开发者选项(怎么打开华为手机的隐藏应用界面)

    怎么打开华为手机的开发者选项(怎么打开华为手机的隐藏应用界面)

  • vivo手机查买了多久(怎么查vivo手机的购买日期)

    vivo手机查买了多久(怎么查vivo手机的购买日期)

  • 苹果xsmax几k屏幕(苹果xsmax的屏幕多大尺寸)

    苹果xsmax几k屏幕(苹果xsmax的屏幕多大尺寸)

  • 手机竖屏模式是什么意思(手机 竖屏)

    手机竖屏模式是什么意思(手机 竖屏)

  • 华为p20的耳机插孔在哪(华为p20的耳机插在哪里)

    华为p20的耳机插孔在哪(华为p20的耳机插在哪里)

  • 华为nova5耳机设置在哪(华为nova5i手机耳机模式怎么调节)

    华为nova5耳机设置在哪(华为nova5i手机耳机模式怎么调节)

  • 支付宝怎样关闭刷脸(支付宝怎样关闭自动续费)

    支付宝怎样关闭刷脸(支付宝怎样关闭自动续费)

  • 爱奇艺怎么为视频点赞(爱奇艺怎么视频循环播放)

    爱奇艺怎么为视频点赞(爱奇艺怎么视频循环播放)

  • 汽车音响底噪怎么消除(汽车音响底噪怎么处理)

    汽车音响底噪怎么消除(汽车音响底噪怎么处理)

  • 视频怎么拉长腿(抖音拍视频怎么拉长腿)

    视频怎么拉长腿(抖音拍视频怎么拉长腿)

  • oppo reno机身材质(opporenoz机身材质)

    oppo reno机身材质(opporenoz机身材质)

  • OPPO手机怎样设置屏幕亮度(oppo手机怎样设置返回键)

    OPPO手机怎样设置屏幕亮度(oppo手机怎样设置返回键)

  • Linux系统中有效用户组和初始用户组有什么作用于区别?(在linux系统中拥有)

    Linux系统中有效用户组和初始用户组有什么作用于区别?(在linux系统中拥有)

  • Semuc Champey自然公园,危地马拉 (© Joel Sharpe/Getty Images)(自然vc)

    Semuc Champey自然公园,危地马拉 (© Joel Sharpe/Getty Images)(自然vc)

  • 保姆级官方yolov7的训练自己的数据集以及项目部署

    保姆级官方yolov7的训练自己的数据集以及项目部署

  • 个体户定额超了怎么收费
  • 季度申报,其他收益科目是怎样的科目
  • 工程结算属于什么行业
  • 开出收据要做财务报表吗
  • 会计制度方法
  • 怎么确定开票项目是否属于经营范围
  • 公司开办期间的装修费怎么会计处理
  • 什么情况下要交个人所得纳税
  • 银行理财产品的特点
  • 新会计准则下接会计科目
  • 天猫费率是什么
  • 期货交易非法经营
  • 固定资产提折旧 账务处理
  • 职工工资保险费账务处理怎么做?
  • 对方预付给我们项目款怎么做账?
  • 购货方非增值税一般纳税人
  • 企业收入进私户怎么做账
  • 协会核定的税种都有哪些?
  • 小微企业季度超过30万怎么报增值税
  • 建筑服务可以差额征收吗
  • 公益性捐赠公告
  • 暂估入库会影响利润吗
  • 会计分录如何试算出来的
  • 跨年的发票可以补开吗
  • 审计查出假发票怎么补救
  • 新会计准则下职工薪酬的变化及影响摘要
  • 发票金额与实际付款金额不一致
  • 工程预算费用会计怎么做
  • window休眠
  • 退货应该怎么记账
  • 物流公司支付运费怎么做账
  • 业务招待费扣除基数的收入包括哪些
  • imac夜间模式
  • Linux dpkg-query 命令用法详解(Debian Linux中软件包的查询工具)
  • win10的环境配置在哪
  • yii2框架优秀在哪里
  • 可以跨城租车吗
  • 小规模减免的附件有哪些
  • 公司给员工购买商业保险报销哪些
  • php身份证正则表达式
  • 用smart原则改写年底前完善客户资料
  • ChatGPT会让6个低端岗位失业
  • vue项目部署后白屏
  • java开源二次开发平台
  • 小米开发回稳定
  • 劳务派遣公司的注册资本最低限额为
  • 机动车价外费用发票如何开具
  • 企业的所有分类
  • 先开票后发货如何操作
  • 负债总计是负数
  • 帝国cms使用手册
  • 公账转给员工工资情况说明怎么写
  • 工会经费计提按应付职工薪酬借方还是贷方?
  • 法定盈余公积的作用
  • 物业公司收取的电费怎么确认收入
  • 印花税申报怎么填
  • 企业银行存款的利息收入计入财务费用的借方A对B错
  • 必要报酬率怎么求
  • 高新企业收到政府补贴
  • 专利年费计入哪里
  • 经营租赁的房屋计提折旧吗
  • 对于财务的简单理解
  • 应付利润科目
  • 税控盘清卡时间
  • 农产品进项税额会计分录
  • 纳税申报表中的销售额
  • 国际贸易单证有什么制单要求
  • 新买的电脑如何验机
  • ubuntu 20.04拨号上网
  • dos查看进程占用cpu
  • linux中ftp命令的用法
  • 批处理编程教程
  • javascript中的条件控制语句有哪些?
  • 树的python
  • unity ulua
  • linux0.11编译
  • android单选
  • 安卓两个app
  • 增值税发票的发票号码和发票代码
  • 银行手续费所得税是否可以税前扣除
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设