位置: IT常识 - 正文

【BEV】TPVFormer复现以及原理

编辑:rootadmin
【BEV】TPVFormer复现以及原理 1. 前言

推荐整理分享【BEV】TPVFormer复现以及原理,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

在环视图像的网络中,常使用鸟瞰图来进行特征提取,尽管比体素表示更加高效,但也会损失部分信息,为了解决这个问题,TPVFormer论文中提出了三个视图来表示三维特征的方法,并且在实验中验证了仅使用图像作为输入,能够与雷达获得相当的分割效果。

本文主要介绍如何在本地运行mini数据集,以及生成对应的视频,后续会对源码进行深入学习。

mini数据集: https://pan.baidu.com/s/1oKvicVacbPFZNtXO7l9t7A?pwd=p4h4 提取码: p4h4

结果可视化:https://www.bilibili.com/video/BV1oX4y1o7FQ/?spm_id_from=333.999.0.0 BEV交流群,v群:Rex1586662742、q群:468713665。

2. 运行

在TPVFormer的仓库中,作者只针对完整的nuscenes数据集制作了 nuscenes_infos_train.pkl、nuscenes_infos_val.pkl,对于学习者来说,通常无法在完整nuscences数据集上进行测试,在后来的咨询下,原作者也是给出了mini数据集的pkl文件,通过下文的链接即可获得。以及liar文件

2.1 运行eval.py

在整理好数据集后,运行下面的指令就可以进行验证了

python eval.py --py-config xxxx --ckpt-path xxxx

直接运行应该会报错,如果报错为 self.table_names 里面没有 “lidarseg”,则需要修改如下内容 将/home/snk/anaconda3/envs/tpv/lib/python3.8/site-packages/nuscenes_devkit-1.1.10-py3.8.egg/nuscenes/nuscenes.py文件中的 self.table_names中添加一个变量 ‘lidarseg’

self.table_names = ['category', 'attribute', 'visibility', 'instance', 'sensor', 'calibrated_sensor', 'ego_pose', 'log', 'scene', 'sample', 'sample_data', 'sample_annotation', 'map','lidarseg']【BEV】TPVFormer复现以及原理

同时在附近添加一行代码

self.lidarseg = self.__load_table__('lidarseg')

再次运行

python eval.py --py-config xxxx --ckpt-path xxxx2.2 vis_scence.py

按照项目中的指示来安装环境可能会有问题,可以按照下面的方式来安装

pip install vtk==9.0.1pip install mayavi==4.7.3sudo apt updatesudo apt install xvfb

安装完毕即可运行生成视频,个人生成的视频见下方的链接。

python visualization/vis_scence ...python visualization/generate_videos.py

如果报错说pyqt5有问题,就卸载pyqt5

3 论文简介3.1 原理学习

一般只用俯视图来计算三维特征,而在本文中主要提出了一种表征三维特征的方法,即提出了tri-perspective view representation(TPV),通过三个方向的特征,很容易完成纯视觉的3d分割、3d语义分割等,作者将TPVFormer对标特斯拉的occupancy network。TPVFormer的主要流程如下图所示:

输入为6张环视图片,通过Image Backbone,可以得到不同尺度的特征层,多尺度特征层目前应用十分广泛。再通过TPVFormer模块可以获得TPV特征,最终将三个方向特聚合在[100,100,8]的体素中,每个体素特征是由三个方向的特征相加得到。在训练时,使用真实Lidar来监督,在预测时,可以输出稠密的体素特征。

img_feats = self.extract_img_feat(img=img, use_grid_mask=use_grid_mask) // 提取多尺度特征outs = self.tpv_head(img_feats, img_metas) # [1, 10000, 256]、 [1, 800, 256]、[1, 800, 256] 三个方向的BEV特征outs = self.tpv_aggregator(outs, points) # 分割结果

为何要提出三个方向的特征图,论文通过下图来进行说明: 如果直接用Voxel来表示三维特征,那么会极大的增加计算量,而直接用BEV特征会损失高度上的信息,而TPV在前面两者之间进行了折中处理,在保留不同视图特征的同时,极大的减少了计算量。因此,如何得到TPV特征是本文的重点。

上图即第一张图的补充版本,主要看后半段,TPVFormer可以分为Cross-Attention和HyBird-Attention,其中Cross-Attention就是在不同尺度上的特征层做self-atten,HyBird-Attention是TPV三个特征之间做self-atten,且全部使用deformable transformer来减少计算量。通过TPVFormer之后,就得到了TPV特征。通过TPV特征,即可获得任意一个Voexl在3D空间中的特征,然后利用分割头即可对其分类,以达到Occupancy的效果。

3.2 结果

4、总结

本文介绍了如何在本地进行TPVFormer的运行,对论文中的原理图片进行了学习,主要是学习到了文章中是如何进行TPV特征提取,以及如何使用TPV特征,文章的代码十分友好,后续会继续对源码进行学习。

本文链接地址:https://www.jiuchutong.com/zhishi/298640.html 转载请保留说明!

上一篇:【工程实践】np.loadtxt()读取数据(工程实践指的是)

下一篇:vue和react的区别(vue和react区别大吗)

  • 为什么苹果手机闹钟声音越来越小(为什么苹果手机无线局域网打不开)

    为什么苹果手机闹钟声音越来越小(为什么苹果手机无线局域网打不开)

  • 笔记本电脑最大内存是多少g(笔记本电脑最大支持容量是什么意思)

    笔记本电脑最大内存是多少g(笔记本电脑最大支持容量是什么意思)

  • 4g手机一直显示3g网络(4g手机一直显示3g信号)

    4g手机一直显示3g网络(4g手机一直显示3g信号)

  • 苹果2b/a是哪个国家(苹果型号2b/a什么意思)

    苹果2b/a是哪个国家(苹果型号2b/a什么意思)

  • 华为手机如何无线充电(华为手机如何无线连接电脑)

    华为手机如何无线充电(华为手机如何无线连接电脑)

  • 哔哩哔哩33卡怎么退订(哔哩哔哩33卡怎么取消套餐)

    哔哩哔哩33卡怎么退订(哔哩哔哩33卡怎么取消套餐)

  • 路由器重置之后的密码是什么(路由器重置之后连不上网)

    路由器重置之后的密码是什么(路由器重置之后连不上网)

  • 为什么有的公众号不能置顶(为什么有的公众号在订阅里面有的不是)

    为什么有的公众号不能置顶(为什么有的公众号在订阅里面有的不是)

  • 苹果手机128g为什么显示内存不足(苹果手机128g为什么显示5个G)

    苹果手机128g为什么显示内存不足(苹果手机128g为什么显示5个G)

  • 微信发30秒视频怎么发朋友圈(微信发30秒视频不用微视)

    微信发30秒视频怎么发朋友圈(微信发30秒视频不用微视)

  • 进程状态有哪些(进程状态有哪些,如何转化)

    进程状态有哪些(进程状态有哪些,如何转化)

  • dbms的主要功能(简述dbms的主要功能)

    dbms的主要功能(简述dbms的主要功能)

  • ipad air3可以插u盘吗(ipad air3可以插卡吗)

    ipad air3可以插u盘吗(ipad air3可以插卡吗)

  • word如何加入分页符(word如何加入分数线)

    word如何加入分页符(word如何加入分数线)

  • 华为商城可以微信支付吗(华为商城微信退款一般要多久)

    华为商城可以微信支付吗(华为商城微信退款一般要多久)

  • 苹果耳机a1602的用法(苹果耳机a1602的尺寸)

    苹果耳机a1602的用法(苹果耳机a1602的尺寸)

  • 苹果x怎么开启反向充电(苹果x怎么开启静音模式)

    苹果x怎么开启反向充电(苹果x怎么开启静音模式)

  • 通过扫一扫添加的好友是咋回事(通过扫一扫添加的好友,对方没通过)

    通过扫一扫添加的好友是咋回事(通过扫一扫添加的好友,对方没通过)

  • 怎么解除呼叫转移功能(怎么解除呼叫转移功能华为)

    怎么解除呼叫转移功能(怎么解除呼叫转移功能华为)

  • 华为plc一tl00是什么型号(华为plc一tl00多少钱)

    华为plc一tl00是什么型号(华为plc一tl00多少钱)

  • 服务器端口怎么开(服务器端口怎么连接)

    服务器端口怎么开(服务器端口怎么连接)

  • hires与hifi区别(hiresaudio和hifi有什么区别)

    hires与hifi区别(hiresaudio和hifi有什么区别)

  • 拼多多果园怎么没了(拼多多果园怎么换果树)

    拼多多果园怎么没了(拼多多果园怎么换果树)

  • ipad通过wifi连接电视(ipad连iphonewifi)

    ipad通过wifi连接电视(ipad连iphonewifi)

  • windows10如何分屏(windows10如何分屏两个账户)

    windows10如何分屏(windows10如何分屏两个账户)

  • 如何在苹果账户设置页取消订阅服务(如何在苹果账户上充值)

    如何在苹果账户设置页取消订阅服务(如何在苹果账户上充值)

  • java使用同步的注意点(java中同步有两种方法)

    java使用同步的注意点(java中同步有两种方法)

  • 社保稳岗返还计算公式
  • 美元利息结汇时结汇项目是什么
  • 费用发票能不能直接挂应付账款里
  • 预收货款存入银行分录
  • 产品管理不足
  • 非经营性费用包括哪些内容
  • 各省市地税发票怎么开
  • 我是小规模企业客户要求开专票不开投诉
  • 利税总额为负数如何表述出来
  • 私募投资基金投资者风险问卷调查
  • 分期付款购买商品
  • 违约金扣除吗
  • 设备升级改造如何开发票
  • 商标续展费用入什么科目
  • win10桌面网络图标怎么调出来
  • 手把手教你linux
  • 公司收到供应商的律师函
  • 成本核算的基本程序是什么
  • macOS Big Sur 11.1 RC预览版(20C69)正式更新
  • win10开机启动文件夹目录说明
  • el-input value
  • 非货币性资产交换
  • 结算应付职工薪酬怎么算
  • php连接mysql数据库的几种方式及区别
  • PHP:imageantialias()的用法_GD库图像处理函数
  • 超出经营范围开票怎么处理
  • php获取访问用户的ip
  • php将数据导出到excel
  • vue el-
  • php 电子签名
  • 哪些费用计入管理费用中
  • 报废产品需要入库吗
  • 分公司在外地,企业怎么交税
  • 开办费的主要账户是什么
  • 事业单位无形资产包括哪些
  • 为什么很多公司选择股票上市
  • 残保金是什么单位收的
  • 增值税专用发票查询系统官方网站
  • mac下安装mysql
  • 运费与快递费的区别在哪
  • mysql主从复制实现原理
  • 房屋出租收入计入
  • 外币折算会计思维导图
  • 个贷系统平账专户怎么做账
  • 购入固定资产会计处理
  • 厂商租赁公司
  • 销售加工费怎么记账
  • 工程结束发票未开全怎么办
  • 项目资本金如何确定
  • 如何计提当期费用成本
  • 房地产开发企业销售自行开发的房地产项目
  • 总账选项设置步骤
  • 大数据量高并发症有哪些
  • linux系统中cron命令
  • windows哪个最好用
  • win10预览版21337
  • win10 edge浏览器设置信任站点
  • windows8桌面设置
  • muamgr.exe - muamgr是什么进程 有何作用
  • 网卡被禁用一启动就死机
  • win7系统谷歌浏览器打不开网页
  • windows8如何降到windows7
  • linux block io
  • cocos2d游戏源码
  • Nodejs sublime text 3安装与配置
  • shell常用命令及功能
  • 跨浏览器跨终端的前端开发
  • css美化表单 案例
  • 不需要背景
  • python生成随机
  • javascript闭包详解
  • Node.js中的事件循环是什么意思
  • linux磁盘空间满了怎么办,硬盘空间还有很多
  • 请问在javascript程序中
  • javascript取随机数
  • javascript七种数据类型
  • 安徽省马鞍山地区代码
  • 广西电子税务局怎么报税
  • 简述会计估计及其特点
  • 福建莆田社保局在哪里
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设