本文收集了CVPR 2020 关于目标检测相关论文和算法,自动驾驶依然热门,所以带动着3D目标检测论文居多,当然2D目标检测依旧热门,神经架构搜索也开始在应用与目标检测,样本少和跨域的研究也是非常值得关注研究。
先看看3D目标检测相关论文
1.基于LiDAR的在线3D视频目标检测
简要:现有的基于LiDAR的3D对象检测器通常专注于单帧检测,而忽略了连续点云帧中的时空信息。在本文中,我们提出了一种在点云序列上运行的端到端在线3D视频对象检测器。所提出的模型包括空间特征编码组件和时空特征聚集组件。在前一个组件中,提出了一种新颖的支柱消息传递网(PMPNet)对每个离散点云帧进行编码。它通过迭代消息传递来自适应地从其相邻节点收集有关某个支柱节点的信息,从而有效地扩大了支柱要素的接收范围。在后一部分中,我们提出了一个时空变压器GRU(AST-GRU)来汇总时空信息,通过专注的内存门控机制增强了传统的ConvGRU。AST-GRU包含一个空间变压器注意(STA)模块和一个时间变压器注意(TTA)模块,它们可以分别强调前景对象并对齐动态对象。实验结果表明,提出的3D视频对象检测器在大规模nuScenes基准上达到了最新的性能。
论文地址:
https://arxiv.org/pdf/2004.01389.pdf
开源地址:
https://github.com/yinjunbo/3DVID
2.从点云进行结构感知的单阶段3D对象检测
该论文提出了一个通用、高性能的自动驾驶检测器,首次实现3D物体检测精度与速度的兼得,有效提升自动驾驶系统安全性能。目前,该检测器在自动驾驶领域权威数据集KITTI BEV排行榜上排名第三。
https://www4.comp.polyu.edu.hk/~cslzhang/paper/SA-SSD.pdf
3.DSGN: Deep Stereo Geometry Network for 3D Object Detection
该论文基于图像的方法与LiDAR的方法之间存在差距,因此大多数最先进的3D对象检测器都严重依赖LiDAR传感器。它是由3D场景中形成表示预测的方式引起的 。我们的称为深度立体几何网络(DSGN)的方法通过在可分辨的体积表示形式3D几何体上检测3D对象来显着的识别此差异,该3D几何体可有效地为3D规则空间编码3D几何结构。通过这种表示,我们可以同时学习深度信息和语义提示。我们首次提供了一种简单有效的基于立体声的单阶段3D检测管道,该管道可以以端到端的学习方式联合深度并检测3D对象。的方法先前以前的基于立体声的3D检测器(在AP方面要高出约10个),甚至可以在KITTI 3D对象检测排行榜上与多种基于LiDAR的方法获得可比的性能。
论坛地址:
https://arxiv.org/pdf/2001.03398.pdf
源码地址:
https://github.com/Jia-Research-Lab/DSGN
4.学习用于单眼3D对象检测的深度引导卷积
由于缺乏准确的深度信息,从没有LiDAR的单个图像进行3D对象检测是一项艰巨的任务。常规2D卷积不适合此任务,因为它们无法捕获本地对象及其比例信息,这对于3D对象检测至关重要。为了更好地表示3D结构,现有技术通常将根据2D图像估计的深度图转换为伪LiDAR表示,然后应用现有的基于3D点云的对象检测器。但是,它们的结果在很大程度上取决于估计的深度图的准确性,从而导致性能欠佳。在这项工作中,我们不使用伪LiDAR表示,而是通过提出一个新的局部卷积网络(LCN),称为深度引导动态深度扩展LCN(D ^ 4),改进了基本的2D全卷积。4LCN),可以从基于图像的深度图自动获知滤镜及其接收场,从而使不同图像的不同像素具有不同的滤镜。D 4 LCN克服了传统2D卷积的局限性,缩小了图像表示和3D点云表示之间的差距。大量实验表明,D 4 LCN在很大程度上优于现有作品。例如,在中等设置下,D 4 LCN相对于KITTI的最新水平的相对改进为9.1%
https://arxiv.org/pdf/1912.04799.pdf
https://github.com/dingmyu/D4LCN
5.What You See is What You Get: Exploiting Visibility for 3D Object Detection
3D感测的最新进展为计算机视觉带来了独特的挑战。一个基本挑战是找到3D传感器数据的良好表示形式。在处理真正的3D数据(例如,从网格模型采样的点)的背景下提出了最流行的表示形式(例如PointNet),而忽略了诸如LiDAR扫掠等3D传感数据实际上为2.5D的事实。我们认为将2.5D数据表示为(x,y,z)点的集合会从根本上破坏有关自由空间的隐藏信息。在本文中,我们证明了此类知识可以通过3D射线广播有效地恢复,并且可以轻松地并入基于批次的梯度学习中。我们描述了一种通过可见性增强基于体素的网络的简单方法:我们添加了体素化的可见性图作为附加的输入流。此外,我们展示了可视性可以与最新3D检测器的两个关键修改相结合:虚拟对象的合成数据增强和多个时间范围内LiDAR扫描的时间聚合。在NuScenes 3D检测基准上,我们表明,通过为可见性输入添加附加流,我们可以显著提高最新3D检测器的总体检测精度。
https://arxiv.org/pdf/1912.04986.pdf
作者主页:
https://www.cs.cmu.edu/~peiyunh/wysiwyg/
https://github.com/peiyunh/wysiwyg
6.Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud Object Detection
尽管最近的研究推动了深度学习技术的发展,但从3D点云进行对象检测仍然是一项艰巨的任务。由于严重的空间遮挡和点密度与传感器之间距离的固有差异,因此在点云数据中同一对象的外观变化很大。因此,针对这种外观变化设计鲁棒的特征表示是3D对象检测方法中的关键问题。在本文中,我们创新地提出了一种域自适应之类的方法来增强特征表示的鲁棒性。更具体地说,我们弥合了特征来自真实场景的感知域和概念域之间的差距,概念域中的特征域是从包含丰富详细信息的非遮挡点云的增强场景中提取特征的。在进行对象感知时,这种域适应方法可模仿人脑的功能。大量实验表明,我们简单而有效的方法从根本上提高了3D点云对象检测的性能,并获得了最先进的结果。
https://arxiv.org/pdf/2006.04356.pdf
https://github.com/dleam/Associate-3Ddet
7.SESS: Self-Ensembling Semi-Supervised 3D Object Detection
现有基于点云的3D对象检测方法的性能在很大程度上依赖于大规模高质量3D注释。但是,这样的注释通常很乏味并且收集起来很昂贵。半监督学习是减轻数据注释问题的一种不错的选择,但在3D对象检测中仍未得到充分研究。受到最近在半监督图像分类任务中成功实现自组装技术的启发,我们提出了自组装半监督3D对象检测框架SESS。具体而言,我们设计了一种彻底的扰动方案,以增强网络在未标记和新的看不见的数据上的泛化能力。此外,我们提出了三个一致性损失,以增强两组预测的3D对象建议之间的一致性,从而有助于学习对象的结构和语义不变性。在SUN RGB-D和ScanNet数据集上进行的广泛实验证明了SESS在感应式和感应式半监督3D对象检测中的有效性。与最新的完全监督方法相比,我们的SESS仅使用50%的标记数据即可实现竞争优势。
https://arxiv.org/pdf/1912.11803v1.pdf
https://github.com/Na-Z/sess
8.Density-Based Clustering for 3D Object Detection in Point Clouds
Syeda Mariam Ahmed, Chee Meng Chew
http://openaccess.thecvf.com/content_CVPR_2020/papers/Ahmed_Density-Based_Clustering_for_3D_Object_Detection_in_Point_Clouds_CVPR_2020_paper.pdf
9.Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation
在本文中,我们提出了一种名为Disp R-CNN的新颖系统,用于从立体图像中检测3D对象。许多最近的工作通过首先使用视差估计恢复点云,然后应用3D检测器来解决此问题。对于整个图像计算视差图,这是昂贵的并且不能利用特定于类别的先验。相反,我们设计了一个实例视差估计网络(iDispNet),该网络仅预测感兴趣对像上像素的视差,并在获得特定类别的形状之前先进行更精确的视差估计。为了解决培训中视差标注的稀缺性带来的挑战,我们建议使用统计形状模型来生成密集的视差伪地面真相,而无需使用LiDAR点云,这使得我们的系统更广泛地适用。
https://arxiv.org/pdf/2004.03572.pdf
https://github.com/zju3dv/disprcnn
10.LCVNet: Multi-Level Context VoteNet for 3D Object Detection
在本文中,我们通过利用自注意力机制和多尺度特征融合捕获多级上下文信息来解决3D对象检测任务。大多数现有的3D对象检测方法可以单独识别对象,而无需考虑这些对象之间的上下文信息。相比较而言,我们提出了多级上下文投票网(MLCVNet),以基于最新的投票网来关联地识别3D对象。我们在VoteNet的投票和分类阶段引入了三个上下文模块,以在不同级别上对上下文信息进行编码。具体地,在投票给它们对应的对象质心点之前,采用补丁到补丁上下文(PPC)模块来捕获点补丁之间的上下文信息。随后,在提议和分类阶段之前合并了一个对像到对像上下文(OOC)模块,以捕获对象候选对象之间的上下文信息。最后,设计了一个全局场景上下文(GSC)模块来学习全局场景上下文。我们通过在补丁,对象和场景级别捕获上下文信息来演示这些内容。我们的方法是提高检测精度,在具有挑战性的3D对象检测数据集(例如SUN RGBD和ScanNet)上实现最新的最新检测性能的有效方法。我们还在以下位置发布了代码 对象和场景级别。我们的方法是提高检测精度,在具有挑战性的3D对象检测数据集(例如SUN RGBD和ScanNet)上实现最新的最新检测性能的有效方法。我们还在以下位置发布了代码 对象和场景级别。我们的方法是提高检测精度,在具有挑战性的3D对象检测数据集(例如SUN RGBD和ScanNet)上实现最新的最新检测性能的有效方法。
https://arxiv.org/pdf/2004.05679.pdf
https://github.com/NUAAXQ/MLCVNet
10.ImVoteNet: Boosting 3D Object Detection in Point Clouds With Image Votes
得益于点云上深度学习的进步,3D对象检测取得了快速进展。仅有点云输入(例如VoteNet),一些最新作品甚至显示了最新的性能。但是,点云数据具有固有的局限性。它们稀疏,缺乏颜色信息,并且经常遭受传感器噪声的影响。另一方面,图像具有高分辨率和丰富的纹理。因此,它们可以补充点云提供的3D几何形状。然而,如何有效地使用图像信息来辅助基于点云的检测仍然是一个悬而未决的问题。在这项工作中,我们以VoteNet为基础,并提出了一种称为ImVoteNet的3D检测架构,专门用于RGB-D场景。ImVoteNet基于融合图像中的2D投票和点云中的3D投票。与先前有关多模式检测的工作相比,我们从2D图像中明确提取了几何特征和语义特征。我们利用相机参数将这些功能提升为3D。为了提高2D-3D特征融合的协同作用,我们还提出了一种多塔训练方案。我们在具有挑战性的SUN RGB-D数据集上验证了我们的模型,将最新结果提高了5.7 mAP。
https://arxiv.org/pdf/2001.10692v1.pdf
11.PointPainting: Sequential Fusion for 3D Object Detection
摄像头和激光雷达是普通机器人(尤其是自动驾驶汽车)中机器人技术的重要传感器形式。传感器提供补充信息,为紧密融合传感器提供了机会。令人惊讶的是,仅使用激光雷达的方法在主要基准数据集上的性能优于融合方法,这表明文献中存在空白。在这项工作中,我们提出了PointPainting:一种填补这一空白的顺序融合方法。PointPainting通过将激光雷达点投影到仅图像语义分割网络的输出中并将类分数附加到每个点来工作。然后可以将附加的(绘制的)点云馈送到任何仅激光雷达的方法。实验表明,在KITTI和nuScenes数据集上,对三种不同的最新方法(Point-RCNN,VoxelNet和PointPillars)进行了重大改进。PointRCNN的绘制版本代表了KITTI排行榜上用于鸟瞰检测任务的最新技术水平。在消融中,我们研究绘画的效果如何取决于语义分段输出的质量和格式,并演示如何通过流水线将等待时间最小化。
https://arxiv.org/pdf/1911.10150.pdf
12.End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection
准确的3D对象检测是安全自动驾驶的必要条件。尽管LiDAR传感器可以提供对环境的准确3D点云估计,但对于许多设置而言,它们的价格也过高。最近,伪LiDAR(PL)的引入已大大缩小了基于LiDAR传感器的方法与基于廉价立体相机的方法之间的精度差距。通过将2D深度图输出转换为3D点云输入,PL将用于3D深度估计的最新深度神经网络与用于3D对象检测的深度神经网络相结合。但是,到目前为止,这两个网络必须分别进行培训。在本文中,我们介绍了一个基于差异表示表示(CoR)模块的新框架,该框架允许对整个PL管道进行端到端培训。最终的框架与大多数先进的网络兼容,可同时完成所有任务,并与PointRCNN相结合,在所有基准测试中均对PL进行了持续改进,从而在KITTI基于图像的3D对象检测排行榜上获得了最高的入场券。
https://arxiv.org/pdf/2004.03080.pdf
https://github.com/mileyan/pseudo-LiDAR_e2e
13.A Hierarchical Graph Network for 3D Object Detection on Point Clouds
14.HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection
15.Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud
https://github.com/WeijingShi/Point-GNN
16.Joint 3D Instance Segmentation and Object Detection for Autonomous Driving
17.PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
我们提出了一种新颖的高性能3D对象检测框架,称为PointVoxel-RCNN(PV-RCNN),用于从点云中进行精确的3D对象检测。我们提出的方法将3D体素卷积神经网络( CNN)和基于PointNet的集合抽象进行了深度集成,以学习更多判别性点云功能。它利用了3D体素CNN的高效学习和替代建议以及基于PointNet的网络的灵活接收范围的优势。具体而言,提出的框架通过新颖的体素集抽像模块将具有3D体素CNN的3D场景汇总为一小组关键点,以节省后续计算并编码轮廓场景特征。3D建议,提出了RoI-grid池,逐步通过具有多个接受域的关键点集抽象,从关键点到RoI-grid点抽象特定特定的功能。与传统的池化操作比例,RoI网格在KITTI数据集和Waymo Open数据集上进行的大量实验表明,我们提出的PV-RCNN仅使用点云就以明显的余量超越了最新的3D检测方法。
https://arxiv.org/pdf/1912.13192.pdf
https://github.com/sshaoshuai/PV-RCNN
18.IDA-3D: Instance-Depth-Aware 3D Object Detection From Stereo Vision for Autonomous Driving
https://github.com/swords123/IDA-3D
19.MonoPair: Monocular 3D Object Detection Using Pairwise Spatial Relationships
单眼3D对象检测是自动驾驶中必不可少的组成部分,同时又难以解决,特别是对于那些仅部分可见的被遮挡的样本。大多数检测器将每个3D对象视为一个独立的训练目标,这不可避免地导致缺乏对被遮挡样本的有用信息。为此,我们提出了一种通过考虑配对样本之间的关系来改进单眼3D对象检测的新颖方法。这使我们可以对来自相邻邻居的部分遮挡对象的空间约束进行编码。具体而言,提出的检测器计算出对象位置和相邻对像对的3D距离的感知不确定性的预测,随后通过非线性最小二乘法对其进行优化。最后,一级不确定性感知预测结构和后优化模块专门集成在一起,以确保运行时效率。实验表明,我们的方法在KITTI 3D检测基准上表现出最佳的性能,在性能上远远超过了最先进的竞争对手,尤其是对于硬样品。
https://arxiv.org/pdf/2003.00504.pdf
20.Physically Realizable Adversarial Examples for LiDAR Object Detection
现代自动驾驶系统严重依赖于深度学习模型来处理点云感官数据。同时,已经证明,深层模型容易受到视觉上无法察觉的扰动的对抗攻击。尽管这对自动驾驶行业构成安全隐患,但由于大多数对抗性攻击仅应用于2D平面图像,因此在3D感知方面的探索很少。在本文中,我们解决了这个问题,并提出了一种生成通用3D对抗对象的方法来欺骗LiDAR检测器。特别是,我们证明了在任何目标车辆的屋顶上放置一个敌对物体,以使车辆完全对LiDAR探测器隐藏,其成功率为80%。我们使用点云的各种输入表示形式,在一组检测器上报告攻击结果。我们还使用数据增强技术进行对抗性防御的初步研究。通过有限的培训数据,这是朝着在看不见的条件下更安全的自动驾驶迈出的一步。
https://arxiv.org/pdf/2004.00543.pdf
本文来自颜南子八字算命网,如需转载,请注明出处:https://www.ynkj11.cn/zysm/4948.html