本文提出了一个用于 3D 点云分析的非参数网络 Point-NN,它仅由纯不可学习的组件组成:最远点采样(FPS)、k 近邻(k-NN)、三角函数(Trigonometric Functions)以及池化(Pooling)操作。不需要参数和训练,它能够在各种 3D 任务上都取得不错的准确率,甚至在 few-shot 分类上可以大幅度超越现有的完全训练的模型。 基于 Point-NN 的非参数框架,这项研究对于当前 3D 领域的贡献如下: 1、首先,我们可以通过插入简单的线性层,来构建 Point-NN 的参数化网络,Point-PN。由于 Point-NN 具有强大的非参数基础,所构建出的 Point-PN 仅需要少量可学习参数就可以表现出优秀的 3D 分类和分割性能。 2、其次,由于 Point-NN 不需要训练的属性,我们可以将其作为一个即插即用的增强模块,去增强现有已经训练好的 3D 模型。通过提供互补知识,Point-NN 可以在各种 3D 任务上提升原本的 SOTA 性能。 一、引言 1. 动机 3D 点云的处理和分析是一项具有挑战性的任务,并且在学术界和工业界都取得了广泛的关注。自从 PointNet++ 起,后续的 3D 模型为了提升性能,一方面设计了更加复杂的局部空间算子,一方面增大了网络的可学习参数量。然而,除了不断更新的可学习模块,他们基本都沿用了同一套潜在的多尺度网络框架,包括最远点采样(FPS)、k 近邻(k-NN)和池化(Pooling)操作。目前,还几乎没有研究去探索这些非参数组件的潜力;因此,本文提出并探索了以下问题:这些非参数组件对于 3D 理解的贡献有多大?仅仅使用非参数组件,能否实现无需训练的 3D 点云分析? 2. 贡献
为了解决以上问题,本文首次提出了一个非参数化(Non-Parametric)的 3D 网络,Point-NN,整体结构如上图所示。Point-NN 由一个用于 3D 特征提取的非参数编码器(Non-Parametric Encoder)和一个用于特定任务识别的点云记忆库(Point-Memory Bank)组成。非参数编码器采用了多阶段的结构设计,使用了最远点采样(FPS)、k 近邻(k-NN)、三角函数(Trigonometric Functions)和池化(Pooling)来逐步聚合局部几何图形,为点云生成一个高维度的全局特征。我们仅仅采用了简单的三角函数来捕捉局部空间几何信息,没有使用任何可学习算子。接下来,我们使用此编码器,去提取到所有训练集点云的特征,并缓存为点云记忆库。进行测试时,点云记忆库通过对测试点云和训练集点云的特征,进行相似度匹配,来输出特定任务的预测。 不需要任何训练,Point-NN 可以在多种 3D 任务中实现优越的性能,例如 3D 分类、分割、检测,甚至可以超过一些现有的经过完全训练的模型。基于此,我们进一步提出了两点 Point-NN 对于现今 3D 领域的贡献,如下图(a)和(b)所示:
a. 记忆构建 (Memory Construction) Point memory 包括一个 feature memory和一个 label memory。以点云分类任务为例,假设给定的训练集包含 K 个类别的 N 个点云。通过 Non-Parametric Encoder 可以得到 N 个训练集点云的全局特征,同时将对应的分类标签转换为 one-hot 编码,接着将它们沿着样本维度进行拼接,缓存为两个矩阵。
b. 基于相似度的预测 (Similarity-based Prediction) 在推理阶段,我们利用构造好的 bank 进行两个矩阵乘法来完成分类。首先,我们通过 Non-Parametric Encoder 来计算测试点云的全局特征,并计算与 feature memory 之间的余弦相似度。
现有的 3D 模型中,有一类基于 CLIP 预训练模型的迁移学习方法,例如 PointCLIP 系列,它们也不需要进行 3D 领域中的训练过程。从上表的比较可以看出,Point-NN 可以实现很优越的无需训练的分类性能。 4.Point–NN 与 PnP–3D 的增强效果比较
PnP-3D 提出了一种对于 3D 模型的即插即用的可学习增强模块,但是它会引入额外的可学习参数,并且需要重新训练而消耗更多的计算资源。如上表所示,相比之下,Point-NN 也能实现相似的增强性能,但是完全不需要额外参数或者训练。 五、总结与展望本文首次在 3D 领域中,提出了一个无参数无需训练的网络,Point-NN,并且在各个 3D 任务上都取得了良好的性能。我们希望这篇工作可以启发更多的研究,来关注非参数化相关的 3D 研究,而不是一味的增加复杂的 3D 算子或者堆叠大量的网络参数。在未来的工作中,我们将探索更加先进的非参数 3D 模型,并推广到更广泛的 3D 应用场景中。