基于多尺度特征融合和对比池化的点云补全网络

2024-03-05 02:54马精彬朱丹辰张亚王晓明

计算机应用研究 2024年2期

马精彬朱丹辰张亚王晓明

收稿日期：2023-06-20；修回日期：2023-08-09 基金项目：四川省自然科学基金资助项目（2022NSFSC0533）

作者简介：马精彬（1993—），男，四川营山人，硕士研究生，主要研究方向为计算机视觉、点云补全；朱丹辰（1999—），女，四川自贡人，硕士研究生，主要研究方向为计算机视觉；张亚（1998—），男，山东枣庄人，主要研究方向为图像处理、机器学习；王晓明（1977—），男（通信作者），四川简阳人，副教授，硕导，博士，主要研究方向为模式识别、机器学习、图像处理、计算机视觉（wangxmwm@163.com）．

摘要：点云补全在点云处理任务中具有重要作用，它可以提高数据质量、辅助生成精确三维模型，为多种应用提供可靠的数据支撑。然而，现有基于深度网络的点云补全算法采用的单层次全局特征提取方法较为简单，没有充分挖掘潜在语义信息，并在编码过程中丢失部分细节信息。为解决这些问题，提出了一种多尺度特征逐级融合的点云补全网络，并结合注意力机制提出了一种全新的池化方法。实验结果表明，在PCN、ShapeNet34和ShapeNet55三个数据集上取得了SOTA水平，证明该网络具有更好的特征表示能力和补全效果。

关键词：点云补全；多尺度；池化；特征融合

中图分类号：TP183 文献标志码：A

文章编号：1001-3695（2024）02-048-0635-06

doi：10.19734/j.issn.1001-3695.2023.06.0254

Multi-scale feature fusion and contrastive pooling forpoint cloud completion network

Ma Jingbin， Zhu Danchen， Zhang Ya， Wang Xiaoming

（School of Computer & Software Engineering， Xihua University， Chengdu 610039， China）

Abstract：Point cloud completion plays a crucial role in point cloud processing tasks， as it enhances data quality， assists in generating accurate 3D models， and provides reliable data support for various applications. However， existing point cloud completion algorithms based on deep neural network use a simple single-level global feature extraction method， which do not fully exploit latent semantic information and lead to loss some detailed information during the encoding process. To address these issues， this paper proposed a novel point cloud completion network that employed a multi-scale feature fusion approach and introduced a new pooling method by combining an attention mechanism. Experimental results demonstrate that the proposed network achieves the state-of-the-art（SOTA） performance on three datasets，namely PCN，ShapeNet34，and ShapeNet55，indicating its superior feature representation capability and completion effectiveness.

Key words：point cloud completion; multi-scale; pooling; feature fusion

0 引言

近年來，点云在三维计算机视觉和图形学领域中备受关注。它结构清晰，读写方便，能精确表示物体形态，方便对物体进行测量和分析。然而，受传感器限制、遮挡、表面反射等因素影响，现实世界中采集到的点云数据往往稀疏且不完整。残缺点云数据在点云分类［1］、点云分割［2］、点云配准［3］等下游任务中受到极大限制。点云补全正是根据已有局部信息和先验知识，通过推断和预测来填补缺失点云区域，生成高质量的三维模型。通过点云补全可以重建缺失细节信息，还原物体完整形态，从而提高数据的可用性和准确性。点云补全可以对自动驾驶、机器人导航、增强现实等领域提供可靠数据支撑。

近几年，研究人员提出了大量点云补全方法。这些方法基于深度学习、图像处理、几何推断等技术，通过建模点云数据局部结构和全局一致性，实现了令人瞩目的补全效果。然而，点云补全仍然存在许多挑战。例如，如何处理大规模点云数据补全问题、如何处理复杂场景中遮挡和噪声、如何提高补全结果的几何精度和视觉一致性等。因此，点云补全的研究仍然具有重要的理论和实践意义。

点云补全的传统方法［4～6］依赖于物体基础结构的先验信息，例如对称性信息和语义类别信息。这类方法只能处理一些结构特征明显且缺失率低的点云，对于缺失面积大、结构特征模糊的点云数据，很难获取准确补全结果。传统方法通常需要手动设置参数或规则，缺乏自适应性，泛化能力差。另外，部份传统方法对噪声较为敏感，可能会导致补全结果错误。

随着计算机视觉领域迅猛发展，研究人员将点云体素化或网格化。点云体素化后，会得到一组规则三维体素，并将每个体素看作一个特征向量。这些特征向量很容易输入到卷积神经网络中进行训练和预测。但是，由于采用规则划分，这类方法［7～9］对于不规则形状点云数据处理效果不佳。体素化点云数据还会损失大量空间信息，特别是在空间分辨率较高的情况下，会导致计算成本激增。点云网格化则是将点云数据投影到规则网格上，利用成熟的卷积神经网络对网格数据进行处理。基于网格的方法能够在空间分辨率更高的情况下处理不规则点云数据。然而，由于网格需要消耗大量存储空间，处理较大规模点云数据时会占用较大内存空间，计算成本较高。

2017年，Qi等人［10］开创性地提出了直接处理不规则点云数据的网络架构PointNet。它不需要格式化处理点云数据，通过对称函数和空间变换网络分别解决了点云无序性和旋转性问题。PointNet++［11］通过分层的特征提取逐步扩大感受野，利用多层次提取结构获取不同层次特征以关注点云数据局部特征。2018年，Yuan等人［12］将FoldingNet［13］和PointNet巧妙结合，提出了PCN。它将点云几何信息总结为特征向量，通过解码器由粗到细预测出完整点云。2019年，Tchapmi等人［14］提出了一种基于树状结构的补全网络TopNet，它能够在不需要预定义基础点集的情况下进行点云补全。2020年，Xie等人［15］提出了一种基于网格结构的网络GRNet，该网络用于点云密集化自动补全。它将无序且不规则的点云数据转换为规则的体素网格，利用成熟的三维卷积层处理网格数据并提取特征，特征向量输入到去网格化层生成预测点云。2021年，Yu等人［16］提出PoinTr，它将点云数据转换为一组无序点代理，将点云补全任务转换为了set to set的翻译任务，利用Transformer中encoder-decoder结构生成缺失点云，进一步改进点云补全方法。

综上所述，大量点云补全方法通常仅从输入点云中提取单一特征，并在编码阶段使用最大池化进行下采样。然而，这种单层次的全局特征相对较简单，未能充分挖掘点云内在的多层次结构和语义信息，导致补全结果的准确性和细节保留能力受限。常见的最大池化方法会影响补全网络对完整形状的恢复，尤其是在高分辨率和复杂点云结构的情况下，补全结果会丢失大量细节。针对以上问题，本文基于注意力机制提出了一个多尺度特征逐级融合的点云补全网络（multi-feature contrastive pooling completion network，MFCP-Net）。该网络逐级融合不同尺度特征，并利用不同池化结果之间的差异信息去提升网络性能。本文的主要贡献如下：

a）提出了多尺度特征逐级融合模块，用于融合不同尺度的点云特征，以解决提取特征尺度单一问题。通过逐级融合，点云补全可以更准确地理解点云的局部细节和全局形状，从而提高补全结果的准确性和细节保留能力。

b）提出了一种全新的对比池化方法，它通过在不同池化结果之间计算差异来获取互补信息。这样的池化方法可以弥补特征下采样导致的细节丢失，从而提高补全网络对于点云细节的恢复能力。

1 基于多尺度特征融合和对比池化的点云补全网络

基于编码器-解码器的传统点云补全网络通常使用编码器直接捕获输入点云特征信息，并将其整合为全局特征。在整个网络中，编码过程的特征提取方式和特征下采样整合的全局特征对于整个网络的补全性能至关重要。然而，大多数传统补全网络仅提取输入点云的单一尺度特征并使用最大池化进行下采样操作，这极大地限制了点云数据的表达能力和语义理解能力，导致补全结果缺乏细节丰富性。

针对以上问题，本文基于注意力机制设计了多尺度特征融合和对比池化的补全网络。图1展示了具体网络结构，本网络分为三个阶段解决点云补全任务。第一阶段，网络将不完整点云以坐标形式输入，使用最远点采样算法提取出不同尺度点云，使用轻量级DGCNN［17］提取中心点周围局部特征，并结合空间注意力将不同尺度点云特征进行逐级融合，以获取更为丰富的多尺度特征。第二阶段，特征融合后，转换为点代理并输入到Transformer［18］。与PoinTr一样，本网络通过编码器和解码器去学习点云之间成对交互的结构信息。Transformer中自注意力机制对编码器中元素之间的成对交互进行建模，解码器通过输入点云和查询特征之间的成对交互去解释缺失元素。在特征下采样阶段，本网络通过不同池化结果之间的差异获取互补信息，以弥补通过传统最大池下采样后丢失的细节。第三阶段，输出特征重塑后输入FoldingNet，由粗到细恢复缺失部分稠密点云。

具体而言，给定部分输入融合后的点代理F={F1，F2，…，FN}，将点云补全任务模拟为集合到集合的转换问题。

V=TE（F）（1）

P=TD（Q，V）（2）

其中：TE和TD分别是Transformer的编码器和解码器；V={V1，V2，…，VN}是编码器输出的特征向量；Q={Q1，Q2，…，QM}是解码器的动态查询；P={P1，P2，…，PM}是缺失点云的预测点代理；M是预测点的数量。

1.1 点代理生成

由于Transformer模型只处理序列化数据，所以需要将点云序列化，最容易的方式是直接将点云坐标（xyz）序列化。然而Transformer的計算复杂度为n2，其中n为序列长度，这种方案会带来极大的计算负担。虽然实际应用中可以对序列长度进行限制或者采用一些优化手段减少计算时间，但是直接序列化无法兼顾点周围的局部信息。此外，以往工作大多只考虑单层次特征，但是单层次特征的表示能力相对有限，无法充分挖掘点云数据中丰富的语义信息和空间结构。

为解决上述问题，本文提取不同尺度的点云特征，并将其表示为序列化数据（点代理）。具体做法如下：首先，利用最远点采样（farthest point sampling）对输入点云进行下采样，以获取不同尺度的点云数据；然后，再次利用最远点采样提取不同尺度点云固定数量的中心点{g1，g2，…，gi}；最后，利用轻量级DGCNN并结合中心点获取各点周围特征。因此，点代理是一个捕获gi周围局部结构特征信息的特征向量，每个尺度点代理可以计算为

Fi=F′i+φ（gi）（3）

其中：F′i是DGCNN所提取点gi的特征，代表该点局部区域语义信息；φ是用来捕获点代理位置信息的一个MLP，此操作可以显示编码点代理全局位置信息。最终点代理是不同尺度局部点代理逐级融合的结果。

1.2 多尺度特征逐级融合

不同尺度点云特征具有不同特点，其中高尺度点云特征点数多，包含丰富的细节信息；低尺度点云特征点数少，包含更强的结构特征。不同尺度特征表示不同语义信息，其中局部特征表示点云微观细节，可以提供点云几何信息；全局特征表示点云宏观结构，可以提高点云整体形状信息。然而，高低尺度特征语义差异较大，直接融合会出现冲突，产生信息的缺口。

针对以上问题，本文采用逐级（低尺度到高尺度）方式融合特征。图2描述了具体结构。本文采用多尺度特征逐级融合的原因有三点：第一，语义层次化，不同尺度特征包含不同语义信息，逐级融合能够实现语义层次化，将不同尺度语义信息组织成一个层次结构，可以更准确地表示点云特征；第二，信息有效传递，逐级融合可以将低层次特征传递给高层次特征，融合后的高低尺度特征之间信息差距更小，点云特征表示更加稳定可靠；第三，提高特征表示的丰富性，逐级融合可以将不同层次的信息有机结合，充分利用各尺度点云信息，提高特征表示的丰富性和鲁棒性。具体而言：

Fmiddle=δ（Cat（SA（F2）SA（F3）））（4）

Fend=δ（Cat（SA（F1）Fmiddle））（5）

其中：SA ［19］为空间注意力得分；Cat为拼接操作；δ是将拼接特征映射到一个固定维度的MLP；F1、F2、F3分别为不同尺度N2048、N1024、N512的点代理；Fend为最终点代理。

1.3 CGCPool

点代理经过Transformer后，会输出一系列位置嵌入向量，每个向量表示输出序列中对应的位置特征。特征在输入到FoldingNet之前，通常使用最大池化对点云数据进行下采样，降低特征维度的同时保持点云数据置换不变性。最大池化会在每个池化窗口找到最大特征值，然后将此作为该窗口的输出。然而，最大池化仅保留点周围邻域最大值，这会丢失大量细节信息。对于补全任务而言，不完整全局特征会导致补全结果缺失细节信息。

针对以上问题，本文提出一种全新池化方式CGCPool。假定BatchSize为1，CGCPool整体结构如图3所示。本文将获取的特征向量N按照数值从大到小进行排序，取固定数量K个特征（K＜N）。此操作不但减少了计算量，而且可以筛选出高激活度区域。在此基础上进一步进行最大池化和平均池化操作。最大池化可以有效减少噪声，保留关键特征，提高模型鲁棒性和准确性；平均池化在保留点云基本特征的同时，将点云压缩至更小规模，降低分辨率，使模型处理起来更为容易。Pavg和Pmax分别表示平均池化和最大池化后的输出，两者做差获取对比特征，Pcont表示两种池化结构之间的差异。Pmax和Pcont分别进行卷积操作后，其结果cont和max在通道维度进行拼接。二次卷积后与max相结合得到最终全局特征。

与最大池化相比，CGCPool不是仅考虑每个池化窗口最大值，而是考虑多个高激活度区域，尽可能多地保留细节信息。不仅如此，它还自适应聚合整个部分级特征平均池化和最大池化的结果。它利用两种池化结果之间的差异去提取互补信息，最大化池化特征，更充分地捕捉点云数据中局部结构和全局特性。

1.4 损失函数

点云补全的损失函数需要定量衡量重建点云和原始点云之间的差距。Fan等人［20］引入了两个对点排列不变的度量方式，EMD（earth movers distance）和CD（Chamfer distance）。EMD基于Wasserstein［21］距离，CD基于欧氏距离。具体而言，EMD将两个点云看作两个分布，并寻找一种最优点匹配方法，使得匹配距离最小；CD则分别计算每个点到另一个点云中所有点的距离。相对而言，CD计算速度更快。受计算复杂度限制，本文采用Chamfer distance作为损失函数。C表示nc局部中心，P表示补全点云np。给定地面真实点云G，这两个预测的损失函数可以写成

J0=1nC∑c∈Cming∈G‖c-g‖+1nG∑g∈Gminc∈C‖g-c‖（6）

J1=1nP∑p∈Pming∈G‖p-g‖+1nG∑g∈Gminp∈P‖g-p‖（7）

其中：局部中心C预测整个补全模型粗略结果。通过高分辨率的地面真实点云G去监督稀疏点云C，以鼓励它们具有相似分布。因此最终损失函数为

J=J0+J1（8）

2 实验

为验证模型有效性，本文在常用数据集PCN和Shape-Net34/55上进行综合实验。本文还提供消融实验和部分可视化图像以验证实验的可靠性。实验结果表明，MFCP-Net在点云补全领域取得了极佳效果。

2.1 PCN和ShapeNet34/55數据集简介及评估标准

2.1.1 数据集简介

PCN数据集包含来自ShapeNet［22］数据集8个类别的点云数据。通过对三维模型进行采样和预处理，提取到包含有缺失部分的点云数据。这些点云数据用于点云补全任务的评估和比较，也用于其他相关三维点云处理任务［23～26］的研究和开发。

ShapeNet34和ShapeNet55都是由斯坦福大学计算机科学系的ShapeNet项目组发布的数据集，主要用于3D模型相关研究。其中ShapeNet34包含了34个不同物体类别，ShapeNet55包含了55个不同物体类别。ShapeNet34/55通过自动化3D扫描和手动3D建模等方式生成，极大推动了3D物体识别［27］、分割［28，29］、检索［30，31］、生成［32］等方面的研究。

2.1.2 数据集训练和评估

在本节中，MFCP-Net将与目前先进方法在相同实验环境下进行比较，以证明算法有效性。本文采用cd-l1、cd-l2以及F-score进行度量。

对于PCN数据集中每一个实例均采样2 048个点作为部分点云，采样16 384个点作为完整点云。本文将获取到的部分点云输入到MFCP-Net，通过各个模块处理获取到的预测点云，再与完整点云进行比较和计算。ShapeNet34基准［16］用于检验和评估模型泛化能力，而ShapeNet55基准［16］使用了ShapeNet中所有55个类别的对象，以确保类别和对象的多样性。对于ShapeNet34/55中每个对象，从曲面均匀采样8 192个点作为真实点云。为了模拟真实场景和确保样本多样性，首先随机选择一个视点，并移除离视点最远的n个点以获得部分点云。在训练期间，n被随机选择在2 048～6 144（即完整点云的25%～75%），以满足训练样本不完整性需求。然后，剩余点云下采样到2 048个点作为输入。在评估过程中，本文选择了八个视点，方便起见，n设置为2 048、4 096或6 144，即占整个点云的25%、50%或75%。在实验中，测试样本分为简单、中等和困难三个难度等级，根据n的值来划分。本文提供每种方法在不同难度级别中的性能数值，以展示每个网络处理不同难度级别任务的能力。此外，使用三个难度级别性能的平均值来描述网络整体性能。

2.2 实验环境和实施细节

本文实验环境为Ubuntu 18.04，处理器为i9-10900X，32 GB DDR4内存，NVIDIA GeForce RTX 3090 Ti独立显卡，训练环境为CUDA 10.0，Python 3.7.13，PyTorch 1.8.0。MFCP-Net是端到端可训练的，不需要任何预训练。本网络使用Adamw优化器，初始学习率设置为5×10-4，权重衰减为5×10-4。与文献［16］一样，权衡资源和性能之后，将Transformer编码器和解码器的深度分别设置为6和8，均使用6个head attention，隐藏维度设置为384。KNN操作的k值设置为16和8。对于PCN数据集，批大小设置为48，进行300个epoch的训练，每21个epoch的连续学习率衰减为0.9；对于ShapeNet34数据集，批大小设置为128，共200个epoch；对于ShapeNet55数据集，批大小设置为96，epoch为200。在训练过程中，通过迭代优化损失函数来更新网络参数。在每个epoch结束时，使用验证集来选择最优的模型，并在测试集上进行性能评估。

2.3 评估指标

MFCP-Net使用平均倒角距离和F-score作为度量标准。平均倒角距离可以测量预测点云和地面实况之间的距离。对于每个预测目标，预测点集P和地面实况点集G之间的倒角距离通过以下公式计算：

dcd=1|P|∑p∈Pming∈G‖p-g‖+1|G|∑g∈Gminp∈P‖g-p‖（9）

本文使用cd-l1（一范数）和cd-l2（二范数）分别计算两点之间的距离，使用F-score衡量点云补全结果的质量。

2.4 不同方法补全效果对比

2.4.1 PCN数据集不同方法补全结果分析

PCN作为点云补全领域使用最为频繁的数据集，将MFCP-Net在PCN数据集上与先进方法在相同环境下进行实验。所有评价指标都是越小越好。表1的定量结果表明，MFCP-Net相较于一些比较传统的方法，如FoldingNet、PCN，本文方法在8个类别和整体均值结果方面均为最优。参与比较的各补全网络中，虽然在类别指标chair上的评价略优于本网络，但在其他类别上，本网络的实验结果都展现了显著优势；在均值上，本文方法的平均误差相比于PoinTr提升了3.83%。这些数据均证明了本文方法在3D点云形状补全任务中的有效性和优越性。

2.4.2 消融研究

本節进行了全面的消融研究，以验证多尺度注意力特征逐级融合以及CGCPool的有效性。注意，所有实验均在PCN数据集上进行。

为了检验设计的有效性，本节对MFCP-Net关键部件进行消融研究。其中A代表基础模型，在A的基础上单独使用多尺度特征逐级融合模块后（模型B），其cd-l1相较于A减少了0.124。这表明多尺度特征逐级融合模块对改进模型性能起到了积极作用。在A的基础上加入CGCPool模块（模型C），其基准提高了0.212。C模型在结果上减少了更多的CD损失，因为C模型代表了更完整的3D形状内部的高级特征信息。在A的基准上同时引入两个模块（模型D），其cd-l1和F-score的具体结果如表2所示。

为进一步验证CGCPool模块的有效性，本节将其与最大池化（max pooling）和平均池化（averge pooling）进行比较。为消除特征融合模块对整体网络性能的影响，去除特征融合模块后进行对比。实验结果表明，使用CGCPool时，在所有性能指标（F-score、cd-l1和cd-l2）上都取得了最优的表现。

具体来说，使用平均池化时，得到的点云补全结果的F-score为0.739，cd-l1为8.282，cd-l2为0.279。使用最大池化时，性能有所提升，F-score为0.774，cd-l1为7.645，cd-l2为0.248。在采用CGCPool时，性能最优。使用CGCPool的网络的F-score指标达到了0.784，cd-l1为7.433，cd-l2为0.234。具体结果如表3所示。

综合实验结果，可以得出如下结论：CGCPool是一种有效且优越的池化方法，能够在点云补全任务中显著提升性能，并为补全结果的准确性和完整性提供强有力的支持。

2.4.3 ShapeNet34比较结果

为测试MFCP-Net的泛化能力，本文在ShapeNet-34数据集上对MFCP-Net和其他方法进行了实验。本节测试了34个可见类别在简单（CD-S）、中等（CD-M）、困难（CD-H）情況下的cd-l2值。如表4所示，MFCP-Net相比其他先进方法，具有更加优异的泛化能力。

2.4.4 ShapeNet55比较结果

本文在ShapeNet-55上进行实验，该数据集包含55个类别的对象。本文实现了现有方法（FoldingNet、PCN、TopNet、GRNet、PoinTr），并使用其论文中最佳超参数在相同实验环境下进行公平比较。为报告样本充足和不足类别的性能，本文从ShapeNet-55中选取10个类别进行实验，其中table、chair、airplane、car、sofa、birdhouse为样本充足的类别；bag、remote、keyboard和rocket为样本不充足类别。表5展示在三个设置（简单、中等、困难）下，MFCP-Net在cd-l2方面取得了0.594、0.820、1.622的优异结果，其F-score达到了0.502。表6详细报告了每种方法在10个类别上的详细结果。以上数据证明，MFCP-Net可以更好地处理不同视角、不同类别、不同不完整模式、不同不完整程度的点云数据。本文方法在更多样的环境下具备普适性和有效性。

2.5 补全结果可视化

2.5.1 消融研究结果可视化

图4显示了消融实验可视化结果。基于多尺度特征逐级融合和CGCPool的补全网络取得最佳结果。在图4（b）模型除去多尺度特征逐级融合模块。此时，由于网络获取的全局特征不丰富，难以给出相对平滑的预测形状。从图中可以明显看出，机头和机翼上噪点较多，致使整个机身的外观并不平滑。上述结果说明，多尺度特征逐级融合模块可以加强网络对于全局特征的学习能力，通过该模块可获取更为丰富的点云特征。图4（c）删除CGCPool模块进行补全时，整体轮廓较为分明，预测形状相对平滑，但是对于机尾处的细节部位难以还原。从图中可以看出，机尾部分细节几乎完全缺失，说明CGCPool模块有助于补全网络，恢复缺失点云细节特征。

2.5.2 PCN数据集补全结果可视化

本文算法与其他五种方法在PCN数据集补全性能可视化结果如图5所示。图中依次包括残缺输入点云、经过FoldingNet、TopNet、PCN、GRNet、PoinTr和本文算法获取的补全点云，以及对应的真实点云。其中灰色代表输入部分，蓝色代表其他五种算法补全结果，红色代表本文算法补全结果，金色则表示地面真实（参见电子版）。

图5直观展示了本文算法相较于其他方法而言，补全效果更佳。针对不同类别的残缺点云，MFCP-Net获得了更加精细、更加平滑的全局形状，且输出点云在空间上分布更加均匀，细节保留更为明显。这充分说明本文算法重建能力强，补全效果好，预测点云空间分布更加均匀，可以实现精细补全。

3 结束语

本文提出了一种基于多尺度特征的逐级融合模块和对比池化模块的点云补全方法。实验结果表明，本文方法能够有效地捕捉点云中的多尺度特征，并且能够从不同层次进行融合，从而更好地还原缺失信息。与其他方法相比，MFCP-Net具有更好的补全效果和更高的准确率，表明该方法在点云补全任务上具有广泛的适用性和稳定性。然而，该方法仍存在一些缺点，包括训练时间较长、训练模型较大以及补全细节不够精细等。后期可以考虑对模型作轻量化处理，并使用点云平滑等方法，以进一步提高补全质量。

综上所述，基于多尺度特征的逐级融合模块和对比池化模块提出的点云补全方法是一种有效的方法，具有广泛的应用前景，可为实际应用中的点云数据处理提供有力支持。

参考文献：

［1］张润梅，程婷，尹蕾，等. 一种注意力融合的多尺度点云分类网络［J］. 淮北师范大学学报：自然科学版， 2023，44（1）： 70-75. （Zhang Runmei， Cheng Ting， Yin Lei， et al. A multi-scale point cloud classification network based on attention fusion［J］. Journal of Huaibei Normal University：Natural Science Edition， 2023，44（1）： 70-75.）

［2］鲁斌，柳杰林. 基于特征增强的三维点云语义分割［J］. 计算机应用， 2023，43（6）：1818-1825. （Lu Bin， Liu Jielin. 3D point cloud semantic segmentation based on feature enhancement［J］. Journal of Computer Applications， 2023，43（6）： 1818-1825.）

［3］陶四杰，白瑞林. 一种基于降采样后关键点优化的点云配准方法［J］. 计算机应用研究， 2021，38（3）： 904-907. （Tao Sijie， Bai Ruilin. A point cloud registration method based on key point optimization after downsampling［J］. Application Research of Compu-ters， 2021，38（3）： 904-907.）

［4］Demir I， Aliaga D G， Benes B. Procedural editing of 3D building point clouds［C］//Proc of IEEE International Conference on Computer Vision. 2015： 2147-2155.

［5］Cai Zhipeng， Wang Cheng， Wen Chenglu， et al. 3D-PatchMatch： an optimization algorithm for point cloud completion［C］//Proc of the 2nd IEEE International Conference on Spatial Data Mining and Geographical Knowledge Services. 2015： 157-161.

［6］Canciani M， Falcolini C， Saccone M， et al. From point clouds to architectural models： algorithms for shape reconstruction［C］//Proc of 3D Virtual Reconstruction and Visualization of Complex Architectures. 2013：27-34.

［7］Hinks T， Carr H， Truong-Hong L， et al. Point cloud data conversion into solid models via point-based voxelization［J］. Journal of Surveying Engineering， 2013，139（2）： 72-83.

［8］Vo A V， Truong-Hong L， Laefer D F， et al. Octree-based region growing for point cloud segmentation［J］. ISPRS Journal of Photogrammetry and Remote Sensing， 2015，104： 88-100.

［9］Kammerl J， Blodow N， Rusu R B， et al. Real-time compression of point cloud streams［C］//Proc of IEEE International Conference on Robotics and Automation. 2012： 778-785.

［10］Qi C R， Su Hao， Mo Kaichun， et al. PointNet：deep learning on point sets for 3D classification and segmentation［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2017： 652-660.

［11］Qi Charles R，Li Yi， Su Hao， et al. PointNet++： deep hierarchical feature learning on point sets in a metric space［C］//Advances in Neural Information Processing Systems. 2017.

［12］Yuan Wentao， Khot T， Held D， et al. PCN：point completion network［C］//Proc of International Conference on 3D Vision.2018： 728-737.

［13］Yang Yaoqing， Feng Chen， Shen Yiyu， et al. FoldingNet： point cloud autoencoder via deep grid deformation［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2018： 206-215.

［14］Tchapmi L P， Kosaraju V， Rezatofighi H， et al. TopNet： structural point cloud decoder［C］//Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition. 2019： 383-392.

［15］Xie Haozhe， Yao Hongxun， Zhou Shangchen， et al. GRNet： gridding residual network for dense point cloud completion［C］//Proc of the 16th European Conference on Computer Vision. Berlin：Springer-Verlag， 2020： 365-381.

［16］Yu Xumin， Rao Yongming， Wang Ziyi， et al. PoinTr： diverse point cloud completion with geometry-aware transformers［C］//Proc of IEEE/CVF International Conference on Computer Vision. 2021： 12498-12507.

［17］Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need［C］//Advances in Neural Information Processing Systems. 2017.

［18］Wang Yue， Sun Yongbin， Liu Ziwei， et al. Dynamic graph CNN for learning on point clouds［J］. ACM Trans on Graphics， 2019，38（5）： 1-12.

［19］Woo S， Park J， Lee J Y， et al. CBAM： convolutional block attention module［C］//Proc of European Conference on Computer Vision. 2018： 3-19.

［20］Fan Haoqiang， Su Hao， Guibas L J. A point set generation network for 3D object reconstruction from a single image［C］// Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2017： 605-613.

［21］Vallender S S. Calculation of the Wasserstein distance between probability distributions on the line［J］. Theory of Probability & Its Applications， 1974，18（4）： 784-786.

［22］Chang ANGEL X， Funkhouser T， Guibas L， et al. ShapeNet： an information rich 3D model repository［EB/OL］. （2015）. https：//arxiv.org/abs/1512. 03012.

［23］Cheng Zhiyi， Li Xiaoxiao， Loy. Pedestrian color naming via convolutional neural network［C］//Proc of the 13th Asian Conference on Computer Vision. Cham：Springer， 2017： 35-51.

［24］Singer N， Asari V K. View-agnostic point cloud generation for occlusion reduction in aerial Lidar［J］. Remote Sensing， 2022，14（13）： 2955.

［25］Son H， Kim Y M. SAUM： symmetry-aware upsampling module for consistent point cloud completion［C］//Proc of Asian Conference on Computer Vision. 2020.

［26］Huang Shengyu， Hao Yu， Wang F. SPoVT： semantic-prototype variational transformer for dense point cloud semantic completion［C］//Advances in Neural Information Processing Systems. 2022： 33934-33946.

［27］Hamdi A， Giancola S， Ghanem B. MVTN： multi-view transformation network for 3D shape recognition［C］//Proc of IEEE/CVF International Conference on Computer Vision. 2021： 1-11.

［28］Huang Qiangui， Wang Weiyue， Neumann U. Recurrent slice networks for 3D segmentation of point clouds［C］//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. 2018： 2626-2635.

［29］Te Gusi， Hu Wei， Zheng Ami， et al. RGCNN： regularized graph CNN for point cloud segmentation［C］//Proc of the 26th ACM International Conference on Multimedia. 2018： 746-754.

［30］He Xinwei， Zhou Yang， Zhou Zhichao， et al. Triplet-center loss for multi-view 3D object retrieval［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2018： 1945-1954.

［31］Yavartanoo M， Kim E Y， Lee K M. SPNet： deep 3D object classification and retrieval using stereographic projection［C］//Proc of the 14th Asian Conference on Computer Vision. Cham：Springer， 2019： 691-706.

［32］Charrada T B，Tabia H，Chetouani A，et al. Learnable triangulation for deep learning-based 3D reconstruction of objects of arbitrary topology from single RGB images［EB/OL］. （2021）.https：//arxiv.org/abs/2109. 11844.