判别式多视图非负矩阵分解:融合一致性、判别性与鲁棒性的表示学习

判别式多视图非负矩阵分解:融合一致性、判别性与鲁棒性的表示学习 1. 项目概述从多视图数据中挖掘更优的判别信息在现实世界的机器学习任务里我们常常会遇到一个对象拥有多种“面孔”的情况。比如一张人脸图像我们可以提取它的原始像素值也可以计算它的局部二值模式LBP纹理特征一篇新闻报道既有文字内容也可能配有关联的图片。这些从不同角度、用不同方式描述同一对象的数据就被称为“多视图数据”。它们就像盲人摸象故事里的不同感官体验单一视图可能只揭示了对象的部分特性而多个视图结合起来才能拼凑出更完整、更准确的认知图景。多视图学习的核心目标就是如何有效地融合这些异构的、互补的信息。传统方法要么把不同视图的数据简单拼接在一起粗暴地当作一个高维单视图来处理这忽略了视图间的结构差异要么对每个视图单独建模再后期融合这又损失了视图间的内在关联。因此学习一个共享的潜在表示空间将不同视图的数据映射到这个统一的空间中成为主流思路。在这个空间里来自同一对象的不同视图数据应该彼此接近而不同对象的数据则应相互远离这既保证了视图间的一致性也为后续的分类、聚类等任务奠定了良好基础。非负矩阵分解NMF是处理这类问题的一把利器。它假设任何非负的数据矩阵都可以分解为两个非负矩阵的乘积一个代表“基”或“特征”另一个代表数据在这些基上的“系数”或“表示”。这种分解具有直观的“部分构成整体”的可解释性特别适合图像、文本等天然非负的数据。然而标准的NMF是为单视图设计的。将其扩展到多视图即多视图非负矩阵分解Multi-view NMF自然成为了处理非负多视图数据如各种图像特征的热门方向。但这里存在一个关键瓶颈大多数已有的多视图NMF方法主要精力都放在了如何让不同视图的表示保持一致Consistency上却或多或少地忽略了对判别性Discriminative的追求。换句话说它们学到的共享表示可能只做到了“把同一个东西的不同描述对齐”却没有刻意去“拉开不同东西之间的距离”。这在无监督的聚类任务中或许尚可接受但对于有监督的分类任务来说就远远不够了。一个理想的表示不仅应该视图一致更应该类别可分。这正是我们这次要深入探讨的“判别式多视图非负矩阵分解”Discriminative Multi-view Nonnegative Matrix Factorization, DMultiNMF算法的出发点。它不满足于仅仅对齐视图而是主动将分类任务的目标——最大化类间间隔、增强局部判别结构——融入到表示学习的过程中。同时为了应对现实数据中不可避免的噪声和异常值它还引入了更鲁棒的损失度量函数。简单来说它的目标是为多视图数据学习一个既一致又判别的共享表示从而直接提升下游分类器的性能。注意理解“一致性”和“判别性”的权衡是掌握多视图表示学习的关键。一致性确保多源信息被有效整合避免“各说各话”判别性则直接服务于最终的分类目标确保学到的特征“好用”。DMultiNMF的创新之处在于将这两者在一个统一的NMF框架下进行了协同优化。2. 核心思路拆解如何让表示“既对齐又好分”要理解DMultiNMF我们需要把它拆解成几个核心的组成部分看看它是如何一步步构建起一个强大的判别式多视图学习框架的。整个算法的流程图清晰地展示了训练和测试两个阶段其核心在于学习两组参数每个视图特有的视图条件基矩阵(W^{(v)})以及一个共享的分类器权重向量(\vec{w})。2.1 基石多视图非负矩阵分解的一致性约束首先算法建立在经典的多视图NMF框架之上。对于第 (v) 个视图的数据矩阵 (X^{(v)})NMF试图找到两个非负矩阵 (W^{(v)})基矩阵和 (H^{(v)})系数矩阵使得 (X^{(v)} \approx W^{(v)} H^{(v)})。这里的 (H^{(v)}) 可以看作是数据在第 (v) 个视图下的低维表示。多视图NMF的关键创新是引入了一个共享表示(H^)。它要求所有视图各自的表示 (H^{(v)}) 都尽可能靠近这个共享表示 (H^)。其目标函数中通常包含这样一项(\sum_{v} | H^{(v)} - H^* |_F^2)。这个约束就像一根“定海神针”迫使来自不同视图的、描述同一对象的信息在潜在空间中被“拉”到同一个点即 (H^*) 中的对应列附近从而实现了视图间的一致性。这是多视图信息融合的基础。2.2 全局判别性注入大间隔分类思想仅有一致性是不够的。(H^*) 这个共享表示最终要用于分类因此它本身需要具备良好的可分性。DMultiNMF借鉴了支持向量机SVM中的大间隔Large Margin思想直接将分类目标融入表示学习。具体做法是为共享表示 (H^) 学习一个线性分类器 (\vec{w})。对于第 (i) 个样本的共享表示 (\vec{h}^_i) 及其标签 (y_i \in {1, -1})我们使用铰链损失Hinge Loss来衡量分类误差(\ell(y_i, \vec{w}^T \vec{h}^_i) \max(0, 1 - y_i \vec{w}^T \vec{h}^_i))。这个损失函数的意义是如果分类正确且置信度足够高间隔大于1则损失为0否则就会产生一个与间隔成比例的惩罚。通过最小化所有训练样本的铰链损失之和并加上对 (\vec{w}) 的L2正则化防止过拟合我们实际上是在要求学习到的共享表示 (H^*) 和分类器 (\vec{w}) 能够共同实现一个大的分类间隔。这意味着在共享表示空间中不同类别的样本会被尽可能远地分开。这是将判别信息从“后端”的分类器反向传播并嵌入到“前端”的表示学习过程中实现了端到端的判别性表示学习。2.3 局部判别性构建判别性局部对齐全局的大间隔保证了类间的分离但类内的结构同样重要。DMultiNMF进一步引入了判别性局部对齐Discriminative Locality Alignment来增强每个视图内部的局部判别结构。其思想来源于流形学习中的“局部块对齐”框架。对于某个视图中的每一个数据点 (\vec{x}^v_i)我们不仅像传统方法那样找到它的k近邻还要区分这些近邻的类别同类近邻从与 (\vec{x}^v_i) 相同类别的样本中选取 (k_1) 个最近的邻居。异类近邻从与 (\vec{x}^v_i) 不同类别的样本中选取 (k_2) 个最近的邻居。然后为这个数据点构建一个“局部块”Patch包含它自己、它的 (k_1) 个同类近邻和 (k_2) 个异类近邻。在这个局部块的低维表示 (H^v_i) 上我们定义一个优化目标最小化该点到其同类近邻的距离同时最大化该点到其异类近邻的距离。通过一个巧妙的系数向量设计同类近邻对应系数1异类近邻对应系数-1这个目标可以转化为一个关于局部拉普拉斯矩阵 (L^v_i) 的迹最小化问题(\min Tr(H^v_i L^v_i (H^v_i)^T))。最后将所有数据点的局部块对齐目标加起来就得到了整个视图的全局局部判别对齐目标 (\min Tr(H^v L^v (H^v)^T))。这个操作的直观效果是在降维后的每个视图表示 (H^v) 中局部范围内同类样本抱团更紧异类样本被推得更开。这相当于在视图内部施加了一个细粒度的判别约束与全局的大间隔约束形成了互补。2.4 鲁棒性保障相关熵诱导度量现实数据中总存在噪声和异常值。传统的NMF使用Frobenius范数即L2损失来衡量重构误差 (|X - WH|_F^2)它对大的误差非常敏感因为误差被平方了一个异常点就可能严重扭曲分解结果。DMultiNMF采用了相关熵诱导度量Correntropy-Induced Metric, CIM来代替平方误差。CIM源于信息论其核心是一个高斯核函数 (g_\sigma(e) \frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{e^2}{2\sigma^2}))其中 (e) 是误差。CIM损失函数定义为 (J(X, WH) \sum_{i,j} (1 - g_\sigma(X_{ij} - (WH)_{ij})))。这个函数有什么妙处观察其形状当误差 (e) 很小时(g_\sigma(e) \approx 1)损失接近0当误差 (e) 增大时(g_\sigma(e)) 迅速衰减损失趋近于1。这意味着CIM对小的误差给予“宽容”但对大的误差很可能是异常值施加一个“饱和”的上限惩罚而不是像L2损失那样无限放大。这赋予了模型更强的鲁棒性使其在存在噪声污染的数据集上表现更稳定。2.5 整体目标函数一个统一的优化框架将上述四个核心部分——基于CIM的多视图重构误差、视图一致性约束、局部判别对齐和全局大间隔分类损失——结合起来就得到了DMultiNMF的最终目标函数[ \min \sum_{v1}^{n_v} \left[ J(X^{(v)}, W^{(v)}H^{(v)}) \lambda |H^{(v)} - H^|_F^2 \alpha Tr(H^{(v)} L^{(v)} (H^{(v)})^T) \right] \beta Tr(\max(0, I - \vec{y}\vec{w}^T H^)) \gamma |\vec{w}|_2^2 ]其中(\lambda, \alpha, \beta, \gamma) 是权衡各项重要性的超参数。这个目标函数同时优化所有视图的基矩阵 (W^{(v)})、系数矩阵 (H^{(v)})、共享表示 (H^*) 以及分类器 (\vec{w})追求的是一个在重构精度、视图一致性、局部与全局判别性之间取得最佳平衡的表示。实操心得理解这个目标函数的关键在于把握每个正则化项的作用。(\lambda) 控制视图一致性强度太大可能迫使不同视图强行对齐而损失特有信息(\alpha) 控制局部判别性的强度(\beta) 控制分类损失的影响力直接关系到最终分类性能(\gamma) 是常见的分类器正则项。调参时通常先固定 (\gamma) 为一个较小值如0.01然后以网格搜索方式调整 (\lambda, \alpha, \beta)观察验证集上的分类准确率。3. 优化算法详解如何求解这个复杂问题面对这样一个包含非凸项CIM、非负约束和复杂耦合变量的目标函数直接求解是困难的。DMultiNMF采用了一种称为半二次优化Half-Quadratic Optimization的迭代优化策略将原问题分解为几个相对简单的子问题然后交替更新各个变量。3.1 使用半二次优化处理CIMCIM项 (J(X, WH)) 是非凸的。半二次优化技巧通过引入一组辅助变量 (P_{ij})将非凸的CIM损失转化为一个等价的增广形式。具体来说对于每个视图 (v)我们引入辅助矩阵 (P^{(v)})其中每个元素 (P^{(v)}{ij} g{\sigma_v}(X^{(v)}{ij} - (W^{(v)}H^{(v)}){ij}))。这里 (\sigma_v) 是当前视图重构误差的标准差估计。这个 (P^{(v)}) 可以被直观地理解为自适应权重矩阵。当某个位置的重构误差很大时可能是异常点(P_{ij}) 值会变得很小从而在后续的加权最小二乘更新中该数据点对模型的影响就被自动降低了。这正是CIM提供鲁棒性的内在机制。3.2 变量交替更新规则在引入辅助变量 (P^{(v)}) 后优化过程通过固定其他变量轮流更新其中一个变量的方式进行更新辅助变量 (P^{(v)})固定 (W^{(v)}, H^{(v)})根据上述公式直接计算。这一步本质上是根据当前的重构误差重新计算每个数据点的权重。更新基矩阵 (W^{(v)})固定 (H^{(v)}, H^, P^{(v)})此时关于 (W^{(v)}) 的子问题是一个带非负约束的加权最小二乘问题并附加了与一致性约束相关的项。通过构造拉格朗日函数并利用KKT条件可以推导出乘法更新规则。这种更新规则能保证迭代过程中 (W^{(v)}) 的非负性。 [ W_{ik} \leftarrow W_{ik} \frac{ [X_i A_i H^T]k \lambda \sum_j H{ij} H^{kj} }{ [W_i H A_i H^T]k \lambda (\sum_l W{lk}) (\sum_j H{ij} H_{kj}) } ] 其中 (A_i diag(P_{i*}))。注意为了满足基向量归一化的约束 (|W_{*,r}|_1 1)算法中通过一个对角矩阵 (Q^{(v)}) 进行了处理并在更新 (H^{(v)}) 前对 (W^{(v)}) 和 (H^{(v)}) 进行了相应的缩放变换这是一种常见的处理技巧。更新系数矩阵 (H^{(v)})固定 (W^{(v)}, H^, P^{(v)})并完成上述缩放后关于 (H^{(v)}) 的子问题同样可以推导出乘法更新规则。此时的目标函数包含了加权重构误差、与共享表示 (H^) 的一致性误差、以及局部判别对齐项 (Tr(H L H^T))。 [ H_{kj} \leftarrow H_{kj} \frac{ [W^T (X \odot P)]{kj} \alpha [H L^-]{kj} \lambda H^*{kj} }{ [W^T (W H \odot P)]{kj} \alpha [H L^]{kj} \lambda H{kj} } ] 这里 (\odot) 表示逐元素乘法(L L^ - L^-) 是将拉普拉斯矩阵 (L) 分解为非负部分 (L^) 和 (L^-)以确保更新规则的非负性。局部判别信息通过矩阵 (L) 被整合进了 (H) 的更新中驱动着表示向更具判别性的结构演化。更新分类器 (\vec{w})固定 (H^)并引入一个指示矩阵 (Z diag(z_1, ..., z_n))其中 (z_i 1) 当且仅当样本 (i) 被错误分类或处于间隔边界内即 (1 - y_i \vec{w}^T \vec{h}^_i 0)。这样铰链损失项可以重写。对 (\vec{w}) 求导并令为零可以得到闭式解 [ \vec{w} \frac{\beta}{2\gamma} H^* Z \vec{y} ] 这个解非常直观分类器权重 (\vec{w}) 是由那些被误分类或处于间隔内的样本由 (Z) 标识的共享表示 (H^*) 的加权和决定的。更新共享表示 (H^*)固定所有 (H^{(v)}) 和 (\vec{w})对 (H^) 求导可得闭式解 [ H^ \frac{\sum_{v1}^{n_v} \lambda Q^{(v)} H^{(v)} \frac{\beta}{2} \vec{w} \vec{y}^T Z^T}{n_v \lambda} ] 这个公式揭示了 (H^) 的本质它是各视图对齐后表示 (Q^{(v)}H^{(v)}) 的加权平均再加上当前分类错误信息的一个修正项。分类器认为难分的样本会通过 (Z) 矩阵对共享表示 (H^) 产生一个“拉力”促使其调整以变得更容易分类。整个训练过程就是反复执行上述1-5步直到目标函数收敛或达到最大迭代次数。测试阶段则相对简单对于新的多视图测试样本我们固定训练好的 (W^{(v)})用类似的更新规则此时 (\alpha0, \beta0)因为没有标签信息求解其共享表示 (H^_{test})然后直接用训练好的分类器 (\vec{w}^T H^_{test}) 进行预测。注意事项乘法更新规则虽然能保证非负性但其收敛速度可能较慢且对初始值敏感。在实际代码实现中通常采用随机初始化并可以尝试多次运行选择最优结果。另外目标函数非凸算法找到的是局部最优解但实践表明只要参数设置合理其局部解通常具有很好的性能。4. 实验设计与结果分析算法真的有效吗任何机器学习算法的价值都需要在实验中验证。原文在四个人工和真实数据集上进行了系统性的评估涵盖了人脸识别、手写数字识别以及跨媒体检索等典型任务。4.1 实验设置与对比基线数据集ORL人脸数据集40人每人10张不同姿态/表情的灰度图。视图1为原始像素1024维视图2为LBP特征59维。UCI手写数字数据集0-9十个数字共2000个样本。视图1为76维傅里叶系数视图2为240维像素平均值。XMedia数据集一个跨媒体数据集本文选用其中的文本视图1和图像视图2模态共20个类别。Wikipedia数据集图文配对文章数据集选取10个主要类别文本和图像分别作为两个视图。评估指标分类准确率Classification Accuracy, CA即正确分类的测试样本数占总测试样本数的比例。对比方法为了全面评估DMultiNMF作者设置了一系列有代表性的基线方法单视图方法Single View, SV在每个视图上单独运行标准NMF并分类报告最好BSV、最差WSV和平均AVG结果。这用于展示多视图融合的必要性。特征拼接Feature Concatenation, FC将所有视图的特征向量直接拼接成一个长向量然后使用标准NMF。这是最朴素的多视图处理方法。经典多视图NMFMultiNMF只考虑视图一致性约束的基准方法。鲁棒多视图NMFMultiCIM在MultiNMF基础上将重构误差度量从Frobenius范数改为CIM用于验证CIM的鲁棒性贡献。考虑局部几何的多视图NMFMultiRNMF在MultiNMF基础上加入了基于流形正则化的局部几何结构保持项用于对比局部判别对齐与一般局部结构保持的差异。DMultiNMF变体DMultiNMF-1仅包含大间隔分类损失和视图一致性不包含局部判别对齐即设 (\alpha0)。DMultiNMF-2完整的算法包含大间隔分类损失、局部判别对齐和视图一致性。4.2 核心结果与讨论实验结果清晰地支撑了DMultiNMF的设计理念。在ORL和UCI手写数字数据集上所有多视图方法的性能都显著优于最好的单视图方法BSV这证明了利用多视图互补信息的确能提升模型能力。在众多多视图方法中DMultiNMF-1和DMultiNMF-2 consistently取得了最高的分类准确率ORL上91%UCI上95%。这直接证明了引入监督信息大间隔损失对提升分类性能至关重要。更重要的是DMultiNMF-2的性能略优于DMultiNMF-1。虽然提升幅度可能不大在某些数据集上可能只有0.5%-2%但这个趋势是稳定的。这验证了局部判别对齐Discriminative Locality Alignment的有效性。它提供的细粒度类内紧致、类间疏远的约束是对全局大间隔的有益补充使得学习到的表示在局部结构上也更具判别力。在更复杂的XMedia和Wikipedia跨媒体数据集上DMultiNMF同样展现出了优势。如表3所示原文中它在文本-图像这种异构性很强的多视图任务上超越了其他基于NMF的对比算法。这说明了该算法不仅适用于同构视图如图像的不同特征也能处理异构视图的融合问题。4.3 参数敏感性分析降维后的维度 (d) 是一个关键参数。实验分析了在ORL和UCI数据集上(d) 从10变化到100时的性能。结果显示在 (d) 处于一个较宽的范围内如10到70时DMultiNMF的性能保持稳定且处于高位。当 (d) 过小10时表示能力不足当 (d) 过大70时可能会引入噪声或导致过拟合性能开始下降。这为实际应用中选择合适的降维维度提供了参考在计算资源允许的情况下可以选择性能稳定区间内较小的 (d) 以提高效率。4.4 混淆矩阵与深入洞察在UCI手写数字数据集上(d30)的混淆矩阵原文图8提供了更细致的观察。可以发现模型最容易混淆的数字对通常是形状上比较相似的例如“3”和“8”“4”和“9”。这提示我们尽管DMultiNMF增强了判别性但分类性能的上限仍然受限于原始特征的表征能力。如果两个类别在原始特征空间中就高度相似那么在低维共享表示空间中完全分离它们也会很困难。这指向了一个未来的改进方向是否可以设计更强大的视图内特征提取模块或者引入更复杂的非线性映射来进一步提升基线的可分性5. 实现要点与避坑指南如果你打算复现或应用DMultiNMF算法以下是一些从理论到实践的关键要点和常见陷阱。5.1 数据预处理与初始化归一化是关键算法要求输入数据矩阵 (X^{(v)}) 是非负的。对于图像像素值等天然非负数据没问题但对于一些可能包含负值的特征如某些SIFT或深度学习特征需要进行适当的平移如减去最小值使其非负。此外对每个样本的特征向量进行L1归一化即每列和为1是原文强调的步骤这有助于平衡不同视图、不同样本的尺度使优化过程更稳定。初始化策略(W^{(v)}), (H^{(v)}), (H^*), (\vec{w}) 通常随机初始化如从均匀分布或高斯分布中采样并取绝对值确保非负。由于问题非凸不同的初始化可能导致不同的局部最优解。一个实用的技巧是运行算法多次例如10次选择在验证集上性能最好的一次作为最终模型。也可以考虑用标准NMF或PCA的结果进行初始化可能加速收敛。5.2 参数调优经验超参数 (\lambda, \alpha, \beta, \gamma, k_1, k_2, d) 的选择直接影响性能。以下是一些经验性指导(\gamma)分类器正则化参数通常设为一个较小的固定值如0.001或0.01以防止 (\vec{w}) 过拟合。(k_1, k_2)局部近邻数。原文默认设为5。不宜过大否则会破坏“局部”性计算拉普拉斯矩阵 (L^v) 的成本也会增加。一般可在 {3, 5, 7} 中尝试。(d)潜在空间维度。根据“参数敏感性分析”的结果在计算资源允许下可以在一个较大的范围内如10到类别数的若干倍进行搜索。一个常用的启发式方法是将其设置为类别数量的5-10倍。(\lambda, \alpha, \beta)核心权衡参数。建议使用网格搜索Grid Search或随机搜索Random Search结合交叉验证来确定。(\lambda)一致性强度范围通常在 [0.1, 10] 之间。如果不同视图质量差异大可能需要为不同视图设置不同的 (\lambda_v)。(\alpha)局部判别强度范围通常在 [0.01, 1] 之间。如果数据类内方差小、类间方差大可以适当增大 (\alpha)。(\beta)分类损失强度这是最重要的参数之一范围可能在 [0.1, 100] 甚至更广。通常 (\beta) 需要设置得相对较大以确保分类目标在优化中占主导地位。可以从1开始按10的倍数进行调整。实操心得调参时建议采用“控制变量法”。先固定其他参数单独调整 (\beta)观察验证集准确率的变化找到一个使性能快速上升的平台区域。然后在此基础上微调 (\lambda) 和 (\alpha)。由于优化耗时可以先用小规模子集或减少迭代次数进行粗调确定大致范围后再在全量数据上精调。5.3 收敛性与迭代停止条件算法的外循环交替更新所有变量和内循环更新每个视图的 (W^{(v)}, H^{(v)})都需要设置停止条件。常见的有相对目标函数值变化当相邻两次迭代的目标函数值相对变化小于一个阈值如 (10^{-6}) 或 (10^{-8})时停止。最大迭代次数为防止无限循环设置一个最大迭代次数如外循环200次内循环50次。验证集性能早停在每次外循环结束后在验证集上评估分类准确率。如果连续若干次如10次迭代准确率不再提升则提前停止。这是防止过拟合的有效手段。一个常见的坑是收敛速度慢。特别是当数据维度高、样本量大时每次迭代计算拉普拉斯矩阵 (L^v) 和进行矩阵乘法的开销很大。可以考虑以下加速策略使用稀疏矩阵格式存储 (L^v)因为它由近邻图构建本是稀疏的。采用随机梯度下降SGD或小批量Mini-batch的变种来更新参数尤其适用于大规模数据。利用GPU进行矩阵运算加速。5.4 扩展到两个以上视图原文主要针对双视图进行推导和实验但算法框架本身很容易扩展到两个以上的视图。目标函数中的求和项 (\sum_{v1}^{n_v}) 本就是针对所有视图的。在实现时只需为每个视图维护其对应的 (X^{(v)}, W^{(v)}, H^{(v)}, L^{(v)})并在更新 (H^*) 时对所有视图的贡献求和即可。复杂度与视图数量 (n_v) 呈线性增长这是可接受的。6. 总结与展望判别式多视图非负矩阵分解DMultiNMF为我们提供了一个强大的框架用于从多视图数据中学习兼具一致性和判别性的共享表示。它通过将大间隔分类损失和判别性局部对齐策略巧妙地嵌入到多视图NMF的优化过程中实现了表示学习与分类任务的协同优化。相关熵诱导度量CIM的引入进一步提升了模型在噪声环境下的鲁棒性。从我个人的实现和应用经验来看DMultiNMF的核心优势在于其概念的清晰性和框架的灵活性。它将多视图学习中的几个核心诉求——重构、一致、判别、鲁棒——统一在一个简洁的数学公式里并通过高效的交替优化算法进行求解。在诸如人脸识别、跨模态检索等任务上它确实能够稳定地带来比传统方法更优的性能。当然它也有其局限性和可扩展的方向计算复杂度构建局部近邻图计算 (L^v)的复杂度是 (O(n^2))对于大规模数据集n很大可能成为瓶颈。可以考虑使用锚点图Anchor Graph或基于哈希的近似最近邻搜索来加速。线性模型目前的模型本质上是线性的基矩阵 (W^{(v)}) 是线性投影。对于具有复杂非线性结构的数据其表示能力可能受限。未来的工作可以探索核化版本Kernel DMultiNMF或结合深度神经网络来学习非线性的映射函数 (f_v(X^{(v)}) \approx W^{(v)} H^{(v)})。参数自动化超参数较多手动调参繁琐。可以研究自适应参数学习或结合贝叶斯优化等自动调参方法。不完全多视图学习现实中的数据常常存在视图缺失的情况。当前的DMultiNMF要求所有样本在所有视图上都完整。如何扩展该框架以处理不完整多视图数据是一个具有重要实际意义的方向。最后对于实践者而言我的建议是先从理解代码和复现ORL、UCI这类标准数据集上的实验开始。在成功复现基线结果后可以尝试将其应用到自己的多视图分类问题上。注意仔细处理数据预处理和参数初始化并耐心进行参数调优。这个算法像许多高级机器学习模型一样需要一些“炼丹”的功夫但一旦调优得当其回报是值得的。