Mixture of Experts as Representation Learner for Deep Multi-View Clustering

Mixture of Experts as Representation Learner for Deep Multi-View Clustering 专家混合模型作为深度多视角聚类的表征学习——失策了对专家混合模型不感兴趣等等后面发现这个好像不是传统的专家混合模型摘要当前方法中要么是针对每个视图提取特征要么是对所有视图用统一的特征。本文提出一种专家混合框架。引入了一个门控网络该网络可以动态地为每个数据样本选择多个专家来进行处理从而从不同视图中捕获多样且互补的信息。为了保持专家的多样性还加入了一个均衡损失防止依赖一个专家。——如何让视图之间协作又保留视图自己的特定信息本文采用多个专家网络来实现。1、引言现有方法强调可靠的融合机制但还是采用传统的比较分离的方式。比如每个视图先单独提取特征再考虑融合限制了多个视图的协作和相关性利用。如果用共享组件又会忽略视图的独特信息。所以关键问题在于如何在保留视图特定表示独特性的同时促进多个骨干网络之间的协作从而实现有效的多视图聚类本文提出不同于提取和融合分离这个过程可以被统一起来利用专家混合模型MoE引入多个专家网络来融合多视图数据的特征。可以理解成“动态共享的多编码器系统”不是为每个视图准备一个专家而是准备一组专家针对不同的视图或者样本可以选择不同的专家组合。不同的视图可以用相同的专家实现一致性协同也可以有自己的专家保持独立性。选择top K是为了减少冗余。两个潜在风险第一某些专家被过度依赖第二不同的专家可能会收敛到相同函数相当于塌缩成一个相同的专家了。所以引入了一个均衡损失以确保专家参与的均衡性。并设计一个差异性增强器。——有点像防塌缩项。1、引入专家混合系统框架2、设计均衡损失3、设计差异化增强器2、相关工作2.1 多视图聚类2.2 专家混合模型一种机器学习范式将一个任务拆解为多个子模型也就是专家来解决问题。两个典型现代应用NLP 里的 Switch Transformer每个 token 只激活部分专家。这个思想可以减少每次前向传播的计算量同时扩大模型总参数规模。CV 里的图像分类和视频识别不同专家可以关注不同视觉模式、区域或特征。3、本文方法3.1 问题定义总的来说本文提出方法的整体损失函数为前者是不同视图的表示学习损失确保学习到的信息是完整的后者是MoE表示学习器对应的损失函数。——各视图重构损失和专家相关损失。