M4-SAM:记忆增强SAM,RGB-D视频显著性检测SOTA

M4-SAM:记忆增强SAM,RGB-D视频显著性检测SOTA M4-SAM记忆增强SAMRGB-D视频显著性检测SOTA 本文定位核心模块原理科普 | 面向想了解技术但还没读论文的人 3 分钟看懂 M4-SAM 如何让 SAM2 支持 RGB-D 视频显著性检测1. 痛点为什么 SAM2 做不好 RGB-D 视频Segment Anything Model 2 (SAM2) 虽然强大但在处理 RGB-D 视频时存在三个关键痛点LoRA 太平均标准 LoRA 只能调整全局权重无法捕捉图像的局部空间结构多层级浪费SAM2 有很多层级的特征但之前没人能好好利用需要提示每一帧都要人工标注没法自动化2. M4-SAM 的绝招MoE 记忆M4-SAM 提出了Modality-Aware MoE-LoRA把 LoRA 的单打独斗变成了专家团战。原理MoE-LoRA 的每一路分支对应一个专门的专家——有 3x3 卷积专家、5x3 卷积专家、高效深度可分离卷积专家。输入特征会动态选择最合适的专家来处理。三种专家各司其职3x3 卷积专家捕捉小范围的空间细节5x5 卷积专家捕捉更大范围的上下文信息深度可分离卷积专家用更少的计算量完成特征提取同时M4-SAM 还引入了Prompt-Free Memory Initialization让模型不需要人工提示就能自动记住视频中的目标实现连续跟踪和分割。3. 效果RGB-D 视频 SOD 七基准全面 SOTAM4-SAM 在 DAVIS-RGBD、VSOD、Visal 等多个 RGB-D 视频显著性检测基准上全面超越现有方法。 想看完整论文解读M4-SAM多模态MoE记忆增强SAMRGB-D视频显著性检测SOTA