Cloud-Device Collaborative Learning for Multimodal Large Language Models-尧图企业网站定制

Cloud-Device Collaborative Learning for Multimodal Large Language Models大规模 MLLMs 多模态大型语言模型在客户端设备上的部署受到其海量模型参数的限制 —— 当为设备部署而压缩模型时模型的泛化能力会显著下降。为应对这一挑战我们提出了云 - 设备协同持续适配框架旨在通过利用基于云端的更大规模 MLLMs 的强大能力提升压缩后部署在设备端的 MLLMs 的性能。框架包含三个核心组件用于高效数据传输的设备到云端上行链路、基于云端的知识适配模块以及优化的云端到设备下行链路用于模型部署。在上行阶段我们采用不确定性引导的标记采样UTS策略有效过滤分布外标记从而降低传输成本并提升训练效率。在云端我们提出基于适配器的知识蒸馏AKD方法将精炼知识从大规模 MLLMs 迁移至压缩的轻量级 MLLMs。此外针对下行链路我们提出动态权重更新压缩DWC策略通过自适应选择和量化更新的权重参数提升传输效率并缩小云端与设备端模型的表征差异。由于参数规模庞大MLLMs 通常部署在云服务器上表现出强大的泛化能力。然而其大规模参数使得直接在设备端部署 MLLMs 极具挑战性这也限制了它们的实际应用。鉴于客户端设备资源有限MLLMs 需要压缩后才能部署到设备端。当测试数据分布与训练数据分布高度匹配时压缩后的 MLLMs 确实表现出色。但这一假设在现实场景中面临重大挑战因为现实环境是非静态的分布偏移现象普遍存在 [4,5]。当面对动态分布偏移时小型 MLLMs 容易出现严重的性能退化 [5-7]。这主要存在两个挑战1边缘设备的计算能力有限阻碍了及时进行模型更新的能力导致在遇到分布偏移时性能下降。2压缩模型的容量相对较小难以适应不断变化的环境导致泛化能力不足。为了使设备端模型在动态环境中具备更强的能力我们提出了云 - 设备协同持续适配CD-CCA框架如图 1 所示。我们的核心思路是利用云端大型 MLLMs 来提升部署在设备端的压缩小型 MLLMs 的泛化能力。在不影响设备端模型效率的前提下增强其泛化能力我们提出了一种新的学习范式云 - 设备协同持续适配。该范式包含三个关键组件设备到云端的上行链路、云端知识更新和云端到设备的下行链路。为了使部署在设备端的 MLLM 具备动态参数更新能力我们设计了一条设备到云端的上行链路用于传输设备端生成的不确定性标记。具体而言我们提出了一种从粗到细的标记过滤方法即不确定性引导标记采样UTS策略以最小化上行传输成本。我们首先利用样本级不确定性从目标分布数据中识别并过滤出极端情况样本随后采用标记级不确定性进行二次过滤分离出分布外标记。这种方法有助于缓解网络传输带宽限制并提高云服务器上的训练效率。在云端我们开发了一种专门为 MLLMs 设计的新型基于适配器的知识蒸馏AKD方法。AKD 的目的是将原始大型 MLLMs 的暗知识迁移到压缩的轻量级 MLLMs 中。/MLLMs 通常由三个主要组件组成视觉编码器、大型语言模型LLM[8]以及融合高层视觉和语言上下文的跨模态转换器 [2,3,9]。因此我们的方法首先聚焦于对跨模态转换器的可学习查询适配器进行知识蒸馏KD以增强小型 MLLMs 的视觉到文本对齐能力。同时由于 LLM 在 MLLM 中占据了大部分参数压缩模型的主要目标是减少 LLM 的参数。因此我们进一步对插入到 LLM 中的可学习语言适配器进行 KD以增强学生 MLLMs 的语言交互和推理能力。此外考虑到边缘设备的计算能力各异我们对设备端 MLLMs 的动态更新权重参数采用自适应量化和压缩技术。这些压缩后的权重参数随后通过下行链路传输到设备端缩小了设备端和云端 MLLMs 之间的表征差距。我们在两个跨域视觉推理基准上进行了广泛实验一个是从 VQA-v2 [10] 到 A-OKVQA [11]另一个是从 COCO Captions 2017 [12] 到 nocaps [13]。我们提出的框架相比以往方法取得了更优的性能。此外对于上行链路我们在保持性能的同时将传输成本与传输整个数据集相比分别降低到了 4.71% 和 20.6%。对于下行链路我们能够以几乎可忽略的传输成本将压缩的动态更新权重参数交付到设备端在域偏移的 VQA 任务和图像描述任务中分别实现了 3.93% 和 2.20% 的性能提升。我们的贡献可总结如下我们引入了 CD-CCA 框架该框架通过持续利用云端大型 MLLMs 来增强设备端压缩小型 MLLMs 的泛化能力。对于设备到云端的上行链路我们提出了 UTS 策略用于在设备到云端的数据传输过程中过滤分布外标记。在云端我们引入了 AKD 方法以促进原始大型 MLLMs 的暗知识向压缩轻量级 MLLMs 的迁移。对于云端到设备的下行链路我们提出了一种动态权重更新压缩方法显著提高了云端到设备的更新权重传输效率为云 - 设备协同学习范式的应用奠定了实际基础。大量实验表明CD-CCA 优于以往方法有效增强了设备端压缩 MLLMs 的持续域适应能力。此外我们通过实际场景实验验证了该方法的可行性。CD-CCA 框架通过整合云端计算能力与边缘设备的灵活操作性形成了一种新型范式。该框架的动态适应性可通过以下优化过程简洁概括其中M′表示优化后部署回边缘设备的模型D为多模态实例数据集U代表用于提升上行效率的 UTS 策略K为云端的 AKD 过程C表示用于下行传输的动态权重更新压缩DWC策略。框架首先通过 UTS 策略对多模态数据进行筛选仅选择最关键的标记上传至云端进行优化 —— 这种选择性过滤既能保留需要云端处理的数据本质又能节省带宽并降低上行延迟。随后云端利用 AKD 技术将大型教师模型的丰富知识蒸馏并迁移至轻量级学生模型该过程针对多模态数据的学习特性进行了精细调整确保学生模型获得更强的泛化能力。框架的最后一环是 DWC 策略其在下行传输前对更新的模型参数进行动态量化与压缩显著缓解了设备端模型更新的延迟问题确保更新后的智能能及时交付维持设备应用所需的实时响应能力。不确定性引导的 token 采样UTSCD - CCA 框架中的 UTS 组件充当了一种智能过滤机制能够识别并优先处理要传输的多模态实例。其依据在于并非每个实例对模型学习的贡献都是相同的有些实例可能对模型适配更为关键。在 UTS 的第一阶段部署在边缘设备上的参数为 Θ 的 MLLM 会处理多模态实例((v_i, t_i) \in D)并按照以下方式评估其预测不确定性U公式 2 计算的是预测 token 概率的熵以此作为给定实例不确定性的度量。不确定性高的实例会被标记为需要进一步分析的候选实例。在接下来的阶段我们提出了方差信息采样VIS技术作为对预先选择的实例进行进一步筛选的细化步骤。VIS 对编码后的多模态输入张量应用蒙特卡洛 dropout 方法通过多次前向传播得出方差度量以此识别这些实例中哪些 token 在其表示上呈现出显著的变异性方差(\sigma^2)超过预定义阈值(\beta)的 token 会被保留这样就能确保只有信息最丰富的 token 才会被考虑进行云端处理如公式 4 所示通过实施这种两阶段的方法UTS 极大地减少了上行传输所需的数据量进而优化了带宽使用并最大限度地降低了延迟。特别是 VIS通过确保模型的改进是由那些最有可能推动其学习进展的数据点驱动的体现了 CD - CCA 框架中目标明确且高效的学习本质。基于适配器的知识蒸馏AKDAKD 策略借助云端资源丰富的计算能力来提升部署在设备上的 MLLM 的性能。在这个过程中一个高容量的教师 MLLM 和一个结构相同的学生 MLLM 会共存于云端进行有针对性的知识传递。这种知识交换是通过适配器来实现的适配器是一种辅助线性层它只需向模型引入极少的参数就能为模型更新提供重要途径。在 AKD 阶段我们着重对学生模型(M_{student})进行微调使其能够掌握教师模型(M_{teacher})所展现出的高级多模态理解能力。具体而言适配器被用于微调查询表示和跨注意力输出这两者对于处理和整合多模态信息至关重要。这些适配器就像是有针对性的修改模块使学生模型的潜在空间与教师模型的精细特征空间保持一致从而有效地将教师模型的大量知识压缩到学生模型更简洁的结构中。这种细粒度的蒸馏过程是通过适配器来实现的这些适配器被战略性地放置在适当位置用于拦截和转换查询向量以及由注意力介导的多模态表示。通过这种方式适配器使知识能够直接从教师模型丰富的特征空间流向学生模型的对应层确保关键的多模态洞察得以保留。这种基于适配器的微调的有效性是通过一个复合损失函数来衡量的该损失函数包括查询对齐损失(L_{query})将学生模型和教师模型的查询表示之间的差异降至最低以此确保学生模型能够生成像教师模型一样有效包含多模态数据复杂性的查询。通常(Q^{(t)} \in \mathbb{R}^{B \times L \times C})和(Q^{(s)} \in \mathbb{R}^{B \times L \times C_s})分别表示教师和学生查询的特征映射查询对齐模仿可以通过以下方式实现(\phi)是一个线性投影层用于使(Q{(s)})适应与(Q{(t)})相同的通道数。表示对齐损失(L_{repr})旨在使学生模型和教师模型之间由注意力驱动的多模态表示同步增强学生模型处理和整合多模态线索的能力。交叉熵损失(L_{CE})利用教师模型在具有挑战性的多模态实例上的输出这些实例是在经过 UTS 处理后通过上行链路识别并传输的作为伪标签。这些标签用于校准学生模型的参数更新增强其处理多模态数据中固有复杂性的能力。蒸馏过程会对这些损失组件的加权和进行优化并仔细调整权重以在模仿教师模型的输出和保持学生模型的固有特性之间实现和谐平衡动态权重更新压缩DWCDWC 是 CD-CCA 框架的核心支柱之一旨在解决模型更新从云端到设备的传输效率问题。它通过引入基于量化的模型参数压缩机制专门应对部署在设备端的 MLLM 在更新时面临的带宽限制和延迟挑战。DWC 的运作基于这样一个前提高效的模型更新不仅取决于传输的数据量还与更新参数的重要性相关。这促使我们开发了一种量化方案该方案有选择地针对 AKD 阶段优化的参数进行处理在不损害模型性能完整性的前提下优化更新负载以提升传输效率。DWC 过程可通过以下量化操作形式化表示(\Theta_{\text{updated}})表示 AKD 后的参数(\Theta_{\text{base}})为更新前的基线参数Q是量化函数用于将参数自适应映射为紧凑的低位表示。该函数经过精心校准以确保保留最关键的更新同时减小整体更新规模。量化过程对影响较小的参数策略性地应用更高的压缩比同时保持重要更新的保真度边缘设备接收(\Theta_{\text{compressed}})后直接将这些更新集成到 MLLM 中。这种直接集成无需反量化因为设备端 MLLM 可在量化参数空间内有效运行体现了通过云端蒸馏学习到的精细化改进。因此DWC 为设备计算环境中的模型更新提供了一种实用且可扩展的方法其中传输开销是关键问题。通过实现更小但更有效的更新DWC 确保设备端 MLLM 能够持续演进并适应新数据而无需承受大规模模型再训练或全模型更新通常带来的延迟。该策略概括了边缘设备和云服务的共同努力以无缝高效地持续增强 MLLM。优化围绕两个关键方面展开边缘设备执行 UTS 以识别并向云端转发具有挑战性的多模态实例而云端则通过 AKD 和 DWC 分别优化和压缩参数更新。这一过程的最终结果是将压缩后的更新应用于设备端 MLLM确保其以最小的传输开销保持高效和最新状态。用参数(\Theta_{\text{edge}})初始化边缘模型(M_{\text{edge}})2: 在云端部署教师模型(M_{\text{teacher}})和学生模型(M_{\text{student}})3: 定义 UTS、AKD 和 DWC 流程4: 重复以下步骤5: 边缘设备执行推理和 UTS识别高不确定性实例6: 将选定实例传输至云端7: 云端执行 AKD利用(M_{\text{teacher}})优化(M_{\text{student}})8: 使用 DWC 压缩更新后的参数(\Theta_{\text{updated}})得到(\Theta_{\text{compressed}})9: 将(\Theta_{\text{compressed}})传输回设备10: 用(\Theta_{\text{compressed}})更新(M_{\text{edge}})11: 直到收敛或完成预定义的循环次数数据集为验证所提出的 CD-CCA 框架在语言域偏移分布场景下对多模态大语言模型MLLM持续泛化能力的提升我们基于两组数据集开展实验VQA-v2 [10] 与 A-OKVQA [11]以及 COCO Caption 2017 [12] 与 Nocaps [13]。评估指标为对比 CD-CCA 与其他 SOTA 领域自适应方法在 MLLM 持续泛化能力上的表现统一采用 VQA 准确率、BLeU-4 和 CIDEr 分数作为评估指标。此外在真实环境验证中我们进一步计算 CD-CCA 框架上下行传输的参数数量、数据大小以及云 - 设备传输延迟TD。实现细节实验中云端采用基于 LLaMA2-13B [8] 的 LLaMA-Adapter [32] 作为大型教师 MLLM设备端采用基于 LLaMA2-7B [8] 的 LLaMA-Adapter [32] 作为小型学生 MLLM与设备模型一致。为进一步减少设备端模型参数我们将学生 MLLM 的 Q-former [33] 隐藏层数从 12 层减至 6 层。上述 MLLM 首先在大规模图像 - 文本对数据集COYO [34]、LAION [35]、CC3M [36]、CC12M [37]、SBU [38]上进行预训练随后使用来自 GPT4-LLM [39] 的 5.2 万条单轮指令数据和 COCO Caption [12] 的 56.7 万条字幕数据进行微调。对于云端和设备端模型微调过程中仅更新 LLaMA 归一化层、线性层偏置、LoRA [40] 参数及 Q-Former [33] 中的查询标记其余参数保持冻结。在具体实验中我们进一步在上述数据集上对 MLLM 进行针对性微调。4.2 对比分析本小节将 CD-CCA 与现有 SOTA 领域自适应方法 [4,5,41,42] 进行对比实验Tent [4] 通过最小化熵来更新批量归一化层中的可训练参数以适应测试数据。Cotta [5] 采用权重平均和增强平均预测来减少伪标签中的误差累积并利用随机恢复防止灾难性遗忘。PKD [41] 基于皮尔逊相关系数进行特征模仿放宽对特征幅度的约束专注于教师模型的关系信息。ChannelWiseDivergence [42] 对各通道的激活图进行归一化生成两个网络的软概率图并最小化通道概率图之间的 KL 散度。所有实验均基于 LLaMA-Adapter [32] 作为基础 MLLM 展开语言域偏移场景下的持续泛化能力验证使用 VQAv2 到 A-OKVQA 数据集进行评估。具体流程为首先用 VQA-v2 [10] 微调预训练的 MLLMLLaMA-Adapter 7B/13B然后在 A-OKVQA [11] 上评估不同条件多选题MC与直接回答DA下的 VQA 准确率结果记录于表 1 和图 3。在 VQA 任务中CD-CCA 框架在单轮场景下的 MC 和 DA 问题中均超越对比模型的最高准确率。值得注意的是部分传统方法如 CoTTA 和 Tent因未专门针对 MLLM 设计随模型参数规模增大出现性能下降。相比之下CD-CCA 在 MC 和 DA 问题上的平均准确率分别比最优对比模型高 3.64% 和 3.19%显著证明其在数据分布动态变化时的高鲁棒性。图 4 以可视化形式展示了框架在多模态理解任务中的实验结果。跨数据集字幕生成能力验证使用 COCO 到 Nocaps 数据集进行评估。首先用 COCO Captions 2017 [12] 微调预训练的 LLaMA-Adapter7B/13B然后在 Nocaps [13] 上评估视觉字幕生成结果BLeU4、CIDEr结果记录于表 2。根据训练 - 测试图像类别的重叠程度参考 [13] 将测试图像分为域内、近域和域外三类。在图像字幕任务中CD-CCA 在所有场景下均显著优于对比方法域内和近域任务中BLeU 分数分别提升 1.22% 和 0.59%CIDEr 分数分别提升 0.6% 和 0.46%域外任务中优势更显著BLeU 和 CIDEr 分别提升 1.84% 和 3.98%。这表明 CD-CCA 具备强大的泛化能力能有效帮助模型从图像中提取内在知识并迁移到新任务。.3 消融实验本部分通过拆解 CD-CCA 框架的关键组件系统分析各模块对整体性能的贡献UTS 策略有效性UTS 在保持性能的同时显著降低传输成本。如表 5 所示与传输完整数据集相比仅需 0.21% 的传输数据量和 0.20% 的传输延迟即可达到相同性能。不同掩码率下的 VQA 实验表明掩码率为 50% 时模型性能最佳MC 和 DA 准确率分别提升 3.06% 和 0.65%。UTS 两阶段联合使用时MC 和 DA 问题准确率分别提升 5.24% 和 3.50%验证了各阶段的协同增益。AKD 云 - 设备联合优化有效性相比纯伪标签方法AKD 在 VQA 任务中使 MC 和 DA 准确率分别提升 2.53% 和 3.34%结合其他模块后性能进一步稳定提升。AKD 通过适配器实现教师 - 学生模型的定向知识迁移显著增强学生模型的泛化能力。DWC 压缩有效性DWC 通过量化压缩模型参数确保设备端仅更新关键参数。如表 5 所示与未压缩场景相比传输至设备的模型权重参数数量、数据量和传输延迟分别减少 99.98%、99.99% 和 99.98%有效保障设备参数的实时更新。4.4 真实环境验证和 3.34%结合其他模块后性能进一步稳定提升。AKD 通过适配器实现教师 - 学生模型的定向知识迁移显著增强学生模型的泛化能力。3.DWC 压缩有效性DWC 通过量化压缩模型参数确保设备端仅更新关键参数。如表 5 所示与未压缩场景相比传输至设备的模型权重参数数量、数据量和传输延迟分别减少 99.98%、99.99% 和 99.98%有效保障设备参数的实时更新。4.4 真实环境验证实验采用符合 802.11acWi-Fi 5标准的千兆以太网理论峰值 1000Mbps作为实际网络环境使用 Realsense D435i 作为设备端图像采集设备分辨率 1920×1080。真实机实验验证了 CD-CCA 的有效性表 5 记录了双向传输参数大小P、传输数据量D和传输延迟TL。

相关新闻

Heavy Fighter动画包：Unity战斗系统根运动与状态机深度解析

Unity Addressable热更新深度整合实战指南

Unity编辑器资源创建性能优化：从Prefab到场景的序列化治理

SQL注入原理与sqlmap实战：从手工验证到自动化渗透

企业数字化破局：AI低代码为何是唯一刚需？

逻辑流中，判断操作符NULLOREMPTY的限制

空洞骑士模组管理器Scarab：高效管理你的游戏模组世界

Unity集成DeepSeek实现流式AI对话的工程实践

DLSS版本管理器：3分钟学会游戏性能优化技巧

状态机——SpringStateMachine嵌套状态流转

终极Windows 11优化指南：如何用开源工具彻底清理系统冗余

利用TaoToken模型广场为不同文本处理任务选择性价比最优模型

基于CircuitPython与运动传感器的智能LED滑雪板灯光系统全解析

app扫描wifi的时候需要打开GPS定位----否则扫不到

使用辅助权限登录wifi

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感