📄 论文:StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding🏛️ 机构:清华大学计算机系 人工智能研究院(AIR)、北京邮电大学👥 作者:Junming Lin, Zheng Fang, Chi Chen, Zihao Wan, Fuwen Luo, Peng Li, Yang Liu, Maosong Sun🔗 代码与数据:https://github.com/THUNLP-MT/StreamingBench📅 发布:2024年11月(arXiv: 2411.03628)一、引言:为什么需要「流式视频理解」?当前多模态大模型(MLLMs)在视频理解方面取得了长足进步,GPT-4o、Gemini 1.5 Pro 等模型在多个离线视频基准上已展现出色表现。然而,人类观看视频的方式从来不是「先看完再提问」——我们是一边看、一边听、一边想、一边回应的。这就是流式视频理解(Streaming Video Understanding)的核心差异:特征离线视频理解流式视频理解
【论文解读】StreamingBench:首个流式视频理解基准——多模态大模型离人类实时感知还有多远?
📄 论文:StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding🏛️ 机构:清华大学计算机系 人工智能研究院(AIR)、北京邮电大学👥 作者:Junming Lin, Zheng Fang, Chi Chen, Zihao Wan, Fuwen Luo, Peng Li, Yang Liu, Maosong Sun🔗 代码与数据:https://github.com/THUNLP-MT/StreamingBench📅 发布:2024年11月(arXiv: 2411.03628)一、引言:为什么需要「流式视频理解」?当前多模态大模型(MLLMs)在视频理解方面取得了长足进步,GPT-4o、Gemini 1.5 Pro 等模型在多个离线视频基准上已展现出色表现。然而,人类观看视频的方式从来不是「先看完再提问」——我们是一边看、一边听、一边想、一边回应的。这就是流式视频理解(Streaming Video Understanding)的核心差异:特征离线视频理解流式视频理解