目录一、前言二、什么是视频分类任务一基本定义二输入输出形式三任务特点三、视频分类 vs 图像分类四、视频数据的结构一基本结构二张量形式三关键点五、视频分类任务类型一单标签分类二多标签分类三细粒度分类四时序动作识别扩展六、视频分类任务流程一整体流程二关键步骤七、视频数据预处理一帧采样策略1、均匀采样2、随机采样3、密集采样二帧数统一三常见预处理八、视频分类主流模型一2D CNN LSTM二3D CNN三C3D四I3D五SlowFast六Transformer类模型九、视频分类常见数据集十、UCF101数据集一简介二特点三类别示例十一、HMDB51数据集一特点二类别十二、Kinetics-400 / 600 / 700一简介二特点三重要性十三、Something-Something V2一特点二示例三优势十四、数据集对比十五、视频分类评价指标一Top-1 Accuracy二Top-5 Accuracy三Mean Accuracy十六、视频分类难点一时间建模复杂二计算成本高三数据标注昂贵四背景干扰十七、视频分类应用场景一安防监控二自动驾驶三内容推荐四医疗分析十八、视频分类流程总结十九、总结一、前言在计算机视觉中视频理解是比图像理解更进一步的任务。如果说图像分类是识别“这一张图是什么”那么视频分类就是识别“一段视频在做什么”视频不再是静态信息而是空间信息每一帧画面时间信息帧与帧之间变化因此视频分类任务本质是时空联合建模问题二、什么是视频分类任务一基本定义视频分类任务是对一段视频整体进行类别预测的任务二输入输出形式输入视频连续帧输出类别标签例如视频内容类别打篮球sports做饭cooking开车driving三任务特点一个标签对应一段时序数据三、视频分类 vs 图像分类对比项图像分类视频分类输入单张图像多帧序列信息空间空间 时间难度低高模型CNN3D CNN / Transformer四、视频数据的结构一基本结构Video Frame1 Frame2 ... FrameN二张量形式常见表示(B, T, C, H, W)含义Bbatch sizeT时间帧数C通道H高度W宽度三关键点时间维度是视频任务的核心五、视频分类任务类型一单标签分类一个视频 → 一个类别例如UCF101数据集二多标签分类一个视频 → 多个动作标签例如人同时走路说话三细粒度分类相似动作区分如慢跑 vs 快跑四时序动作识别扩展检测动作发生时间段六、视频分类任务流程一整体流程视频输入 ↓ 帧采样 ↓ 特征提取 ↓ 时空建模 ↓ 分类器 ↓ 输出标签二关键步骤帧采样Sampling时空特征建模分类头七、视频数据预处理一帧采样策略1、均匀采样每隔固定帧取一帧2、随机采样用于训练增强3、密集采样用于高精度任务二帧数统一不同视频长度 → 统一T帧三常见预处理ResizeNormalizeCropFlip八、视频分类主流模型一2D CNN LSTMCNN提特征 LSTM建模时间二3D CNN直接时空卷积三C3D经典3D CNN四I3D2D CNN扩展为3D CNN五SlowFast双速率时序建模六Transformer类模型Video TransformerTimeSformer九、视频分类常见数据集十、UCF101数据集一简介最经典的视频动作识别数据集之一二特点101类动作13,000视频来自YouTube三类别示例BasketballDivingCooking十一、HMDB51数据集一特点更小但更复杂二类别51类动作人体动作更细粒度十二、Kinetics-400 / 600 / 700一简介Google推出的大规模视频数据集二特点400类别超过30万视频真实场景三重要性视频分类领域ImageNet级别数据集十三、Something-Something V2一特点强调动作与物体交互二示例“push something”“open something”三优势强时间依赖弱空间依赖十四、数据集对比数据集规模特点UCF101小基础动作HMDB51小复杂动作Kinetics大真实场景Something-Something中时序交互十五、视频分类评价指标一Top-1 AccuracyAccuracy\frac{Correct}{Total}二Top-5 Accuracy预测前5中包含正确类别三Mean Accuracy多类别平均精度十六、视频分类难点一时间建模复杂动作是连续变化的二计算成本高视频数据量巨大三数据标注昂贵需要人工标注整段视频四背景干扰复杂场景影响识别十七、视频分类应用场景一安防监控异常行为检测人群分析二自动驾驶行人行为预测车辆动作识别三内容推荐短视频标签分类内容审核四医疗分析手术动作识别十八、视频分类流程总结Video Input ↓ Frame Sampling ↓ Feature Extraction (CNN) ↓ Temporal Modeling (3D CNN / Transformer) ↓ Classification Head ↓ Output Label十九、总结视频分类任务是计算机视觉中从“图像理解”迈向“时空理解”的重要一步它需要模型同时理解空间结构与时间变化因此比图像分类复杂得多。本文系统讲解了1、视频分类任务定义2、与图像分类区别3、数据结构4、预处理流程5、主流模型6、经典数据集UCF101、HMDB51、Kinetics等7、评价指标8、应用场景9、核心挑战10、整体流程。可以将视频分类理解为“一种基于时序帧数据进行全局语义判断的视觉任务是连接图像理解与视频理解的基础核心问题。”掌握视频分类就是掌握时空视觉任务的起点。
了解视频分类任务与数据集——从数据组织到时空建模的完整认知
目录一、前言二、什么是视频分类任务一基本定义二输入输出形式三任务特点三、视频分类 vs 图像分类四、视频数据的结构一基本结构二张量形式三关键点五、视频分类任务类型一单标签分类二多标签分类三细粒度分类四时序动作识别扩展六、视频分类任务流程一整体流程二关键步骤七、视频数据预处理一帧采样策略1、均匀采样2、随机采样3、密集采样二帧数统一三常见预处理八、视频分类主流模型一2D CNN LSTM二3D CNN三C3D四I3D五SlowFast六Transformer类模型九、视频分类常见数据集十、UCF101数据集一简介二特点三类别示例十一、HMDB51数据集一特点二类别十二、Kinetics-400 / 600 / 700一简介二特点三重要性十三、Something-Something V2一特点二示例三优势十四、数据集对比十五、视频分类评价指标一Top-1 Accuracy二Top-5 Accuracy三Mean Accuracy十六、视频分类难点一时间建模复杂二计算成本高三数据标注昂贵四背景干扰十七、视频分类应用场景一安防监控二自动驾驶三内容推荐四医疗分析十八、视频分类流程总结十九、总结一、前言在计算机视觉中视频理解是比图像理解更进一步的任务。如果说图像分类是识别“这一张图是什么”那么视频分类就是识别“一段视频在做什么”视频不再是静态信息而是空间信息每一帧画面时间信息帧与帧之间变化因此视频分类任务本质是时空联合建模问题二、什么是视频分类任务一基本定义视频分类任务是对一段视频整体进行类别预测的任务二输入输出形式输入视频连续帧输出类别标签例如视频内容类别打篮球sports做饭cooking开车driving三任务特点一个标签对应一段时序数据三、视频分类 vs 图像分类对比项图像分类视频分类输入单张图像多帧序列信息空间空间 时间难度低高模型CNN3D CNN / Transformer四、视频数据的结构一基本结构Video Frame1 Frame2 ... FrameN二张量形式常见表示(B, T, C, H, W)含义Bbatch sizeT时间帧数C通道H高度W宽度三关键点时间维度是视频任务的核心五、视频分类任务类型一单标签分类一个视频 → 一个类别例如UCF101数据集二多标签分类一个视频 → 多个动作标签例如人同时走路说话三细粒度分类相似动作区分如慢跑 vs 快跑四时序动作识别扩展检测动作发生时间段六、视频分类任务流程一整体流程视频输入 ↓ 帧采样 ↓ 特征提取 ↓ 时空建模 ↓ 分类器 ↓ 输出标签二关键步骤帧采样Sampling时空特征建模分类头七、视频数据预处理一帧采样策略1、均匀采样每隔固定帧取一帧2、随机采样用于训练增强3、密集采样用于高精度任务二帧数统一不同视频长度 → 统一T帧三常见预处理ResizeNormalizeCropFlip八、视频分类主流模型一2D CNN LSTMCNN提特征 LSTM建模时间二3D CNN直接时空卷积三C3D经典3D CNN四I3D2D CNN扩展为3D CNN五SlowFast双速率时序建模六Transformer类模型Video TransformerTimeSformer九、视频分类常见数据集十、UCF101数据集一简介最经典的视频动作识别数据集之一二特点101类动作13,000视频来自YouTube三类别示例BasketballDivingCooking十一、HMDB51数据集一特点更小但更复杂二类别51类动作人体动作更细粒度十二、Kinetics-400 / 600 / 700一简介Google推出的大规模视频数据集二特点400类别超过30万视频真实场景三重要性视频分类领域ImageNet级别数据集十三、Something-Something V2一特点强调动作与物体交互二示例“push something”“open something”三优势强时间依赖弱空间依赖十四、数据集对比数据集规模特点UCF101小基础动作HMDB51小复杂动作Kinetics大真实场景Something-Something中时序交互十五、视频分类评价指标一Top-1 AccuracyAccuracy\frac{Correct}{Total}二Top-5 Accuracy预测前5中包含正确类别三Mean Accuracy多类别平均精度十六、视频分类难点一时间建模复杂动作是连续变化的二计算成本高视频数据量巨大三数据标注昂贵需要人工标注整段视频四背景干扰复杂场景影响识别十七、视频分类应用场景一安防监控异常行为检测人群分析二自动驾驶行人行为预测车辆动作识别三内容推荐短视频标签分类内容审核四医疗分析手术动作识别十八、视频分类流程总结Video Input ↓ Frame Sampling ↓ Feature Extraction (CNN) ↓ Temporal Modeling (3D CNN / Transformer) ↓ Classification Head ↓ Output Label十九、总结视频分类任务是计算机视觉中从“图像理解”迈向“时空理解”的重要一步它需要模型同时理解空间结构与时间变化因此比图像分类复杂得多。本文系统讲解了1、视频分类任务定义2、与图像分类区别3、数据结构4、预处理流程5、主流模型6、经典数据集UCF101、HMDB51、Kinetics等7、评价指标8、应用场景9、核心挑战10、整体流程。可以将视频分类理解为“一种基于时序帧数据进行全局语义判断的视觉任务是连接图像理解与视频理解的基础核心问题。”掌握视频分类就是掌握时空视觉任务的起点。