🎬 视频理解与行为识别全景综述
(Video Understanding and Action Recognition — Обзор технологий распознавания действий в видео)
📖 简介 / Introduction / Введение
中文
视频理解 (Video Understanding) 是计算机视觉的重要方向之一,核心任务包括 动作识别 (Action Recognition)、时序动作检测 (Temporal Action Detection)、时空动作检测 (Spatio-temporal Action Detection),以及基于 骨架的动作识别 (Skeleton-based Action Recognition)。这些技术广泛应用于 智能监控、体育分析、自动驾驶、人机交互 等场景。
开源框架 MMAction2 提供了丰富的模型库与训练工具,是研究者与工程师的重要工具。English
Video understanding is a crucial field in computer vision, covering action recognition, temporal action detection, spatio-temporal action detection, and skeleton-based action recognition. These tasks are widely applied in intelligent surveillance, sports analytics, autonomous driving, and human-computer interaction. The open-source framework MMAction2 provides a comprehensive toolbox for researchers and engineers.Русский
Понимание видео (Video Understanding) — одно из ключевых направлений компьютерного зрения. Основные задачи включают распознавание действий (Action Recognition), временную детекцию действий (Temporal Action Detection), пространственно-временную детекцию действий (Spatio-temporal Action Detection) и распознавание действий по скелету (Skeleton-based Action Recognition). Эти технологии применяются в умном видеонаблюдении, спортивной аналитике, автономном вождении и HCI. Фреймворк с открытым исходным кодом MMAction2 предлагает широкий набор моделей и инструментов.
🧩 任务分类与关系
(Task Taxonomy and Relationships — Классификация и взаимосвязь задач)
任务 | 中文 | English | Русский | 输入 | 输出 | 难度 | 应用 |
---|---|---|---|---|---|---|---|
动作识别 | 动作/行为分类 | Action Recognition | Распознавание действий | 视频片段 | 动作类别 | ⭐ | 体育动作分类、短视频推荐 |
时序动作检测 | 时间定位 | Temporal Action Detection | Временная детекция действий | 长视频 | 类别 + 时间边界 | ⭐⭐⭐ | 监控、长视频分析 |
时空动作检测 | 时间+空间定位 | Spatio-temporal Action Detection | Пространственно-временная детекция | 视频流 | 类别 + 时间边界 + 空间位置 | ⭐⭐⭐⭐ | 自动驾驶、安防监控 |
骨架动作识别 | 基于人体关键点 | Skeleton-based Action Recognition | Распознавание действий по скелету | 骨架序列 | 类别/时间/空间 | 依任务 | 健身、康复、VR/AR |
🔥 动作识别模型 (Action Recognition Models / Модели распознавания действий)
经典 3D CNN 方法
- C3D: 最早的 3D 卷积方法,直接在空间+时间上卷积。
- I3D (Inflated 3D ConvNet): 从 2D CNN 扩展为 3D CNN,支持利用 ImageNet 预训练。
轻量高效方法
- TSN (Temporal Segment Network): 抽取关键帧做分类,速度快。
- TSM (Temporal Shift Module): 在 2D CNN 中引入时序建模,适合移动端。
- X3D: 模型逐步扩展,兼顾精度与速度。
高性能主流方法
- SlowFast: 慢分支提取语义,快分支捕捉运动,多数 benchmark SOTA。
- R(2+1)D: 把 3D 卷积分解为 2D + 1D,提高效率。
基于 Transformer 的新一代方法
- TimeSformer: 纯 Transformer 视频识别。
- Video Swin Transformer: 分层结构,SOTA。
应用场景: 短视频分类、体育视频分析、实时监控。
⏳ 时序动作检测模型 (Temporal Action Detection Models / Временная детекция действий)
- BSN (Boundary Sensitive Network): 预测边界概率,生成候选动作区间。
- BMN (Boundary Matching Network): 改进版,密集匹配候选区间。
- SSN (Structured Segment Network): 强调动作的“起始-中间-结束”阶段。
- TAL-Net: 借鉴 Faster R-CNN 思路,把检测思想迁移到时间维度。
- ActionFormer: 基于 Transformer 的端到端模型,当前主流。
应用场景: 长时监控视频分析、运动训练过程分段、影视视频结构化。
🕹️ 时空动作检测模型 (Spatio-temporal Action Detection Models / Пространственно-временная детекция действий)
- AVA Baseline: 基于 Faster R-CNN,对视频帧进行目标检测 + 动作分类。
- SlowFast R-CNN: 在 SlowFast backbone 上加检测 head,SOTA。
- ACRN (Actor-Conditioned Relation Network): 建模人和环境的交互关系。
- LFB (Long-term Feature Bank): 引入长期记忆特征库,提升复杂场景性能。
应用场景: 多人行为识别、安防监控、自动驾驶中的行人意图预测。
🦴 骨架动作识别模型 (Skeleton-based Models / Распознавание действий по скелету)
- ST-GCN (Spatio-Temporal GCN): 把骨架关节序列建成图,用 GCN 建模。
- 2s-AGCN (Two-stream Adaptive GCN): 自适应学习图结构。
- CTR-GCN: 更灵活的拓扑学习方法,SOTA。
优势:
- 对光照、背景、外观变化鲁棒。
- 数据维度小,计算效率高。
应用场景: 健身姿态矫正、康复医疗、VR/AR 人机交互。
🌐 总体总结 (Overall Summary / Итоговое резюме)
- 中文: 动作识别是视频理解的基础任务,时序检测和时空检测是其扩展。骨架动作识别是输入模态上的增强。MMAction2 提供了从经典到 SOTA 的全套模型实现。
- English: Action recognition is the foundation of video understanding. Temporal and spatio-temporal detection extend it in time and space. Skeleton-based recognition provides a complementary modality. MMAction2 offers a full spectrum of models, from classical baselines to SOTA methods.
- Русский: Распознавание действий — это базовая задача понимания видео. Временная и пространственно-временная детекция расширяют её во времени и пространстве. Методы по скелету дают дополнительную модальность. MMAction2 включает широкий спектр моделей — от классических до лучших современных решений.