InternVideo 论文笔记

Author: Sijin Yu

1

1. Information

标题: InternVideo: General Video Foundation Models via Generative and Discriminative Learning

arXiv URL: https://arxiv.org/abs/2212.03191

code: https://github.com/OpenGVLab/InternVideo

发布时间: 2022 年 12 月

2. Abstract

3. Model

3.1 Overview

2

3.2 Masked Video Encoder

3

3.3 Multimodal Video Encoder

4

3.4 Cross Model Attention

5

3.5 预训练超参数设置

下图: 预训练的超参数设置.

6

下图: 预训练使用的数据集和采样设置.

7

4. Experiment & Result

4.1 与 SOTA 的对比

下图: [Action Recongition 动作识别] 在 K400/600/700 上的对比.

8

下图: [Action Recongition 动作识别] 在 SSV1/V2, ActivityNet, HACS, HMDB51 上的对比.

9

下图: [Temporal Action Localization 时间动作定位] 在 THUMOS-14, Activitynet-v1.3, HACS, FineAction 上的对比.

10

下图: [Spatiotemporal Action Localization 时空动作定位] 在 AVA2.2, AVA-Kinetics 上的对比.

11

下图: [Video Retrieval 视频检索] 在 MSR-VTT, MSVD, LSMDC, ActivityNet, DiDeMo, VATEX 上的对比.

12

下图: [Video Question Answering 视频问答] 在 MSRVTT, MSVD, TGIF 上的对比.

13

原文还做了不少其它的下游任务, 此处略.

下图: InternVideo 在多个下游任务、多个数据集上均达到了 SOTA.

14

5. Conclusion

主要贡献: