快慢结合效果好：FAIR何恺明等人提出视频识别SlowFast网络

栏目: R语言 · 发布时间: 7年前

内容简介：在图像识别中对称地处理图像 I(x, y) 中的空间维度 x、y 是约定俗成的做法，自然图像的统计数据证明了其合理性。自然图像在第一次近似时具备各向同性（所有方向具有相同的可能性）和平移不变性 [38, 23]。那么视频信号 I(x, y, t) 呢？动作是方向的时空对应 [1]，但并非所有的时空方向都拥有相同的可能性。慢动作比快动作的可能性大（确实，我们所看到的世界在给定的时刻大多是静止的），这已经在使用贝叶斯模型描述人类如何感知运动刺激中得到利用 [51]。例如，如果我们看到一个孤立的移动边缘，我们认

在图像识别中对称地处理图像 I(x, y) 中的空间维度 x、y 是约定俗成的做法，自然图像的统计数据证明了其合理性。自然图像在第一次近似时具备各向同性（所有方向具有相同的可能性）和平移不变性 [38, 23]。那么视频信号 I(x, y, t) 呢？动作是方向的时空对应 [1]，但并非所有的时空方向都拥有相同的可能性。慢动作比快动作的可能性大（确实，我们所看到的世界在给定的时刻大多是静止的），这已经在使用贝叶斯模型描述人类如何感知运动刺激中得到利用 [51]。例如，如果我们看到一个孤立的移动边缘，我们认为它垂直于自身移动，尽管原则上它也可能有一个与自身相切的任意移动组件（光流中的孔径问题）。如果前者倾向于慢动作，这种感知就是合理的。

如果并非所有的时空方向都拥有相同的可能性，那么我们就没有理由像基于时空卷积的视频识别方法 [44, 3] 那样，对称地看待空间和时间。相反，我们需要「分解」该架构，分开处理空间结构和时间事件。将这一想法放到识别的语境中。视觉内容的类别空间语义变化通常非常缓慢。例如，挥手并不会在这个动作进行期间改变「手」的识别结果，某个人始终在「人」这一类别下，即使他/她从走路切换到跑步。因此类别语义（及其色彩、纹理和光线等）的识别可以以比较慢的速度进行刷新。另一方面，执行动作可以比其主体识别变化速度快得多，如鼓掌、挥手、摇头、走路或跳跃。需要使用快速刷新帧（高时间分辨率）来有效建模可能快速变化的运动。

基于这种直觉，本研究展示了一种用于视频识别的双路径 SlowFast 模型（见图 1）。其中一个路径旨在捕获图像或几个稀疏帧提供的语义信息，它以低帧率运行，刷新速度缓慢。而另一个路径用于捕获快速变化的动作，它的刷新速度快、时间分辨率高。尽管如此，该路径的体量却非常轻，例如，只占总计算开销的 20% 左右。这是因为第二个路径通道较少，处理空间信息的能力较差，但这些信息可以由第一个路径以一种不那么冗余的方式来提供。根据二者不同的时间速度，研究者将其分别命名为 Slow 路径和 Fast 路径。二者通过侧连接（lateral connection）进行融合。

这一概念为视频模型带来了灵活、高效的设计。由于自身较轻，Fast 路径不需要执行任何时间池化——它能以高帧率在所有中间层运行，并保持时间保真度。同时，由于时间速率较低，Slow 路径可以更加关注空间域和语义。通过以不同的时间速率处理原始视频，该方法允许两种路径以其特有的方式对视频建模。研究者在 Kinetics [27, 2] 和 AVA [17] 数据集上对该方法进行了全面评估。在 Kinetics 动作分类数据集上，该方法在没有任何预训练（如 ImageNet）的情况下达到了 79% 的准确率，大大超过了文献中的最佳水平（超出 5.1%）。控制变量实验证明了 SlowFast 概念带来的改进。在 AVA 动作检测数据集上，SlowFast 模型达到了新的当前最佳水平，即 28.3% mAP。

该方法部分受到灵长类视觉系统中视网膜神经节细胞的生物学研究启发 [24, 34, 6, 11, 46]，尽管这种类比有些粗糙、不成熟。研究发现，在这些细胞中，~80% 是小细胞（P-cell），~15-20% 是大细胞（M-cell）。M-cell 以较高的时间频率工作，对时间变化更加敏感，但对空间细节和颜色不敏感。P-cell 提供良好的空间细节和颜色，但时间分辨率较低。SlowFast 框架与此类似：i）该模型有两条路径，分别以低时间分辨率和高时间分辨率工作；ii）Fast 路径用来捕捉快速变化的运动，但空间细节较少，类似于 M-cell；iii）Fast 路径很轻，类似于较小比例的 M-cell。研究者希望这些关系能够启发更多用于视频识别的计算机视觉模型。