Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection

どんなもの？

クロスモーダル知識蒸留を活用した新しい動画認識手法の提案．

知識蒸留蒸留の処理中に，RGB情報と動きの情報が必然的に絡み合う事を問題として捉え，異なるモデルを分離して学習するパイプラインを構築

temporal gradientの探索を，行動検出タスクで初めて行った点？

THUMOS'14とActivityNet1.3で実験，アブレーション実験で提案したfusionモデルが有効であることを検証．またモデルの性能評価において，RGBフレームだけを入力とする手法の中ではSOTAで，いくつかの2-stream手法と比較しても性能を凌駕していた

固定カメラでの適用可能性は？この手法とAction Tube手法との相性が気になる

知識蒸留わからん