どんなもの?
クロスモーダル知識蒸留を活用した新しい動画認識手法の提案.
先行研究と比べてどこがすごい?
知識蒸留蒸留の処理中に,RGB情報と動きの情報が必然的に絡み合う事を問題として捉え,異なるモデルを分離して学習するパイプラインを構築
技術や手法のキモはどこ?
temporal gradientの探索を,行動検出タスクで初めて行った点?
どうやって有効だと検証した?
THUMOS'14とActivityNet1.3で実験,アブレーション実験で提案したfusionモデルが有効であることを検証.またモデルの性能評価において,RGBフレームだけを入力とする手法の中ではSOTAで,いくつかの2-stream手法と比較しても性能を凌駕していた
議論はある?
固定カメラでの適用可能性は?この手法とAction Tube手法との相性が気になる
次に読むべき論文は?
知識蒸留わからん