テキスト・音声・視覚からマルチモーダルに感情を認識: Sonyが提案したM2FNet！（）

3つの要点 ?? テキスト・音声・動画の特徴を活用した感情認識で高精度を達成！ ?? Transformerにより発話間の関係を、Multi-Head Attentionによりモダリティ間の関係を学習！ ?? 動画特徴では”表情”だけでなく”シーン全体”のコンテクストを利用する必要性を示した M2FNet: Multi-modal Fusion Network …

TechMedia

テキスト・音声・視覚からマルチモーダルに感情を認識: Sonyが提案したM2FNet！（）

Archives