もっと詳しく

3つの要点 ?? テキスト・音声・動画の特徴を活用した感情認識で高精度を達成! ?? Transformerにより発話間の関係を、Multi-Head Attentionによりモダリティ間の関係を学習! ?? 動画特徴では”表情”だけでなく”シーン全体”のコンテクストを利用する必要性を示した M2FNet: Multi-modal Fusion Network …