<p>「サイバーパンク2077」のようなリアルタイム翻訳システムをWhisperやDeepLを駆使して実現した猛者が現る</p><p>「サイバーパンク2077」のようなリアルタイム翻訳システムをWhisperやDeepLを駆使して実現した猛者が現る</p><p>「サイバーパンク2077」をプレイしたというエンジニアのマルチン・エランコウスキ氏が、同作で登場するリアルタイム翻訳システムのような「話者の上にリアルタイムで会話内容が表示され翻訳まで行ってくれる翻訳システム」の開発に取り組んでいます。</p><p>エランコウスキ氏は音声認識に使用したWhisperについて、「これは素晴らしいツールで私よりも英語の音声を正しく認識します。複数の言語を処理し、音声が重なっていても問題なく動作します」と語り、音声認識ツールとしてWhisperを採用した理由を挙げました。さらに、エランコウスキ氏は「私はオーディオストリームをまとめてひとつの入力としてWhisperに供給していますが、私のコードを改善したい場合は、話者ごとにオーディオデータを分割することも可能です。ただし、これで改善されるとは思いません」と述べています。 エランコウスキ氏は翻訳の品質を最高のものにしたいと考えていたため、翻訳モデルとしてDeepLを採用しています。DeepLを採用した理由について、エランコウスキ氏は「DeepLはGoogle翻訳よりも上手く機能し、APIはひと月に50万文字を無料で翻訳してくれます」と語りました。 エランコウスキ氏は話者ダイアライゼーションとしてNeMoとPyAnnoteを試用しています。以下は話者ダイアライゼーションが、どの話者が話しているのかを識別するプロセス。PyAnnoteの精度に満足できなかったというエランコウスキ氏はNVIDIAのNeMoを使用しており、「NVIDIAのNeMoは、自動音声認識(ASR)、テキスト音声合成(TTS)、大規模言語モデル(LLM)、自然言語処理(NLP)に取り組んでいる研究者向けに構築された会話型AIツールキットです」とNeMoを評価。特に英語の認識精度が優れており、「複数人の話者が同時に会話する瞬間の識別にはまだ苦労していますがデモでは十分なレベルで機能してくれました」と述べています。 動画内の顔検出にはRetinaFaceを使用。学習済みのモデルを利用して、動画の各フレームに表示されるあらゆる顔を検出します。RetinaFaceの顔検出精度は非常に堅牢で信頼性が高いそうですが、唯一の欠点として「Tensorflowに依存していることでコードが一度にひとつのフレームしか処理できないこと」をエランコウスキ氏は挙げています。そのため、動画のすべてのフレームをRetinaFaceに処理させるのには非常に膨大な時間がかかるとのこと。実際、最新のGPUでも60秒の動画を処理するのに数分かかるそうです。 なお、エランコウスキ氏が開発したリアルタイム翻訳システムのソースコードはGitHub上で公開されています。</p>