もっと詳しく

マイクロソフトは1月5日(現地時間)、3秒間の声のサンプルを使用するだけで、その人の声を真似た音声を合成できる言語モデリングアプローチ「VALL-E」を発表した。 しゃべらせたいテキストと3秒間のお手本音声を入力するだけ 概念図 「ニューラルコーデック言語モデル」と呼ばれるVALL-Eは、Metaが202…