Meta AIは16日、音声用ジェネレーティブAIモデル「Voicebox」を発表した。音声やテキストを入力して、音声合成やオーディオクリップの作成、ノイズ除去、コンテンツ編集、スタイル変換(Style Transfer)、多様な音声でのサンプル生成などに対応する。
Voiceboxでは、トレーニングデータを使わずに、収録した音声と補足する書き起こしから学習するアプローチを採用。Flow Matchingと呼ばれる手法により、音声合成において、最新の英語モデルVALL-Eを、明瞭度と音声類似度の両方で上回るほか、20倍高速化しているという。