تغريدة مثبتة

テックブログを公開しました。
「Scaling Speech AI」の下、1Bから3Bへと音声言語モデルをスケールさせた際のTTS性能へ影響を検証しました。
日本語特有の読みや表記揺れ、表現の広がりがみられるに加え、現状の課題についても整理しています。
日本語音声生成・SpeechLM・TTSに関心のある方はぜひご覧ください。
blog.dubguild.com/melte/llm-tts-…
1B/3Bモデルの構築にあたって実施した、データ前処理・事前学習・事後学習の詳細も、今後順次公開していく予定です。
続報もお待ちいただければ幸いです。
日本語
