Jason Chen 리트윗함

开源TTS卷成这样,诈骗犯怕是要乐坏了
清华OpenBMB刚放出来一个东西叫VoxCPM2,我看完直接沉默了。
先说参数:20亿,训练数据200万小时多语言音频,输出48kHz录音棚级音质。这几个数字摆出来,传统TTS基本可以退场了。
但最让我觉得可怕的不是这个。
它不用Tokenizer。
传统方案是把音频切成离散token再生成,这个过程信息损失很严重,声音听起来总差点意思。VoxCPM2直接在连续潜空间做扩散自回归,音色、情绪、呼吸节奏,全给你保留下来。
指标我给你列一下:
① 支持30种语言加9种中文方言,普通话粤语闽南语随便切
② RTX 4090跑下来实时率0.13,流式输出几乎感觉不到延迟
③ 不需要参考音频,用自然语言描述就能直接生成声音
④ 声音克隆可以调情绪、语速、口癖,想让它说话磕巴都行
⑤ 终极克隆模式:给一段参考音频加文本,连呼吸节奏都能复刻出来
协议是Apache 2.0,商用友好,GitHub已经破万星,连续霸榜Trending。
播客、有声书、游戏配音、短视频旁白,开源方案现在完全够用,甚至比很多付费方案更强。
说实话这东西是双刃剑。一边是创作者门槛彻底拉平,一边是园区诈骗、电话诈骗又多了一把新刀。
声音这东西,以后真的不能随便信了。
🔗 github.com/OpenBMB/VoxCPM

中文


































