
Edison
292 posts

Edison
@Edison_aware
大学青年教师,偶尔上课,经常折腾 AI|技术|副业|一些不成熟的思考 Build 点有用的,也 Build 点没用的 个人主页: https://t.co/srefld7aQ2


好像很多人没有意识到,AI 剪辑的节省工作量来自于筛选。像我跟我闺蜜出门玩,我们拍视频旅游的话,一天拍个 100 多段视频,拍个 10 多个 G 是没有问题的。 如果你要靠纯手搓,你光看完这 10 个 G 你都疯了,但是 Codex 剪视频的话,它是不需要把视频拖到 Codex 里面的,它直接读取你电脑里本地的文件,它读完之后就开始会给你思考,哪一些画面很有意义。 其实它在剪辑的时候,还会穿插一些很可爱的思考,比如说他说书店那段晃书特别灵动,比如说试衣服的表情很俏皮,它是可以读懂素材表达的意思的,很通人性的一个家伙呀。 就比如这一段素材,它是知道你在扮演可爱,但是最后由于这个色调还是太奇怪了,最后没有剪到成片里。


这个新开源 TTS 太牛逼了,打算直接替换掉原来的 TTS 了 之前测试很多 TTS 都是很死板的"AI 音",今天发现这个,真可以直接拿去商用了 多语种翻译、声音克隆、情绪语气保持,三件事同时拉满的开源模型我是第一次见 我直接拿世界杯名场面解说暴力测试了,选了三段,每段翻四种语言: 梅西帽子戏法那段,西班牙语解说 GOOOOOL 嘶吼到破音,翻成日语、阿拉伯语、中文,那种快吼劈嗓子的劲儿,四个版本居然都在 姆巴佩 96 分钟绝杀世界波,英语解说那种"安静一秒然后炸开"的节奏,翻成德语、日语、中文,全部对上 另外,佛得角 Vozinha 赛后感言,带有哽咽的感觉,葡语翻英语、日语、中文,声音里的颤抖感翻完居然也在 这确实是把 TTS 最难做到的“情绪”给做好了! 它是有道子曰的 Confucius4-TTS,3 秒克隆声音,14 种语言,并且是开源,完全可以自部署 整体效果非常惊艳,个别长句有一点 AI 感,短句高情绪片段已经很离谱了。 做了对比视频,可以听一听感受一下👇 #有道TTS






















