ゆっきー@音声合成

484 posts

ゆっきー@音声合成

@4wavetech

音声合成を勉強しています。歌声合成に特に興味があります。音声合成に関わる全ての人に尊敬と感謝を。業界の外の人ですが、絡んでくれると喜びます。

Entrou em Şubat 2022

331 Seguindo236 Seguidores

Tweet fixado

ゆっきー@音声合成@4wavetech·31 Eki

歌声合成用のニューラルボコーダーを公開しました！・Neural Homomorphic Vocoderを歌声合成用に改造・モデルサイズ4MB、44.1kHzの波形をCPUでリアルタイムより速く生成可能・話者の声を忠実に再現し、F0が正確でロングトーンで破綻しない github.com/wavtechyukky/N…

日本語

121

22.5K

ゆっきー@音声合成@4wavetech·6h

MTGのMerlijn Blaauw氏もJordi Bonada氏も今は何をしているのだろう…。欧米で歌声合成の研究をやるのはよほど困難な道なんだろうか。あと山ほどある中国の歌声合成の研究は一体どこから予算が…。

日本語

ゆっきー@音声合成@4wavetech·6h

NPSS等を作ったMTGも入力は楽譜とF0だけで、F0モデルはノートの差分を生成させ、ビブラートは後付けする構想だったけど、一周回ってこの方式に戻ってきているのでは…。VOCALOID作った人達の知見はさすがに鋭いのだろう…。

日本語

ゆっきー@音声合成@4wavetech·6h

FastSpeech2やDiffSingerのせいで「音響モデルに音量カーブは入力するもの」と思ってたけど、浙江大学のSVSはStyleSinger以降音量カーブを使ってない…。SynthVですらラウドネスいじっても波形の大きさが変わるだけなんで、使うべきではないと判断する何かがあったのかもしれない。

日本語

122

ゆっきー@音声合成@4wavetech·7h

@yui202321 これでちゃんとしたものが出来上がるかどうかはちょっと…。笑

日本語

yui2024@yui202321·7h

@4wavetech なるほどなるほど。メモメモ _φ(･_･

日本語

ゆっきー@音声合成@4wavetech·7h

可能な限り生歌に近く、かつ高速にするために、「浙江大学のSVSのF0モデルの技法をどんどん盛り込んでください。かつ、SynthVにない機能は全て削ってください」みたいなカスの無茶振りをClaudeに行ってる　(SynthVの範疇を出なければCPU実行可能なものになるだろうという適当な推測)

日本語

133

ゆっきー@音声合成@4wavetech·16h

Google Driveにzip解凍するだけでかなり同期が遅かったり解凍にエラーが出るのだけど、ウイルスチェックか検閲でもしてるんですかね…。

日本語

124

ゆっきー@音声合成@4wavetech·18h

@K_Sdcm 色々機械学習やってきたのに初めて知りました…。めちゃめちゃ勉強になります…！

日本語

霧野蒼太@K_Sdcm·18h

@4wavetech 先例としてはAIきりたんのDBがありますね、研究目的であれば配布も抵触はしないと解釈しておりますモデルに関しては元になった楽曲を抽出できないためセーフかと(画像生成のモデルとかと同じ扱い)

日本語

104

ゆっきー@音声合成@4wavetech·18h

GTSingerのデータセット、字体云々以前に絶対著作権者に許可とってなさそうで笑った(取ってたら本当すみません)

日本語

294

ゆっきー@音声合成@4wavetech·18h

@K_Sdcm 初めて知ったのでググりましたが、「学習に使う人(我々)はOK」「配布者は著作権侵害に抵触」「アメリカのサーバーにあればDMCAを申請されたら強制削除される」ということで理解しました(間違ってたらすみません)。しかし使用する場合も、これで学習したモデルの配布は厳しそうですね。

日本語

104

霧野蒼太@K_Sdcm·18h

@4wavetech こういうとき著作権法30条の4ありがとうってなるんですよね……

日本語

ゆっきー@音声合成@4wavetech·1d

Claudeくんと浙江大学リポジトリN本ノックやる　テーマパークに来たみたいですね…

日本語

357

ゆっきー@音声合成@4wavetech·1d

@aman0_kei なるほど…！　ノートのハサミや統合は追加可能だと思います。ただ根本的に手法を見直したいところです。SynthVの方で衝撃的だったのは文字起こし(多々間違うけど、Whisper系と違って単語レベルで抜けない)とMIDIの正確さですね…。中国の方で流行ってるアノテーションツールについて学んできます。

日本語

アマノケイ@aman0_kei·1d

個人的にはmidiとラベルを一緒に見れるのとても嬉しいのでお金払っても欲しいですね……！作業して「うわーー！！！」ってなるのが「実はここにこういう音素があったけど見逃してたのでまたいくつか段階戻って作業しないといけない」なので同時並行できるのはとてもいいです……。 SVは1ノート1文字にならずに[で][.s k a]とか平気でやるので、個人的にはどの仕組みを使うかによっては一長一短な感じがしますね…個人的には[で][s][か]とかの方が嬉しさはありますが……こうなってる教師データは多分とても少ない…。個人的にあると作業効率が捗りそうな機能は、ノート編集画面でのノートハサミツール(母音区切り)とノートを一つに統合する機能、音素タイミング編集画面で境界追加を追加できる機能あたりですかねあとこっちはUX的な面になるのですが、操作としてはノート操作で大まかな実質ラベル調整や追加を行う→音素タイミングを細かく調整にした方が、一旦前段階に戻って調整するみたいな必要がなくなるのでワークフロー的には良いのかなという気はします。

日本語

ゆっきー@音声合成@4wavetech·1d

SynthVでノートに変換した方が手軽だわ…。普通に精度も悪くなかった。この件、もっと最新技術学んでから出直してきます…。

ゆっきー@音声合成@4wavetech

自作のアノテーションツールで歌声のアノテーションをするだけの動画　もし「こういう機能が欲しい」「このソフトの方が便利」みたいなご意見あれば大変ありがたいです…！

日本語

665

ゆっきー@音声合成@4wavetech·1d

DeepSeekに「中国の歌声合成がレベル高いのは浙江大学のおかげ」って言われてホラ吹いてるんだろうと思ってたけど、なんかガチっぽいですね…。

日本語

400

ゆっきー@音声合成@4wavetech·1d

音響モデルやF0モデルについて知ろうと思ったのだけど、よく見たらStyleSinger、GTSinger、STARS、TCSinger(とその2)、TechSinger、全部同じ研究室から出て…？

日本語

935

ゆっきー@音声合成@4wavetech·1d

歌声合成的にはHarvestよりDIOの方がよさげな部分もあるのだけど、Harvestが出た当時の論文でDIOとの相違点についてどう書かれてるか見てみたら、harvestは「有声区間を無声区間と誤判定しないこと」を主目的としたらしい。逆に無声区間を有声区間と判定することも多いから、単に上位互換ではない。

日本語

162

ゆっきー@音声合成 retweetou