Sloth🦥

16.9K posts

Sloth🦥 banner
Sloth🦥

Sloth🦥

@Sloth65557166

Founding Engineer & Full Stack Engineer @kotoba_tech, Research Fellow @ReazonHILab, Science Tokyo ← Iwate Univ, Ex: @Elith_pr

静的サイトブログ {ゆうぼうの書跡棚} انضم Nisan 2020
1.3K يتبع1.2K المتابعون
Sloth🦥
Sloth🦥@Sloth65557166·
protobufが5以上を取れるかどうか、とかで依存関係の解消難易度が全然違う肌感があったので、 今回の修正でだいぶマシになっているかと思います
日本語
0
0
0
78
Sloth🦥
Sloth🦥@Sloth65557166·
huggingface.co/collections/en… ちょっと前にリリースしてたAVistaでは、唇領域の抽出にmediapipeを使ってましたが、 最近のmediapipeバージョンでは動かなくなってたので、API仕様変更の前後どちらも動作するように修正しましたー
日本語
1
0
1
218
Sloth🦥 أُعيد تغريده
DubGuild
DubGuild@DubGuild·
テックブログを公開しました。 「Scaling Speech AI」の下、1Bから3Bへと音声言語モデルをスケールさせた際のTTS性能へ影響を検証しました。 日本語特有の読みや表記揺れ、表現の広がりがみられるに加え、現状の課題についても整理しています。 日本語音声生成・SpeechLM・TTSに関心のある方はぜひご覧ください。 blog.dubguild.com/melte/llm-tts-… 1B/3Bモデルの構築にあたって実施した、データ前処理・事前学習・事後学習の詳細も、今後順次公開していく予定です。 続報もお待ちいただければ幸いです。
日本語
0
44
158
23.9K
Sloth🦥 أُعيد تغريده
ワッシー
ワッシー@kwashizzz·
日本語音声認識ってまともに評価出ていない気がす誰かパーフェクトなベンチマーク作って欲しい
日本語
2
1
24
3.4K
Sloth🦥
Sloth🦥@Sloth65557166·
聴講いくどー
SUMO.ai(マルチモーダルAI技術勉強会)@sumo_ai_jp

【お知らせ📢】 4/23(木)に開催予定、マルチモーダルAI技術勉強会 #sumo_ai の第三回ですが、内容に一部変更がございます。以下、新しいセッション情報です。 セッション1「クロスリンガル/クロスモーダルな表現空間」 登壇者:李 凌寒 @ryoNLP0123 / Google DeepMind sumo-ai.connpass.com/event/384316/

日本語
0
0
2
284
Sloth🦥
Sloth🦥@Sloth65557166·
一日が短すぎるぅーー
日本語
0
0
2
103
Sloth🦥
Sloth🦥@Sloth65557166·
わかる、CERとかWERが明らかに低い時って、 そのドメインで学習してテキストラベルのスタイルに適応しているか、 生成テキストに寄せてラベルを書き換える(日本語なら、平仮名カタカナ漢字表記を予測側に寄せる) 基本この二択で、メトリックハックするしかないと思ってる
日本語
0
0
9
669
Sloth🦥 أُعيد تغريده
株式会社フィックスターズ
「コードが動いた!」の次に待っているのが「なぜ遅い?」という壁。 AIエンジニアなら必ず直面するボトルネック特定の問題。弊社エンジニアがPyTorch Profilerを使い、NVIDIA Blackwell上でのLoRAチューニングの遅延原因を一つずつ潰していく記録を公開しています。 現場で即戦力になる思考法をぜひ👇 zenn.dev/fixstars/artic…
株式会社フィックスターズ tweet media
日本語
0
13
71
6.6K
Sloth🦥
Sloth🦥@Sloth65557166·
今日から正式に復学ですかねー さて、研究以前に終了に必要な単位取らねば...
日本語
0
0
6
197
Sloth🦥
Sloth🦥@Sloth65557166·
@yusuke_kizuna 結果出すの爆速ですね... 評価ありがとうございます!!
日本語
1
0
0
76
Sloth🦥 أُعيد تغريده
ゆうすけ
ゆうすけ@yusuke_kizuna·
僕のボソボソ声のデータセットの評価で、3つのモデルの評価を追加しました!RezonSpeechが結構強いんですよね。しかもこのサイズって考えるとすごいな。
ゆうすけ tweet media
日本語
0
6
36
3.4K
Sloth🦥 أُعيد تغريده
うみゆき@AI研究
うみゆき@AI研究@umiyuki_ai·
対数グラフにすればいいのにと思ったらすでに対数グラフでわろた
日本語
1
624
5K
767.3K
Sloth🦥
Sloth🦥@Sloth65557166·
日本語ASRのオープンソースモデルは、割とReazonSpeechコーパスを使って学習してることも多いと思うんで、 せっかくなのでぜひ一緒にReazonSpeechモデルもぜひ評価していただきたいなぁなどと思いますねーー(小言
日本語
0
2
13
2.8K
Sloth🦥 أُعيد تغريده
tanu
tanu@tanukiponkich·
Kotobaたまに使ってるけど文法的に最後まで聞かないと翻訳不可能な文もリアルタイムで翻訳しててspeech-to-speechの威力を感じる。
Toshinori Sato@overlast

Kotobaさんは、#GENIAC 3.0では、学習データの大規模化を実施。200万時間の学習データを取り込んだ。検証も11万分以上の実証を行った。そして下流タスクに特化しつつ、実際に使える、ということに拘ってきた。評価結果としてはWebビデオドメインでは人間の翻訳者に迫っているが、アプリドメインでは精度や流暢さに関したまだ溝をあけられている。

日本語
0
17
106
19.2K
Sloth🦥 أُعيد تغريده