Sloth🦥

16.9K posts

Sloth🦥

@Sloth65557166

Founding Engineer & Full Stack Engineer @kotoba_tech, Research Fellow @ReazonHILab, Science Tokyo ← Iwate Univ, Ex: @Elith_pr

静的サイトブログ {ゆうぼうの書跡棚} 参加日 Nisan 2020

1.3K フォロー中1.2K フォロワー

Sloth🦥@Sloth65557166·6d

protobufが5以上を取れるかどうか、とかで依存関係の解消難易度が全然違う肌感があったので、今回の修正でだいぶマシになっているかと思います

日本語

Sloth🦥@Sloth65557166·6d

huggingface.co/collections/en… ちょっと前にリリースしてたAVistaでは、唇領域の抽出にmediapipeを使ってましたが、最近のmediapipeバージョンでは動かなくなってたので、API仕様変更の前後どちらも動作するように修正しましたー

日本語

218

Sloth🦥 がリツイート

DubGuild@DubGuild·6d

テックブログを公開しました。「Scaling Speech AI」の下、1Bから3Bへと音声言語モデルをスケールさせた際のTTS性能へ影響を検証しました。日本語特有の読みや表記揺れ、表現の広がりがみられるに加え、現状の課題についても整理しています。日本語音声生成・SpeechLM・TTSに関心のある方はぜひご覧ください。 blog.dubguild.com/melte/llm-tts-… 1B/3Bモデルの構築にあたって実施した、データ前処理・事前学習・事後学習の詳細も、今後順次公開していく予定です。続報もお待ちいただければ幸いです。

日本語

158

23.9K

Sloth🦥 がリツイート

ワッシー@kwashizzz·12 Nis

日本語音声認識ってまともに評価出ていない気がす誰かパーフェクトなベンチマーク作って欲しい

日本語

3.4K

Sloth🦥@Sloth65557166·9 Nis

聴講いくどー

SUMO.ai（マルチモーダルAI技術勉強会）@sumo_ai_jp

【お知らせ📢】 4/23(木)に開催予定、マルチモーダルAI技術勉強会 #sumo_ai の第三回ですが、内容に一部変更がございます。以下、新しいセッション情報です。セッション1「クロスリンガル/クロスモーダルな表現空間」登壇者：李凌寒 @ryoNLP0123 / Google DeepMind sumo-ai.connpass.com/event/384316/

日本語

284

Sloth🦥@Sloth65557166·8 Nis

一日が短すぎるぅーー

日本語

103

Sloth🦥@Sloth65557166·2 Nis

わかる、CERとかWERが明らかに低い時って、そのドメインで学習してテキストラベルのスタイルに適応しているか、生成テキストに寄せてラベルを書き換える(日本語なら、平仮名カタカナ漢字表記を予測側に寄せる) 基本この二択で、メトリックハックするしかないと思ってる

日本語

668

Sloth🦥 がリツイート

Nuts (Shuhei Imai)@Nuts99618279·2 Nis

1.2%って、音声のみからの認識で実現可能なスコアなのか...？

Willow@WillowVoiceAI

Most models score 5-7% word error rate on clean audio. In real-world conditions they fall to 10-15%. Atlas 1 holds at 1.2% on clean audio and 2.1% in production. The gap widens in noisy environments.

日本語

13.4K

Sloth🦥 がリツイート

Daijiro Mori@daijiro·2 Nis

がんばります!

Tetsuya Ogata / 尾形哲也@tetsuyaogata1

AIRoAハードコンペ参加企業が決定しました。 prtimes.jp/main/html/rd/p…

日本語

1.6K

Sloth🦥 がリツイート

株式会社フィックスターズ@Fixstars_JP·2 Nis

「コードが動いた！」の次に待っているのが「なぜ遅い？」という壁。 AIエンジニアなら必ず直面するボトルネック特定の問題。弊社エンジニアがPyTorch Profilerを使い、NVIDIA Blackwell上でのLoRAチューニングの遅延原因を一つずつ潰していく記録を公開しています。現場で即戦力になる思考法をぜひ👇 zenn.dev/fixstars/artic…

日本語

6.6K

Sloth🦥@Sloth65557166·1 Nis

今日から正式に復学ですかねーさて、研究以前に終了に必要な単位取らねば...

日本語

197

Sloth🦥@Sloth65557166·1 Nis

ライブラリ的なのでいうと、k2周りのアレコレが充実してて、エッジ推論しやすかったりもするんですよねぇ

ゆうすけ@yusuke_kizuna

音声認識の話ですが、実はReazonSpeechのこのモデルがかなりバランスのとれた面白いモデルだということが分かった。恐らくスマホ上で動かすならこのモデルがちょうどいいんじゃないかなと思います。

日本語

291

ゆうすけ@yusuke_kizuna·28 Mar

評価してみました！サイズ考えるとかなりすごいかもです。 x.com/yusuke_kizuna/…

Sloth🦥@Sloth65557166

日本語ASRのオープンソースモデルは、割とReazonSpeechコーパスを使って学習してることも多いと思うんで、せっかくなのでぜひ一緒にReazonSpeechモデルもぜひ評価していただきたいなぁなどと思いますねーー（小言

日本語

1.7K

Sloth🦥@Sloth65557166·28 Mar

@yusuke_kizuna 結果出すの爆速ですね... 評価ありがとうございます！！

日本語

Sloth🦥 がリツイート

ゆうすけ@yusuke_kizuna·28 Mar

僕のボソボソ声のデータセットの評価で、3つのモデルの評価を追加しました！RezonSpeechが結構強いんですよね。しかもこのサイズって考えるとすごいな。

日本語

3.4K

Sloth🦥 がリツイート

まよねこの勤労🐈💨@HigurashiNapon·28 Mar

コーディング

日本語

1.1K

24K

1.2M

Sloth🦥 がリツイート

うみゆき@AI研究@umiyuki_ai·28 Mar

対数グラフにすればいいのにと思ったらすでに対数グラフでわろた

日本語

624

767.3K

Sloth🦥@Sloth65557166·28 Mar

日本語

2.8K

Sloth🦥 がリツイート

tanu@tanukiponkich·27 Mar

Kotobaたまに使ってるけど文法的に最後まで聞かないと翻訳不可能な文もリアルタイムで翻訳しててspeech-to-speechの威力を感じる。

Toshinori Sato@overlast

Kotobaさんは、#GENIAC 3.0では、学習データの大規模化を実施。200万時間の学習データを取り込んだ。検証も11万分以上の実証を行った。そして下流タスクに特化しつつ、実際に使える、ということに拘ってきた。評価結果としてはWebビデオドメインでは人間の翻訳者に迫っているが、アプリドメインでは精度や流暢さに関したまだ溝をあけられている。

日本語

106

19.2K

Sloth🦥 がリツイート

第五次React闘争@yuta0801_·27 Mar

Next.js は Vercel にロックインされると頑なに信じていた皆さん、完全に終わりですよ！

Next.js@nextjs

Next.js 16.2 introduces a stable Adapter API, built with Netlify, Cloudflare, OpenNext, AWS, and Google Cloud. But the API is only part of the story. Next.js is used by millions of developers across every major cloud, and making it work well everywhere is on us. Here are our commitments. nextjs.org/nextjs-across-…

日本語

403

129.9K

ディスカバー

@yusuke_kizuna @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA @nikifrancismediavine