Sloth🦥
16.9K posts

Sloth🦥
@Sloth65557166
Founding Engineer & Full Stack Engineer @kotoba_tech, Research Fellow @ReazonHILab, Science Tokyo ← Iwate Univ, Ex: @Elith_pr
静的サイトブログ {ゆうぼうの書跡棚} 参加日 Nisan 2020
1.3K フォロー中1.2K フォロワー

huggingface.co/collections/en…
ちょっと前にリリースしてたAVistaでは、唇領域の抽出にmediapipeを使ってましたが、
最近のmediapipeバージョンでは動かなくなってたので、API仕様変更の前後どちらも動作するように修正しましたー
日本語
Sloth🦥 がリツイート

テックブログを公開しました。
「Scaling Speech AI」の下、1Bから3Bへと音声言語モデルをスケールさせた際のTTS性能へ影響を検証しました。
日本語特有の読みや表記揺れ、表現の広がりがみられるに加え、現状の課題についても整理しています。
日本語音声生成・SpeechLM・TTSに関心のある方はぜひご覧ください。
blog.dubguild.com/melte/llm-tts-…
1B/3Bモデルの構築にあたって実施した、データ前処理・事前学習・事後学習の詳細も、今後順次公開していく予定です。
続報もお待ちいただければ幸いです。
日本語
Sloth🦥 がリツイート
Sloth🦥 がリツイート
Sloth🦥 がリツイート
Sloth🦥 がリツイート

「コードが動いた!」の次に待っているのが「なぜ遅い?」という壁。
AIエンジニアなら必ず直面するボトルネック特定の問題。弊社エンジニアがPyTorch Profilerを使い、NVIDIA Blackwell上でのLoRAチューニングの遅延原因を一つずつ潰していく記録を公開しています。
現場で即戦力になる思考法をぜひ👇
zenn.dev/fixstars/artic…

日本語

ライブラリ的なのでいうと、k2周りのアレコレが充実してて、エッジ推論しやすかったりもするんですよねぇ
ゆうすけ@yusuke_kizuna
音声認識の話ですが、実はReazonSpeechのこのモデルがかなりバランスのとれた面白いモデルだということが分かった。恐らくスマホ上で動かすならこのモデルがちょうどいいんじゃないかなと思います。
日本語
Sloth🦥 がリツイート
Sloth🦥 がリツイート
Sloth🦥 がリツイート
Sloth🦥 がリツイート

Kotobaたまに使ってるけど文法的に最後まで聞かないと翻訳不可能な文もリアルタイムで翻訳しててspeech-to-speechの威力を感じる。
Toshinori Sato@overlast
Kotobaさんは、#GENIAC 3.0では、学習データの大規模化を実施。200万時間の学習データを取り込んだ。検証も11万分以上の実証を行った。そして下流タスクに特化しつつ、実際に使える、ということに拘ってきた。評価結果としてはWebビデオドメインでは人間の翻訳者に迫っているが、アプリドメインでは精度や流暢さに関したまだ溝をあけられている。
日本語
Sloth🦥 がリツイート

Next.js は Vercel にロックインされると頑なに信じていた皆さん、完全に終わりですよ!
Next.js@nextjs
Next.js 16.2 introduces a stable Adapter API, built with Netlify, Cloudflare, OpenNext, AWS, and Google Cloud. But the API is only part of the story. Next.js is used by millions of developers across every major cloud, and making it work well everywhere is on us. Here are our commitments. nextjs.org/nextjs-across-…
日本語







