kun432🇯🇵

21.9K posts

kun432🇯🇵

@kun432

しがないフリーランスエンジニア。zennのscrapに生息。競馬好き。

日本神戸 Katılım Şubat 2013

539 Takip Edilen1.2K Takipçiler

kun432🇯🇵 retweetledi

steven@Tu7uruu·8h

Just dropped on HF: Cohere’s cohere-transcribe-03-2026 > 🥇 #1 on the Open ASR leaderboard > 🌍 #4 multilingual > 📄 #6 long-form > Supports 12+ languages: English, German, French, Italian, Spanish, Portuguese, Greek, Dutch, Polish, Arabic, Vietnamese, Chinese, Japanese, Korean > Conformer-based encoder + lightweight Transformer decoder for transcription > And of course: Apache 2.0 license

English

kun432🇯🇵@kun432·7h

RP 日本語ないんか・・・

日本語

kun432🇯🇵 retweetledi

Mistral AI@MistralAI·7h

🔊Introducing Voxtral TTS: our new frontier open-weight model for natural, expressive, and ultra-fast text-to-speech 🎭Realistic, emotionally expressive speech. 🌍Supports 9 languages and accurately captures diverse dialects. ⚡Very low latency for time-to-first-audio. 🔄Easily adaptable to new voices

English

338

2.5K

277.2K

kun432🇯🇵 retweetledi

Mistral AI for Developers@MistralDevs·7h

ZXX

621

45.1K

kun432🇯🇵 retweetledi

Cohere@cohere·9h

Introducing: Cohere Transcribe – a new state-of-the-art in open source speech recognition.

English

195

1.6K

272.7K

kun432🇯🇵 retweetledi

もみじあめ@momijiame·1d

LiteLLM の事案を見るに、PyPI 経由のサプライチェーン攻撃のリスクを意識する必要が増してきた。ほとんどコストなく始められる対策は最近リリースされたパッケージをインストールしないことで、uv にも専用の機能がある。設定ファイルに入れておけば特に体験も変わらない。 #dependency-cooldowns" target="_blank" rel="nofollow noopener">docs.astral.sh/uv/concepts/re…

日本語

223

131.9K

kun432🇯🇵 retweetledi

Google Research@GoogleResearch·2d

Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: goo.gle/4bsq2qI

GIF

English

872

5.2K

36.1K

17M

kun432🇯🇵 retweetledi

GMO Developers@GMOdev·1d

マルウェアパッケージのインストールをブロックするTakumi byGMOの「Guard」機能がPyPIに対応しました！ここ数日のサプライチェーン侵害の多発を受け、GMO Flatt Securityが急ピッチで開発を進めています。無料で利用が可能です。ぜひご活用ください！ #GMOdev

GMO Developers@GMOdev

GMO Flatt Securityが提供するTakumi byGMOに、ソフトウェアサプライチェーン攻撃対策機能が追加されました🎉 インストール時にマルウェアパッケージをブロックする「Guard」機能は1行のコマンドで簡単に設定し、どなたも無料で利用可能です！！ぜひご活用ください😊 #GMOdev

日本語

6.8K

kun432🇯🇵@kun432·1d

一瞬やけど結構揺れたな

日本語

179

kun432🇯🇵 retweetledi

Daniel Hnyk@hnykda·2d

LiteLLM HAS BEEN COMPROMISED, DO NOT UPDATE. We just discovered that LiteLLM pypi release 1.82.8. It has been compromised, it contains litellm_init.pth with base64 encoded instructions to send all the credentials it can find to remote server + self-replicate. link below

English

301

2.3K

9.4K

5.5M

kun432🇯🇵@kun432·2d

次のバージョンで治るんかな github.com/openai/codex/p…

日本語

170

kun432🇯🇵 retweetledi

OCGOT(オシゴット)@OCGOT1616·2d

「AI VTuber用データセット『AItuber-Personas-Japan』が公開。日本語の合成データをそのまま学習・開発に使える形で提供。AI VTuber設計の新たな起点に。詳しくはこちら。」 ift.tt/V3jlkUS

日本語

3.8K

kun432🇯🇵 retweetledi

Tongyi Lab@Ali_TongyiLab·2d

1/3 Optimizing for the Ear, Not Just the Signal: Introducing PrismAudio 🎧 Traditional video-to-audio models struggle because they try to optimize everything—semantics, timing, and quality—using a single, competing loss function. PrismAudio rethinks this architecture using three core pillars: Decomposed Multi-CoT: Instead of a monolithic path, we split reasoning into four specialized streams (Semantic, Temporal, Aesthetic, Spatial). This makes the generation process explainable and controllable. Multi-Dimensional RL: Each CoT stream is paired with a specific reward function (MS-CLAP, Synchformer, StereoCRW). No more compromising one dimension for another. Fast-GRPO: By restricting randomness to a small time window, we’ve made Reinforcement Learning for Diffusion models efficient. Fast-GRPO achieves higher performance in 200 steps than previous methods did in 600. On our new AudioCanvas benchmark, PrismAudio maintains robustness even in out-of-domain complex scenes where other models fail.

English

235.6K

kun432🇯🇵@kun432·2d

AIキャラに感情を獲得させよう！に参加を申し込みました！ genai-expo-team.connpass.com/event/388082/?…

日本語

123

kun432🇯🇵 retweetledi

Sakana AI@SakanaAILabs·2d

Sakana Chatの背後で動いているのは、Sakana AIの新モデルシリーズ「Namazu（α版）」です。 🔗 詳細はこちら： sakana.ai/namazu-alpha 現在、世界には、様々なオープンモデル（LLM）が提供されており、その中には極めて高性能なものも含まれています。他方、このようなモデルは、学習データの偏り、開発元のイデオロギー、価値観など（バイアス）が必要以上に反映されることが避けられません。Sakana AIは、①これらのバイアスを可能な限り除去し、②自らの価値観を新たに反映させ、③安心かつ各国の文脈に即して使えるようにするための技術開発に取り組んできました。その技術実証の第一弾として、今回「Namazu」シリーズのα版となる3つのモデル Namazu-DeepSeek-V3.1-Terminus、Llama-3.1-Namazu-405B、Namazu-gpt-oss-120Bを構築しました。これら3つのモデルは、オープンモデルの卓越した性能を継承しながら、日本国内での利用に適した振る舞いを実現しています。詳細はブログをご参照ください。 ▪️ Sakana Chatへの搭載とこれから私たちのゴールは、単に優秀なモデルを作るだけではなく、それを多くの方に使っていただくことです。そのために専用のチャットインターフェースを構築しました。これまで約1,000名のベータテスターの皆様による熱意あるフィードバックをもとに改善を重ねてまいりましたが、本リリースを通じて多くの方に触れていただくことで、さらにモデルとサービスを磨き上げ、より良いものへと改善していきたいと考えています。

日本語

170

644

412.3K

kun432🇯🇵 retweetledi

Sakana AI@SakanaAILabs·2d

🐟 Sakana Chat 公開 🐟 Sakana AIは、Sakana Chatを無料公開しました。 chat.sakana.ai Web検索機能と高速レスポンスを備えたAIチャットです。日本国内から、どなたでもお使いいただけます。ぜひ、お試しください。

GIF

日本語

1.6K

5.8K

1.6M

kun432🇯🇵 retweetledi

ようさん@ayousanz·4d

ラズパイでも動く軽量TTS「piper-plus」v1.8.0 ・Unityライブラリ「uPiper」v1.4.0 リリース🎉 日本語・英語・中国語・スペイン語・フランス語・ポルトガル語の6言語話せるようになりました！ Python,C++,C#,rustにも対応済み piper-plus github.com/ayutaz/piper-p… uPiper github.com/ayutaz/uPiper

ようさん@ayousanz

【新作OSSを一挙3本公開！🎉】音声合成・Unity・デスクトップアプリの領域で、3つのオープンソースプロジェクトを公開しました！ 🚀piper-plus: 高速・軽量な日本語TTSエンジン 🎮uPiper: Unityでキャラクターを喋らせるプラグイン 🤖uDesktopMascot: 音声で対話できるマスコットアプリ

日本語

167

16.8K

kun432🇯🇵@kun432·5d

玉置浩二とASKAのデュエット凄すぎるな、、、

日本語

545

kun432🇯🇵 retweetledi

ほーりーふぉっくす@Holy_fox_LLM·5d

AItuber向けのモデルを新しく作成しました！ SDG_LOOMで作成したデータ130kを含む175kのデータでトレーニングされたモデルになります！寄り添うような雑談・より自然な日本語スタイル・適切なMarkdown出力ができるようなモデルになります！ huggingface.co/DataPilot/Arro…

日本語

206

14.5K

kun432🇯🇵 retweetledi

ようさん@ayousanz·6d

はてなブログに投稿しました LuxTTSを日本語g2p対応をして学習を行い、日本語の音声合成に対応する - yousanのメモ ayousanz.hatenadiary.jp/entry/2026/03/… #はてなブログ

日本語

3.2K

Keşfet

@elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA @nikifrancismediavine @katyperry