Yusuke Teranishi 🍤
2.3K posts

Yusuke Teranishi 🍤
@templepmet
高速化でご飯を食べたい / HPC / GPU / 量子計算 / LLM
Katılım Kasım 2016
713 Takip Edilen639 Takipçiler
Yusuke Teranishi 🍤 retweetledi
Yusuke Teranishi 🍤 retweetledi

「尾崎スキーム II」でRTX PRO 6000 Blackwell Max-Qを検証しました!標準DGEMMの約16倍・約25 TFLOPSを達成し、H100 PCIe(約36 TFLOPS)との差を1.5倍以内に圧縮。
FP64では30倍以上の差があるGPU同士とは思えない結果に。ハードウェアのスペック上限をアルゴリズムで超えていく検証結果は👇
zenn.dev/fixstars/artic…

日本語
Yusuke Teranishi 🍤 retweetledi
Yusuke Teranishi 🍤 retweetledi

【拡散希望】大阪大学大学院情報科学研究科の協力講座「量子情報システム講座」の指導教員になりました。量子ビットデバイスと量子アルゴリズム(とユーザー)をつないだ「量子情報システム」での博士号を目指す講座になります。興味ある方はDMやメール(HP問合先に)を下さい
ist.osaka-u.ac.jp/japanese/resea…
日本語

@ikkoham ありがとうございます!急ピッチで話を進めました笑。
カンファレンス等々(に限らず)何卒よろしくお願い致します!
日本語
Yusuke Teranishi 🍤 retweetledi

Llama.cppにTurboQuant実装しようとしてた人が、もはや処理時間の4割が逆量子化処理で占められてる事に気付く。ここをもっと速くできねえかなあ…といろいろ工夫して、最終的にAttentionが全然効いてない意味無さそうなウエイトの逆量子化をスキップしてみたら精度へのダメージ無しでさらなる高速化へ
reddit.com/r/LocalLLaMA/c…
日本語









