tsuki

1.7K posts

tsuki banner
tsuki

tsuki

@tensorcore

Hiroyuki Ootomo. High-precision GEMM emulation on Tensor Cores. Work at #76B900. Cooking @cp_async. Hai-to-Yoka: https://t.co/jAdudlZfnb

Tokyo, Japan Beigetreten Kasım 2017
462 Folgt3.3K Follower
Angehefteter Tweet
tsuki
tsuki@tensorcore·
emulation is all you need
English
1
0
29
18.8K
tsuki
tsuki@tensorcore·
大人の事情でMS PPを使わさせられているのが何よりも苦痛
日本語
0
0
2
107
tsuki
tsuki@tensorcore·
講義の資料を作らないとなのだけれど、そこはかとなくやる気が起きない。やっぱり教員には向いていないのだろうな。
日本語
1
0
4
230
tsuki retweetet
msk
msk@crcrpar·
イケメンに会いたい その機能はいらないと思う だけで日々生きてる
日本語
0
2
3
446
tsuki
tsuki@tensorcore·
migrating from PhotoPrism to Immich
English
0
0
2
272
tsuki
tsuki@tensorcore·
研究室のSlackに指導教員の変顔を投稿するチャンネルが欲しい
日本語
0
1
8
812
tsuki
tsuki@tensorcore·
@alexUnder_sky Machiavelli would make a terrible author 😅
English
1
0
0
50
sacha🥝
sacha🥝@alexUnder_sky·
@tensorcore goals > ethics, or how niccolo machiavelli said: the ends jusrify the means
English
1
0
1
83
tsuki retweetet
Kazuki Fujii
Kazuki Fujii@kazukifujii·
テックブログ公開 Day5です FlashAttentionや昨今のHardware Awareな高速化手法を理解したり、提案したりする上で必須となるCUDA Programmingに関して、基礎から解説していくブログシリーズの第一弾です。3万字超えのブログですが、かなり分かりやすく書いていますのでぜひご覧ください。 CUDA Programming Guide Part 1|Kazuki Fujii zenn.dev/kaz20/articles…
Kazuki Fujii tweet mediaKazuki Fujii tweet media
Kazuki Fujii@kazukifujii

テックブログ公開 Day4です。 RLVR(強化学習)時代において欠かすことのできないweight syncの機能についてvLLMがどのようにこれを実現しているのかやさしく解説を行いました。 RLVR時代におけるInference Framework: Weight Syncing編|Kazuki Fujii zenn.dev/kaz20/articles…

日本語
2
93
508
58.2K
tsuki
tsuki@tensorcore·
Hey, CodeRabbit and Codex, can you communicate directly without going through me?
English
2
0
4
399
tsuki
tsuki@tensorcore·
夜食べても太らない美味しい無が欲しい。取り敢えず塩かき氷を試してみようかと。
日本語
0
0
2
184
tsuki
tsuki@tensorcore·
Surface RTX Spark Dev Box...? Not a BBQ plate?
English
0
0
5
371
tsuki
tsuki@tensorcore·
最近バカすぎて風邪ひいてない
日本語
0
0
6
253
tsuki retweetet
SIAM Activity Group on Supercomputing
Don't miss our upcoming Supercomputing Spotlights webinar! Laura Grigori will be speaking about "Randomized mixed precision algorithms for large scale linear algebra problems" on June 10, 2pm UTC! More details + registration link here: siag-sc.org/randomized-mix…
English
0
2
5
291
tsuki
tsuki@tensorcore·
羽田とかの入国エリアで怒鳴っている案内係たち、早くAIに置き換わらないかな
日本語
1
0
0
287
tsuki
tsuki@tensorcore·
Recently, cheap-looking AI-generated images have been everywhere on blogs and social media. They often feel overloaded with details, with no sense of restraint or "beauty of subtraction." If this is the result of AI democratization, it's kind of pathetic.
English
0
1
6
247
acc-mu3n
acc-mu3n@AcceleratedMu3n·
@tensorcore パチかわとパチワレは食べれるのですね!?
日本語
1
0
0
93
acc-mu3n
acc-mu3n@AcceleratedMu3n·
少し前に某同僚から笹団子ちぃかわお土産で戴きました。可愛い。可愛すぎる 出社するたびに、つい見つめてしまう☺️
acc-mu3n tweet media
日本語
1
0
2
599
tsuki retweetet
msk
msk@crcrpar·
在籍してるオフィスでポジションいくつか空いてるぽい。私はオフィスにいないので「いやcrcrparの顔が見たくねーんだよ」という人も良いのでは💡💡💡
日本語
0
2
5
575
tsuki
tsuki@tensorcore·
codex、お願いするとMerge conflictを直してくれる。同僚みたいだ(? 実際に直してもらったことないけれど。
日本語
0
0
1
296
Han Guo
Han Guo@HanGuo97·
LLM training is dominated by compute-heavy ops like MatMuls and attention. But it also has many memory-heavy ops: norms, activations, residuals, reductions. These mostly move tensors around. As FP8/NVFP4 make FLOPs cheaper, data movement gets harder to ignore. Fig: ~1B LLaMA-3 training
Han Guo tweet media
English
2
2
61
7.4K