tsuki

1.7K posts

tsuki banner
tsuki

tsuki

@tensorcore

Hiroyuki Ootomo. High-precision GEMM emulation on Tensor Cores. Work at #76B900. Cooking @cp_async. Hai-to-Yoka: https://t.co/jAdudlZfnb

Tokyo, Japan Katılım Kasım 2017
461 Takip Edilen3.3K Takipçiler
Sabitlenmiş Tweet
tsuki
tsuki@tensorcore·
emulation is all you need
English
1
0
29
18.8K
tsuki
tsuki@tensorcore·
講義の資料を作らないとなのだけれど、そこはかとなくやる気が起きない。やっぱり教員には向いていないのだろうな。
日本語
0
0
2
63
tsuki retweetledi
msk
msk@crcrpar·
イケメンに会いたい その機能はいらないと思う だけで日々生きてる
日本語
0
2
3
440
tsuki
tsuki@tensorcore·
migrating from PhotoPrism to Immich
English
0
0
2
266
tsuki
tsuki@tensorcore·
研究室のSlackに指導教員の変顔を投稿するチャンネルが欲しい
日本語
0
1
8
806
sacha🥝
sacha🥝@alexUnder_sky·
@tensorcore goals > ethics, or how niccolo machiavelli said: the ends jusrify the means
English
1
0
1
83
tsuki retweetledi
Kazuki Fujii
Kazuki Fujii@kazukifujii·
テックブログ公開 Day5です FlashAttentionや昨今のHardware Awareな高速化手法を理解したり、提案したりする上で必須となるCUDA Programmingに関して、基礎から解説していくブログシリーズの第一弾です。3万字超えのブログですが、かなり分かりやすく書いていますのでぜひご覧ください。 CUDA Programming Guide Part 1|Kazuki Fujii zenn.dev/kaz20/articles…
Kazuki Fujii tweet mediaKazuki Fujii tweet media
Kazuki Fujii@kazukifujii

テックブログ公開 Day4です。 RLVR(強化学習)時代において欠かすことのできないweight syncの機能についてvLLMがどのようにこれを実現しているのかやさしく解説を行いました。 RLVR時代におけるInference Framework: Weight Syncing編|Kazuki Fujii zenn.dev/kaz20/articles…

日本語
2
93
508
58.2K
tsuki
tsuki@tensorcore·
Hey, CodeRabbit and Codex, can you communicate directly without going through me?
English
2
0
4
397
tsuki
tsuki@tensorcore·
夜食べても太らない美味しい無が欲しい。取り敢えず塩かき氷を試してみようかと。
日本語
0
0
2
183
tsuki
tsuki@tensorcore·
Surface RTX Spark Dev Box...? Not a BBQ plate?
English
0
0
5
369
tsuki
tsuki@tensorcore·
最近バカすぎて風邪ひいてない
日本語
0
0
6
252
tsuki retweetledi
SIAM Activity Group on Supercomputing
Don't miss our upcoming Supercomputing Spotlights webinar! Laura Grigori will be speaking about "Randomized mixed precision algorithms for large scale linear algebra problems" on June 10, 2pm UTC! More details + registration link here: siag-sc.org/randomized-mix…
English
0
2
5
289
tsuki
tsuki@tensorcore·
羽田とかの入国エリアで怒鳴っている案内係たち、早くAIに置き換わらないかな
日本語
1
0
0
286
tsuki
tsuki@tensorcore·
Recently, cheap-looking AI-generated images have been everywhere on blogs and social media. They often feel overloaded with details, with no sense of restraint or "beauty of subtraction." If this is the result of AI democratization, it's kind of pathetic.
English
0
1
6
246
acc-mu3n
acc-mu3n@AcceleratedMu3n·
@tensorcore パチかわとパチワレは食べれるのですね!?
日本語
1
0
0
93
acc-mu3n
acc-mu3n@AcceleratedMu3n·
少し前に某同僚から笹団子ちぃかわお土産で戴きました。可愛い。可愛すぎる 出社するたびに、つい見つめてしまう☺️
acc-mu3n tweet media
日本語
1
0
2
599
tsuki retweetledi
msk
msk@crcrpar·
在籍してるオフィスでポジションいくつか空いてるぽい。私はオフィスにいないので「いやcrcrparの顔が見たくねーんだよ」という人も良いのでは💡💡💡
日本語
0
2
5
574
tsuki
tsuki@tensorcore·
codex、お願いするとMerge conflictを直してくれる。同僚みたいだ(? 実際に直してもらったことないけれど。
日本語
0
0
1
295
Han Guo
Han Guo@HanGuo97·
LLM training is dominated by compute-heavy ops like MatMuls and attention. But it also has many memory-heavy ops: norms, activations, residuals, reductions. These mostly move tensors around. As FP8/NVFP4 make FLOPs cheaper, data movement gets harder to ignore. Fig: ~1B LLaMA-3 training
Han Guo tweet media
English
2
2
61
7.4K
tsuki
tsuki@tensorcore·
JAL Hangar Tour!
tsuki tweet mediatsuki tweet mediatsuki tweet mediatsuki tweet media
Indonesia
0
1
1
289
tsuki
tsuki@tensorcore·
ANA Blue Hangar Tour! (Posted with ANA’s permission)
tsuki tweet mediatsuki tweet mediatsuki tweet mediatsuki tweet media
English
1
0
12
1.1K