puwa

176 posts

puwa

@puwaer

高専　専攻科1年(B3) きままに言語モデルを開発しています。開発していたSusonoモデルは、資金・GPU不足によりが中途半端に終わりました。開発資金や計算資源をご提供いただける方はDMまでご連絡ください。 Hugging Face: https://t.co/BfXby2J44n

Katılım Aralık 2021

93 Takip Edilen515 Takipçiler

Sabitlenmiş Tweet

puwa@puwaer·2d

オリジナルのアーキテクチャのLLMを公開しました。学習時のkernel最適化やfp8学習などを使用し、500Btokensほど事前学習しました。ただ、お金や時間がたりなく学習量や調整が不十分なため、性能は英語はまあまあ日本語はそこそこです。詳しくはreadmeを読んでください。 huggingface.co/collections/pu…

日本語

137

701

140.6K

puwa retweetledi

MikaStars★@MikaStars39·1d

😯ppo

Z.ai@Zai_org

Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong long-horizon capabilities with a 1M context window - Two levels of reasoning effort: GLM-5.2 (max) pushes the limits, while GLM-5.2 (high) strikes a strong balance between performance and token efficiency - MIT-licensed open weights - Same API pricing as GLM-5.1 Tech Blog: z.ai/blog/glm-5.2 Weights: huggingface.co/zai-org/GLM-5.2 API: docs.z.ai/guides/llm/glm… Coding Plan: z.ai/subscribe Chat: chat.z.ai

45.3K

puwa@puwaer·2d

I released an original architecture LLM! Pre-trained on ~500B tokens (fp8 & kernel optimized). Due to budget/time limits, it's under-trained—English is decent, Japanese is fair. Details in the README: huggingface.co/collections/pu…

English

3.6K

puwa@puwaer·5d

自分が使ってるモデル日本語のデータもちょっと入れたけど、日本語の性能ダメダメで圧倒的に英語の性能高いんだけど。悲しい。

日本語

799

puwa@puwaer·5 Haz

こんなスーパーの広告みたいなスパコンの広告始めて見た。おもしろすぎ。

筑波大学計算科学研究センター（CCS）広報・戦略室@CCS_PR

大阪大学D3センターさん、相変わらずポスターが目を惹きますね。毎回よく思いつくなぁと、じつはちょっと楽しみにしています。筑波大のPegasus、Siriusも有償使用枠はあるのですが、もっと宣伝しないとですね。

日本語

1.3K

puwa@puwaer·29 May

やっぱり、llmのtechnical reportはおもろい。 minmaxのやつが出てたんだ。 arxiv.org/abs/2605.26494

日本語

614

puwa@puwaer·29 May

ソフトバンクもllmのOpenweightするのやめちゃったんだ。 itmedia.co.jp/aiplus/article…

日本語

463

puwa@puwaer·28 May

@yoechan_4ac 自分は、sudoコマンドが使えない事が多いので、Singularityを使ってます。

日本語

2.6K

よえ@yoeee145·27 May

機械学習の研究するときの仮想環境ってDocker使うのが普通なのかな自分の研究室では自分しか使ってないけど

日本語

173

53.6K

puwa@puwaer·25 May

Moonshot AIの中国語名が月之暗面で、日本人としては、中二病を感じてしまった。

日本語

1.1K

puwa@puwaer·21 May

command a+のアーキテクチャ、キモすぎる。 attentionとmoeが並列に入っているのが違和感がすごい。なんでこの設計になったのかな。計算効率がいいのかなぁ？

Sebastian Raschka@rasbt

It's been *almost* a bit quiet around LLM architecture releases in the past two weeks 😅 Interesting tidbit is the parallel block design. Via the Cmd-A the tech report "equivalent performance but significant improvement in throughput compared to the vanilla transformer block."

日本語

850

puwa@puwaer·12 May

10ba1bのモデルで、400tokensほど学習が終わった。あと、10bぐらい学習してsft,dpo,(できればgrpo)学習したら、公開しよ。

日本語

439

puwa@puwaer·7 May

今、10ba1bのモデルを学習しているのですが、このモデルの場合は、train rateを学習データ10b〜20b tokensでだんだん上げて、moeの全ての重みを均等に学習して、router_aux_loss_coefを0.002にしました。 router_aux_loss_coefは、モデルによって、0.001〜0.005ぐらいと思う。

日本語

254

puwa@puwaer·6 May

これ、僕もmoeの学習がむずいと思いますが、10b,20bぐらいからは効果が出るんじゃないかなと思ってる。あと、router_aux_loss_coefとかのハイパラを調整するのが、学習の進みといい感じにするのが難しいと思う。

webbigdata@webbigdata

何故、MoEのトレーニングがそんなに難しいのか私の意見ある程度、モデルサイズが大きくないと利点が活かせないのと、データが綺麗で且つ混合比率なども密なモデルより慎重な設計が必要

日本語

711

puwa@puwaer·2 May

そうです。Claude codeで作成しました。正確には、スライドでまとめたattentionの一覧をmdで論文をpdfとして読み込ませて、mdにまとめさせてから、スライド用のmdにして、コマンドでpptxに変化して、必要そうな図を入れた感じです。正直、ある程度論文読んでないとこの方法は無理だと思います。

日本語

521

puwa@puwaer·1 May

研究室のゼミで使ったスライドを公開しました。現在、llmで使われているattentionとssm系をまとめました。興味のある人は見てみてください。 speakerdeck.com/puwaer/llm-no-…

日本語

506

23.9K

puwa@puwaer·26 Nis

@Tebasaki_lab ソノカコトハドウデモイイカラ、キゾンノLLMヲツクレ。トリアエズ、megatron-lmヲカイゾウシテオリジナルノアーキテクチャヲジッソウシ、cudaカtritonデkernelノサイテキカシテ、ジゼンガクシュウシロヤ。

日本語

3.9K

手羽先｜国産LLMを作る人@Tebasaki_lab·26 Nis

結局、人間の価値はLLMがまだ出来ないことを先にやっておくぐらいだと、さっき話して気付いた。LLMはまだ人間の脳の構造には程遠い。人間の持っている直感力やアイデアというものはまだ人間の方が優位。多分、あと数年だけは優位。その間に新しいアルゴリズムや法則を見つけ、そのあとはLLMが人間と同じ知能を持ち始めた時に渡すだけになる。

日本語

puwa@puwaer·23 Nis

朝起きたら、loos spikeで学習落ちてた。 blackwell世代でdelayed,blockwiseとかのスケール設定ミスったのかな。

日本語

505

puwa@puwaer·19 Nis

mhc-liteとengramをtritonてカーネル最適化したら、学習が1.5倍ぐらい速くなった。頑張ってよかった。 github.com/puwaer/Megatro… github.com/puwaer/Megatro…

日本語

557

puwa@puwaer·10 Nis

AIDC-AI/Marco-Mini-Instructがqwen3 0.8Bからのupcycleしたものですごいと思ったが、その後に5Ttokens学習してるのかよ。確かに、5Ttokensの学習でこの性能はすごいけど、めちゃくちゃ少なくなったとかでなく学習量が半分ぐらいになったのね。 huggingface.co/AIDC-AI/Marco-… huggingface.co/AIDC-AI/Marco-…

日本語

463

puwa@puwaer·5 Nis

昨日、地元なので遺伝研に行ってきました。化学分野なので全然分からなかったですが、(GLM)ゲノム言語モデルは面白かったです。ゲノムを予測する関係上、Contextを長くするための、StripedHyena 2がcnnとattenのHybrid Architectureで面白い。 arxiv.org/abs/2503.01868 biorxiv.org/content/10.110…

日本語

430

Keşfet

@Tebasaki_lab @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA @nikifrancismediavine