puwa

176 posts

puwa

puwa

@puwaer

高専 専攻科1年(B3) きままに言語モデルを開発しています。 開発していたSusonoモデルは、資金・GPU不足によりが中途半端に終わりました。 開発資金や計算資源をご提供いただける方はDMまでご連絡ください。 Hugging Face: https://t.co/BfXby2J44n

Katılım Aralık 2021
93 Takip Edilen515 Takipçiler
Sabitlenmiş Tweet
puwa
puwa@puwaer·
オリジナルのアーキテクチャのLLMを公開しました。 学習時のkernel最適化やfp8学習などを使用し、500Btokensほど事前学習しました。ただ、お金や時間がたりなく学習量や調整が不十分なため、性能は英語はまあまあ日本語はそこそこです。 詳しくはreadmeを読んでください。 huggingface.co/collections/pu…
日本語
2
137
701
140.6K
puwa retweetledi
puwa
puwa@puwaer·
I released an original architecture LLM! Pre-trained on ~500B tokens (fp8 & kernel optimized). Due to budget/time limits, it's under-trained—English is decent, Japanese is fair. Details in the README: huggingface.co/collections/pu…
English
0
3
30
3.6K
puwa
puwa@puwaer·
自分が使ってるモデル日本語のデータもちょっと入れたけど、日本語の性能ダメダメで圧倒的に英語の性能高いんだけど。 悲しい。
日本語
0
0
3
799
puwa
puwa@puwaer·
やっぱり、llmのtechnical reportはおもろい。 minmaxのやつが出てたんだ。 arxiv.org/abs/2605.26494
日本語
0
0
2
614
puwa
puwa@puwaer·
@yoechan_4ac 自分は、sudoコマンドが使えない事が多いので、Singularityを使ってます。
日本語
1
0
1
2.6K
よえ
よえ@yoeee145·
機械学習の研究するときの仮想環境ってDocker使うのが普通なのかな自分の研究室では自分しか使ってないけど
日本語
6
3
173
53.6K
puwa
puwa@puwaer·
Moonshot AIの中国語名が月之暗面で、日本人としては、中二病を感じてしまった。
日本語
0
1
12
1.1K
puwa
puwa@puwaer·
command a+のアーキテクチャ、キモすぎる。 attentionとmoeが並列に入っているのが違和感がすごい。 なんでこの設計になったのかな。計算効率がいいのかなぁ?
Sebastian Raschka@rasbt

It's been *almost* a bit quiet around LLM architecture releases in the past two weeks 😅 Interesting tidbit is the parallel block design. Via the Cmd-A the tech report "equivalent performance but significant improvement in throughput compared to the vanilla transformer block."

日本語
1
0
4
850
puwa
puwa@puwaer·
10ba1bのモデルで、400tokensほど学習が終わった。あと、10bぐらい学習してsft,dpo,(できればgrpo)学習したら、公開しよ。
puwa tweet media
日本語
0
0
7
439
puwa
puwa@puwaer·
今、10ba1bのモデルを学習しているのですが、このモデルの場合は、train rateを学習データ10b〜20b tokensでだんだん上げて、moeの全ての重みを均等に学習して、router_aux_loss_coefを0.002にしました。 router_aux_loss_coefは、モデルによって、0.001〜0.005ぐらいと思う。
日本語
0
0
0
254
puwa
puwa@puwaer·
これ、僕もmoeの学習がむずいと思いますが、10b,20bぐらいからは効果が出るんじゃないかなと思ってる。 あと、router_aux_loss_coefとかのハイパラを調整するのが、学習の進みといい感じにするのが難しいと思う。
webbigdata@webbigdata

何故、MoEのトレーニングがそんなに難しいのか 私の意見 ある程度、モデルサイズが大きくないと利点が活かせないのと、データが綺麗で且つ混合比率なども密なモデルより慎重な設計が必要

日本語
2
0
6
711
puwa
puwa@puwaer·
そうです。Claude codeで作成しました。 正確には、スライドでまとめたattentionの一覧をmdで論文をpdfとして読み込ませて、mdにまとめさせてから、スライド用のmdにして、コマンドでpptxに変化して、必要そうな図を入れた感じです。 正直、ある程度論文読んでないとこの方法は無理だと思います。
日本語
0
0
1
521
puwa
puwa@puwaer·
研究室のゼミで使ったスライドを公開しました。 現在、llmで使われているattentionとssm系をまとめました。 興味のある人は見てみてください。 speakerdeck.com/puwaer/llm-no-…
日本語
2
41
506
23.9K
puwa
puwa@puwaer·
@Tebasaki_lab ソノカコトハドウデモイイカラ、キゾンノLLMヲツクレ。 トリアエズ、megatron-lmヲカイゾウシテオリジナルノアーキテクチャヲジッソウシ、cudaカtritonデkernelノサイテキカシテ、ジゼンガクシュウシロヤ。
日本語
0
0
2
3.9K
手羽先|国産LLMを作る人
結局、人間の価値はLLMがまだ出来ないことを先にやっておくぐらいだと、さっき話して気付いた。LLMはまだ人間の脳の構造には程遠い。人間の持っている直感力やアイデアというものはまだ人間の方が優位。多分、あと数年だけは優位。その間に新しいアルゴリズムや法則を見つけ、そのあとはLLMが人間と同じ知能を持ち始めた時に渡すだけになる。
日本語
4
9
56
8K
puwa
puwa@puwaer·
朝起きたら、loos spikeで学習落ちてた。 blackwell世代でdelayed,blockwiseとかのスケール設定ミスったのかな。
日本語
0
0
0
505
puwa
puwa@puwaer·
AIDC-AI/Marco-Mini-Instructがqwen3 0.8Bからのupcycleしたものですごいと思ったが、その後に5Ttokens学習してるのかよ。 確かに、5Ttokensの学習でこの性能はすごいけど、めちゃくちゃ少なくなったとかでなく学習量が半分ぐらいになったのね。 huggingface.co/AIDC-AI/Marco-… huggingface.co/AIDC-AI/Marco-…
日本語
0
0
1
463
puwa
puwa@puwaer·
昨日、地元なので遺伝研に行ってきました。 化学分野なので全然分からなかったですが、(GLM)ゲノム言語モデルは面白かったです。 ゲノムを予測する関係上、Contextを長くするための、StripedHyena 2がcnnとattenのHybrid Architectureで面白い。 arxiv.org/abs/2503.01868 biorxiv.org/content/10.110…
日本語
0
0
0
430