
puwa
176 posts

puwa
@puwaer
高専 専攻科1年(B3) きままに言語モデルを開発しています。 開発していたSusonoモデルは、資金・GPU不足によりが中途半端に終わりました。 開発資金や計算資源をご提供いただける方はDMまでご連絡ください。 Hugging Face: https://t.co/BfXby2J44n



Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong long-horizon capabilities with a 1M context window - Two levels of reasoning effort: GLM-5.2 (max) pushes the limits, while GLM-5.2 (high) strikes a strong balance between performance and token efficiency - MIT-licensed open weights - Same API pricing as GLM-5.1 Tech Blog: z.ai/blog/glm-5.2 Weights: huggingface.co/zai-org/GLM-5.2 API: docs.z.ai/guides/llm/glm… Coding Plan: z.ai/subscribe Chat: chat.z.ai


大阪大学D3センターさん、相変わらずポスターが目を惹きますね。毎回よく思いつくなぁと、じつはちょっと楽しみにしています。 筑波大のPegasus、Siriusも有償使用枠はあるのですが、もっと宣伝しないとですね。

It's been *almost* a bit quiet around LLM architecture releases in the past two weeks 😅 Interesting tidbit is the parallel block design. Via the Cmd-A the tech report "equivalent performance but significant improvement in throughput compared to the vanilla transformer block."

何故、MoEのトレーニングがそんなに難しいのか 私の意見 ある程度、モデルサイズが大きくないと利点が活かせないのと、データが綺麗で且つ混合比率なども密なモデルより慎重な設計が必要







