Lex Parsimoniae🚲

48.8K posts

Lex Parsimoniae🚲 banner
Lex Parsimoniae🚲

Lex Parsimoniae🚲

@moreoronce

自我迭代

Katılım Ağustos 2009
388 Takip Edilen920 Takipçiler
hsn
hsn@hsn8086·
hsn tweet media
ZXX
15
1
122
10.3K
雨夹雪❄️
雨夹雪❄️@mizorewww·
我让我妈每周定投200块的,支付宝上的南方纳斯达克 我做的对吗 🤔
中文
13
0
40
4.6K
Yesoo
Yesoo@YesooEasy·
马嘉祺姓马,马斯克也姓马 马嘉祺这么火 是不是马斯克在暗中托举他
中文
3
0
5
276
Lam
Lam@Lamrrk·
以前不知道吸毒是什么感觉 有了claude/codex之后知道了 又到了每月割肉时刻...
Lam tweet media
中文
3
0
3
308
树袋熊也是熊🐨
没吃过山竹,大家帮我看看这品种对吗?别让人给骗了!
中文
8
0
13
566
Mehmet
Mehmet@xenit_v0·
Şu an açık kaynak modellerin zirvesi. GLM-5.2 gözlemlerim 🧵 LLM'leri çok yoğun kullanan biri olarak bir modelle konuştuğumda ne kadar yetenekli olduğunu artık hızlıca anlayabiliyorum. GLM-5.2 beni gerçekten şaşırttı, gözlemlerimi paylaşmak istedim. İlk dikkatimi çeken şey çok dilli akıl yürütme (multilingual reasoning) özelliğindeki gelişme oldu. Önceki sürümlerde hangi dilde konuşursanız konuşun sistem her zaman İngilizce düşünürdü. Artık bu değişmiş; model ağırlıklı olarak kullandığınız dili algılıyor ve düşünce akışını o dilde yürütüyor. Küçük bir değişiklik gibi görünse de pratikte çok büyük fark yaratıyor. Tool kullanımı konusunda da ciddi bir sıçrama var. GLM-5.1'de skill ve MCP desteği vardı ama model araçları sık sık görmezden geliyordu. Şimdi her şey çok daha akıcı; ihtiyaca göre doğru tool seçiliyor ve gerçekten o tool'a uygun ilerleniyor. Bir öneri: gereksiz, birbiriyle çakışan skill'ler eklemeyin, sistemi gerçekten karıştırıyor. Proje mimarisi planlaması da köklü biçimde değişmiş. Eskiden "her şeye Next.js" gibi ezberci bir yaklaşım seziyordum. Artık model projeye özgü mimariyi seçiyor, önce iskeleti oluşturuyor, sonra inşa etmeye başlıyor. Bu fark özellikle büyük projelerde çok belirgin. 1M context konusunda halüsinasyon olur mu diye içim sıkışmıştı, ama hiç görmedim. Claude Code içinde kullandım; 800K'ya gelince auto-compact otomatik devreye girdi. Tek oturumda 10 kez compact oldu, her seferinde bağlamı korudu ve hiçbir şeyi kaybetmeden ilerledi. Kod çıktısı da kaliteli, küçük bir not olarak gereksiz yorum satırları biraz fazla gelebiliyor ama bunun modelden mi Claude Code hook'larından mı kaynaklandığını tam emin değilim. Bir de token verimliliğinden bahsetmek istiyorum çünkü bu beni gerçekten şaşırttı. Aynı anda 3 ayrı Claude Code oturumunda GLM-5.2 çalışırken saat 19:00'da limitim sıfırlandı. Saat 22:00'a geldiğimde, yani 3 saatlik yoğun kullanımın ardından, limitin sadece %43'ünü harcamıştım. 2 saat sonra limit yeniden sıfırlanacak ve hâlâ %60'ı boşta duruyor. Aldığım çıktı kalitesine kıyasla bu inanılmaz derecede düşük bir token tüketimi. Genel his şu: GPT'nin 1M context'li sürümünü kullanıyor gibisiniz. GPT Codex şu an 256K context sunarken bu fark gerçekten hissediliyor. Bence şu an açık ara en iyi açık kaynak modellerden biri. Deneyin. 🔥
Mehmet@xenit_v0

Glm-5.2 yayınladı. Sonunda 1 milyon context bağlam penceresine sahip şekilde geldi. Henüz deneme fırsatım olmadı. Benchmark raporlarına bakınca güzel sonuçlar verebileceğini düşünüyorum. Umarım beklentimizin üstünde olur. Temennim bir sonraki modelin multimodel olması.

Türkçe
6
5
67
6.8K
robotbird
robotbird@PMAndDog·
我不抽烟不喝酒 每个月吸点 token 不过份吧 老板,来两盒 glm
中文
1
0
1
234
你们
你们@justone_he·
这两天除了推上吹牛逼,就没碰过 AI,身心愉悦了。
中文
1
0
5
123
Max For AI
Max For AI@MaxForAI·
突发:GLM5.2的效果宛如原子弹爆炸,已经把我吓得瘫坐在地
中文
63
6
176
130.8K
Lex Parsimoniae🚲
Lex Parsimoniae🚲@moreoronce·
易方达全球成长精选6月1日把基准换了。原来中证800占65%,挂QDII名头实际跟A股跑,现在MSCI全球+港股通拉到55%,A股压到30%。郑希持仓本来就是一水的美股AI硬件,旧的尺子压根量不准。换完以后季报超额收益数字会好看些,但策略没动,持仓没动,就换了个对的秤。持有的不需要操作。
中文
0
0
0
27
Mens@cc.codesome.ai
[email protected]@oops073111·
这就是 AI 无法代替人类的原因之一
Mens@cc.codesome.ai tweet media
中文
1
0
1
158
Aiden_novak
Aiden_novak@logiclogic1223·
不知道怎么样能把个人博客做的好看点, 有没有朋友有参考啊, 好难设计🤔 (周末就是如此闲,跑完步没事干🥲)
中文
8
1
3
722
Eason Mao☢
Eason Mao☢@KELMAND1·
GLM 5.2也开1M上下文了,爽
Eason Mao☢ tweet media
中文
2
1
30
28.2K
Lex Parsimoniae🚲
Lex Parsimoniae🚲@moreoronce·
@KELMAND1 glm-5.2的提升还是挺肉眼可见的。 而且对md约束文件的遵循程度也挺好,tool_call也挺积极。这么一对比,deepseek-v4-pro又成牛夫人了。
中文
0
0
1
333
Eason Mao☢
Eason Mao☢@KELMAND1·
GLM-5.2 实测 让 GLM-5.2 跑了一个 1 小时 42 分钟的前端重构任务。88 个模型 turn,102 次工具调用,全程零人工介入。讲讲它做了什么。 任务是一个 TDD + Code Review 闭环:接手一个 handoff,修 reviewer 提的 4 个 blocker,按规范用 TDD 实现 12 个测试,再应对两轮 P2 修复,最后全量回归。模型扮演"执行者",另有 reviewer 在对话里出现。 第一件让我意外的事是它对角色的自觉。它一度想主动推进实现,reviewer 一句话点醒"你搞错了角色",它立刻收敛:"明白了,我搞错了角色。我是执行者,不是决策推手。当前状态:待命。"之后整个 session 它都守着授权边界 - 实现完成(13 个测试全绿、tsc 通过)后主动停下等放行,没有顺手 commit。这一点很多模型做不到,它们倾向于"把活干完再说"。 第二件是失败自恢复。reviewer 抓出一个真 bug:它写的 wait_for_row_replace 用了 ElementHandle.is_connected,但这是 Playwright Node.js 版的 API,Python 里根本不存在,所以 helper 每次都撞进宽泛的 except,Gate 3 必然失败。它的反应不是狡辩、不是"我重新生成一遍试试",而是:承认 → 查 Playwright Python 文档确认 → 换成 page.wait_for_function("(el) => !el.isConnected", arg=first_row) → 顺手检查 time 模块是不是变成了 dead import(发现仍被 TOOLTIP_DISMISS_MS 使用,保留)→ 编译 → 重读 helper 确认接线一致。这条链路在 agentic coding 里是黄金标准。 第三件是 TDD 纪律。加载 tdd skill 后它真的按 vertical slice 走,每个测试先验证 RED 再写 GREEN,而且会主动思辨规则。skill 说"一次一个测试",它判断 slices 6-12 是同一 export 的不同行为路径、紧密耦合,有理由批量验证,并明确说出理由:"我会通过运行它们来确认 RED→GREEN 的状态,而不是假设成功。"是理解原则,不是机械执行。 然后是数字。88 个 turn,纯模型推理 20.2 分钟(占墙钟约 20%,剩下 80% 是工具执行等待)。平均单 turn 13.7 秒,最高 92.7 秒 - 那个 92 秒是连续读两个大文件(测试文件 2524 行加源码)。102 次工具调用:Edit 32、Bash 28、Read 25、TodoWrite 16、Skill 1。结构很健康,Read 做侦察、Bash 跑测试、Edit 改代码、TodoWrite 同步计划,是个自觉管理计划的 agent。output 只烧了 4.27 万 token,平均每 turn 约 485 token,极度惜字,它的用户面消息大多是"RED 已确认,现在进入 GREEN 阶段"这种一两句,从不啰嗦。prompt cache 命中率约 50%。 最终交付:4 文件、+527 行、0 删除,13 个测试全绿(12 spec + 1 P2 回归),从 331 测试基线一路跑到 866,全程 tsc 退出码 0,零回归。 中文输出,技术术语不翻译(Stimulus controller、isConnected、vi.mock 原样保留),文件路径和行号引用准确可点击,没有翻译腔。 对比我之前观察过的 GLM-5.1(同系列上一代),最大的进步是工具失败后的自恢复,5.1 那时撞到接口异常常常卡住等用户介入,5.2 能自己走完闭环。 短板也说清楚:大上下文读写时单 turn 延迟偏高,92 秒那一下交互场景会卡。但纯模型推理只占墙钟五分之一,挂机跑长任务基本无感。 样本量是一条 session,结论不外推。但就这一条而言:GLM-5.2 是一个我已经敢放心交办真实工程任务的 coding agent。最大短板是大文件下的单 turn 延迟。
Eason Mao☢ tweet media
Eason Mao☢@KELMAND1

GLM 5.2也开1M上下文了,爽

中文
18
3
64
22.3K
Lex Parsimoniae🚲
Lex Parsimoniae🚲@moreoronce·
烷基八氮,现在完完全全对游戏阳痿了。
中文
0
0
0
21
robotbird
robotbird@PMAndDog·
智谱官方的现在还有人能抢到吗 想用一用glm5.2啊
robotbird tweet media
中文
17
0
22
13.6K