
Imawaka Noriyuki
5.8K posts

Imawaka Noriyuki
@shimanebito
Web系技術屋→エクセル廃人→IT系技術屋へ昇華





后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲Elephant Alpha的推不是爆了吗,很多兄弟在评论区猜背后是谁,现在谜底揭晓了。 蚂蚁集团AGI团队(@AntLingAGI)的Ling-2.6-flash, 猜中国产大厂马甲的兄弟,你赢了。 说实话我看到架构数字那一刻,上周用它的所有体感全部对上了。 总参数104B,每次推理真正激活的只有7.4B,激活率7%,256个专家里每次只叫醒一小撮干活,其他的继续睡觉😂 这就是为啥上周我说它token消耗肉眼可见往下掉——100块钱的模型,每次推理只烧7块钱的算力,跑出了100块钱的智能,这可不是玄学啊,属于架构层面就在为效率让路。 再叠Linear Attention把传统Transformer的二次复杂度压下来,再加Multi-Token Prediction做推理加速,三件事一起上,FP8单卡341 tokens/s,Artificial Analysis实测输出215 tokens/s,和gpt-oss-120B并列第一梯队。 说实话,速度方面上周体验之后我早就服了,这回真正让我愣住的是跑分。 Artificial Analysis跑完全量评测,Ling-2.6-flash只烧了大约15M tokens,Nemotron-3-Super烧了接近10倍,Intelligence Score却拿到26,和Gemini 2.5 Flash同梯队。 都便宜到这个份上,大家下意识觉得肯定哪里凑合了,但agentic跑分直接打脸,SWE-bench Verified 62,BFCL-V4 67,TAU2-Telecom 93.86,SWE-bench测的是真实代码仓库里定位Bug加生成补丁,BFCL测的是函数调用准确性,全是硬场景,不是那种学术榜单刷分。 上周我搭那个串三个工具的小Agent跑得贼利索,现在明白了,这模型从训练阶段就是奔着Agent去的,别人做Agent是改装车,它是原厂出的Agent专用机。 所以我上周说的那套玩法现在有了官方解释——Claude管架构和规划调一次,Ling-2.6-flash管分步执行跑一百次,成本砍到十分之一,不是我瞎搭的野路子,是这个模型本来就为这个场景而生。 蚂蚁的产品线逻辑也清晰,Ling做基础,Ring做推理,Ming做多模态,这次先以stealth身份在OpenRouter和Kilo上免费放出来收集反馈,后面会开源,再推商用版LingDT,还会出BF16/FP8/INT4量化版。 路径就是社区验证→开源扩散→商业落地,对开发者来说,现在就是白嫖窗口期,免费还剩几天。 用了这段时间我给它的定位很明确,它是目前最适合一直开着的模型之一,Agent持续跑、代码补全随时触发、长文档批量处理,越高频越省钱,账单每个月都会替它说话。 但极端复杂的推理链、需要反复自我纠错的长思考任务,你可能还是得上重型推理模型,它的sweet spot是够聪明+极快+极省那个三角区,日常80%的活它接得住,接得还比大多数模型便宜。 所以说2026年看模型不能再盯着单一智能分了,当Agent从偶尔问一下变成24小时不间断跑的基础设施,每个token的有效产出就是新的胜负手,Ling-2.6-flash是目前这个方向上跑得最激进、也交出实际成绩单的选手之一。 上周说过的话,这周全部兑现,挺爽的🌚 #ElephantAlpha #Ling2Flash #AntAGI #Agent #大模型

it’s 2026 and this is how you install apps on macOS










