watson999
563 posts








21世纪经济报道这篇《大量黄牛倒卖Token,最便宜仅官方价1%》值得看看: 现在中转站有多火热?一位年初入场的站长,如今同时开了三个站点:一个主做Claude,一个主做ChatGPT,一个专做企业私有化。客户多是个人开发者,也有国内科研机构和AI漫剧公司。 行业在迅速壮大分化。不少站长反映,最近找上门最多的是想做代理的人,从大站拿token额度,自己只负责下游分销。“现在这行最多的就是八手站了,还有各种价格低到离谱的公益站。”另一位站长苦笑道。 价格战打起来了,许多中转站token价格来到官方的10%~30%,最便宜的甚至只要1%。一鱼两吃的暴利手段是业内的公开秘密:调用假模型,骗用户token赚一笔;出售用户数据,再赚一笔。 “中转站能做下去,第一是有需求,第二是AI行业存在大量信息差。”曾在一家明星AI初创公司负责对外采购的人士发现,信息差不仅普通用户有,就连业内公司也有。许多做AI产品的公司甚至都不知道,自己有哪些正规途径调用海外大模型。


这应该是今天我最重要的信息转发。 我们可能做错了 AI Agent 的长期记忆系统。 最近 arXiv 上的新论文《Useful Memories Become Faulty When Continuously Updated by LLMs》揭露了一个极其残酷的现实: 你让 Agent 越努力去复盘和总结经验,它反而变得越蠢。 现在业界流行让 Agent 在运行中做 Memory Consolidation,把原始日志抽象成通用规则存起来。但实验表明,随着流式更新的深入,LLM 在反复重写记忆时,会不可避免地引入信息失真和错误累积。 最夸张的案例:在 ARC-AGI 任务里,原本没有记忆时模型能 100% 完美解决;但只要让它基于自己完全正确的历史轨迹去连续增量总结,准确率竟然暴跌到 54%!模型在自我反思的过程中,硬生生把自己给绕晕了。 看完论文我的几点工程思考: 1.原始情节记忆(Raw Episodic Memory)被严重低估了。 很多时候,直接把原始交互 Trace 作为 Few-shot 塞给 Prompt,效果完胜那些经过模型精简、看似高大上的规则库。 2.拒绝盲目实时更新。 鲁棒的 Agent 架构应该把原始情节视为第一手铁证,引入显式的门控机制,只有在非必要不整合。 3.异质任务必须隔离。 绝对不要把不同任务的经验混在一个批次里让 LLM 做增量总结,异质数据会加速记忆崩溃。 这篇论文的作者之中,来自@Tsinghua_Uni 交叉信息研究院的Zhengkun Wu是我最好的朋友之一,目前他在UIUC进行春研。我们相识已久,他是个很聪明并且创新性想法很多的人,在我的朋友里,他独特且有个人魅力。和他交流进步,我感到十分荣幸且开心。 祝愿他的科研、学习之路顺利!


有点尴尬,发现 Codex 给我写的项目有好多垃圾代码,我到底该不该清理呢? 感觉意义也不太大,能过测试就行。 AI 时代要抛弃代码洁癖,没人在意你的代码写得如何,it just works 才是对的。


ai 生成的测试用例很多都是 “甜路径” ,100% 通过的质量经常比不上人自己写的用例 30% 通过率的质量,完全依赖 ai 生成的用例 100% 通过了,也是一堆 slop。

我提议现在开始所有前端工程师响应 AI 时代号召改名Agent 算法工程师










