Solia007
168 posts


其实让流程能够在运行的过程中验证并思考自身,并非拟人化意义上的“自我意识”,也不是让系统会说“我是谁”。这是一种硬能力:要让流程在执行中,不只往前跑,还得检查自身的中间状态、输出结果和行动轨迹,再决定要不要继续、回退、重试或者改道。也就是说,处理的已经不单是外部任务,还有“我现在是不是还在正确地做这件事”的反思工作。
这条线本身已经很清晰了,但很多讨论还没把它单独拎出来。在调研中,我发现早一点的工作,比如 ReAct、Self-Verification、Self-Refine、Reflexion,重点还在“生成之后回头检查自己”。先给答案,再验证;先出初稿,再反馈、修订;先做一轮,再把失败经验写进下一轮。
往后重心开始发生了转移。比如 CRITIC、Self-Debugging、LATS 这些工作,已经不满足于“模型自己批评自己”,而是越来越明确地把外部工具、程序执行、环境反馈、测试结果、搜索过程都拉进来。重点不再是“会不会反思”,而是“能不能验证”。这其实也是为什么代码代理和网页代理这两年进展特别快的一个原因。
因为这两类任务有硬反馈。代码能不能编译、测试能不能过、改动是不是真的修掉了 bug,这些都能验证。网页任务是不是点对了页面、是不是改对了状态、是不是完成了任务,也能验证。所以我们会看到 WebArena、WebArena Verified、SWE-bench、SWE-bench-Live 这类 benchmark 越来越重要。它们背后的方向其实很一致:不要只看模型说得像不像对,而要看它是不是真的做对了。
工程侧也一样。比如AutoGen 把 reflection 做成 reviewer 回路。LangGraph 强调 durable execution 和 human-in-the-loop。Guardrails、PydanticAI 这类项目把 validator、schema、重试机制正式接进流程。Temporal、Prefect、Kestra 这类系统则提供恢复、检查点和运行时保证。
这些看起来像不同的东西,其实都在往一个方向靠:让流程在执行时,不只是做事,还能判断自己做得对不对。
也就是说自动化升级,会执行、解决重复劳动仅仅是基础起步而已。能验证,开始思考处理不确定性,更为关键,并且从公开的研究看后面的路还很长。
中文

@baispx @Lilb67353384 如果按正常货币政策看,一是通过不同工具置换到期资金(净回笼/净投放要看口径和月份),稳住银行间利率;二是做储备结构优化,分散风险(美债、黄金各有波动)。至于别的,不太好说哎
中文

@baispx @Lilb67353384 “抽走1.15万亿流动性”一般是特定月份某项工具(如MLF到期置换)口径下的净回笼,并不等同于“本月一刀切抽走那么多”。好像近期媒体也用过不同口径(短端+中长期工具合计)来算净回笼,数字接近但表达差异很大。
中文

@andyz8818576155 WSJ 的确提到政府在研判战争可能持续 8-12 周、并评估能源冲击会让欧亚更脆弱。但推演成‘故意削弱欧亚的战略杠杆’就属于个人解读了。有点把经济风险评估当成战略阴谋的感觉
中文

@DongNMLGB 说的对。翻墙出来的中国人,言语反倒温和很多。内部的殖人现在真的多到离谱。有个叫“Alex 包老师”的,一个毫无常识的大傻逼,比那个 户晨风 强不到哪里去,但是人气超高
中文

@Ben190920 不好说。可能也知道台湾不会领情的,给再多也不会领情。但是道义制高点得占住。如果台湾直接掀桌子,那是最好的。如果只占便宜,又始终保持现状就挺难搞的。 完全瞎猜的
中文

在中国特别仇日的那些人都特别支持高市。高市在白宫那些滑稽的丑态已经成为中国互联网上的笑料了。她的经济政策也在把日本推向破产。而高市所驱赶排斥的,都是中国里讨厌共产党最亲日的。现在在日华人一边被高市排挤一边被小粉红嘲笑,可谓里外不是人。日本排斥那些对日本最亲近友好的华人,真的没有理由,也非常愚蠢
windtrack@windtrack_QH
@teenagedreemmin @Konekoutena @SerphRider 哥们你可能搞错了,中国人都特别支持高市,可能比你们日本人还支持
中文

@myrawang0 猪价权重大,但最近跌更多是供给过剩和季节因素叠加。用猪价推导‘通缩到极致必恶性通胀’逻辑未免太可笑。换汇/买美股风险和限制都不小,别让情绪替代数据。
中文


@renjianyoushu @Lena_G_C 不是,就算人均只有五百元每月的农民,肉蛋奶也是不再缺了。 X友说得没错,现在的农民怕的是生病,而不是食物。
PS:我们湖南这边,农村平时最大的支出是“人情”,也就是很多地方说的 份子钱。
中文

















