搞钱启示录

1.3K posts

搞钱启示录

@shendu128

Katılım Şubat 2023

1.6K Takip Edilen189 Takipçiler

搞钱启示录@shendu128·8h

图一是 ChatGPT，图二是 gemini，图三是 grok，图四是即梦

中文

搞钱启示录@shendu128·8h

四个模型生成图片 PK，你猜对了吗？同一组提示词，：生成图片比例9：16，信息图海报，主题是人类演变进化过程，从类人猿到直立行走的现代人中间历经的所有过程，背景是发黄的复古牛皮纸

中文

搞钱启示录@shendu128·8h

第一张好像手指出问题了，使用 ChatGPT 重新生成两张，其中一张好了，另外一张依然有问题。看来 ChatGPT image 2在手指处理上还是有问题

中文

搞钱启示录@shendu128·9h

你觉得哪家生图强？同一套提示词与参考图生成：第一图是 GPT-image-2，第二图是 nanobanana pro ，第三图是 grok，第四图是即梦5.0【不能参考真人图】，我觉得还是 ChatGPT 强。

搞钱启示录@shendu128

同一个提示词谷歌🍌表现太好了，很真实，而 grok 的塑胶感感觉太假

中文

277

搞钱启示录@shendu128·11h

AI 代理的“Harness”到底是个啥？为什么它比模型本身重要 100 倍？先说核心结论：模型只是“脑子”，Harness 才是“整个身体和环境” 推文作者 Rohit 直白地说：你用 AI 用得不对，不是因为没挑到最牛的模型，而是因为你没给它搭好“环境框架”（Harness）。想象一下： •模型 = 一个超级聪明但“近视+健忘+容易分心”的天才小孩。 •Harness = 你给他准备的书桌、工具箱、闹钟、护栏、记事本，还有“下次我醒来时该从哪儿继续”的手册。小孩再聪明，如果书桌乱成一锅粥、工具找不到、每次醒来都忘光前一天的事……他也干不成大事。洞见1：AI 不是“通用推理机”，它本质是个基于上下文的模式匹配引擎。它这一刻“知道”的一切，全看上下文窗口里塞了啥；它能输出啥，全看这些信息是怎么组织的。 → 界面不是“装饰”，界面就是它的大脑。  洞见2：好的 Harness 不是“帮 AI 更聪明”，而是提前堵住它必然会犯的蠢。它像一个贴心的监护人，知道小孩会在哪儿摔跤，就提前放好护栏。为什么需要专门设计？因为 AI 的“认知架构”和人完全不一样： •人能一眼扫屏幕、空间记忆、并行注意。 •AI 是顺序处理 token、对格式极度敏感、工作记忆极小、容易被最显眼的信息“锚定”。 SWE-agent 的四个核心组件，每一个都精准狙击 AI 的弱点： 1搜索与导航：不是原始 grep，而是 capped 输出 + “结果太多请缩小”的提示。 → 逼 AI 必须精准，不能越搜越乱。 2文件查看器：一次只看 100 行（黄金数量），保持状态，每行强制加行号。 → 省掉 AI 自己数行的认知负荷，让它把脑力留给真正的问题。 3带 linting 的文件编辑器：编辑是原子操作，改完立刻跑 linter，语法错直接拒绝。 → 把错误扼杀在摇篮里，防止连锁崩盘。 4上下文管理：老历史自动压缩成一行摘要。 → 既保留轨迹，又不让垃圾污染当前决策。洞见3：这些设计听起来“技术”，本质是认知负荷管理。AI 不是懒，它是真的“记不住、看不清、分不清”。Harness 就是在用工程手段，替它把“人类干得轻松的事”自动化掉。知识点拆解3：Anthropic 如何解决“超长任务”——双代理 + 认知锚点 SWE-agent 解决的是单次会话的问题。真实项目几百个文件，一个上下文窗口根本塞不下。 Anthropic 的解法：初始化代理 + 编码代理的双人组合拳。 •初始化代理只干一件事：搭脚手架（init.sh、一份 200+ 条的 JSON 功能清单、进度文件 + 初始 git commit）。 •后续每个编码代理只专注一个功能，干完就更新进度和 git，保持“干净状态”。最牛的发明是功能清单（feature list）：每条功能都有 passes: false/true 字段，用 JSON 而不是 Markdown（模型不敢乱改结构化文件）。洞见4：没有这个清单，AI 只能“看代码猜自己做完了没”——这太不可靠了！清单把“完成”变成了可验证的事实，不再靠猜。 人类工程师也靠文档、TODO、看板来记忆。AI 更需要外部“认知锚点”，否则每次重启就是失忆。他们还给 AI 浏览器自动化工具（Puppeteer），让它像用户一样点按钮验证，而不是只跑单元测试就喊“成了”。 → 这暴露了一个残酷真相：AI 只能看到工具允许它看到的东西。反馈循环质量，决定了它能干到什么程度。  出 bug 时，不问“怎么修”，而问“环境里缺了什么，才让代理犯这个错？” 他们把仓库本身当成唯一真相来源： •扔掉巨型 AGENTS.md（会烂、抢上下文）。 •改成结构化 docs/ 目录 + 短地图文件。 •应用 per worktree 启动 + Chrome DevTools + 全套可观测性（日志、指标、链路追踪）全暴露给代理。洞见5：当生产力爆炸，验证成了新瓶颈。让 AI 自己能“看到用户看到的东西、用人类用的工具调试”，才是王道。 他们还用机械化 linter + 结构测试强制架构一致性——坏模式无法扩散。 Awesome Agent Harness 的系统其实分成 7 层（从上到下）： 1人类监督（定方向、审 PR） 2规划与需求（把模糊想法变精确 spec） 3全生命周期平台 4任务运行器（issue → PR） 5代理编排器（多代理并行 + git worktree 隔离） 6Harness 框架与运行时（上下文、记忆） 7编码代理本身（现在已经是商品）最扎心的洞见6：模型是商品，Harness 才是护城河。 真正厉害的团队，不是追下一个更强的模型，而是在不断完善让模型“稳定、高效、长期工作”的环境。 你搭好 Harness 的那天，才是 AI 真正开始为你工作的那天。更深一层思考： Harness 本质是模型弱点的“负面能力地图”（回复里有人说得太好了）。 •capped search = “你会淹死在自己结果里” •linter = “你会悄无声息地写出语法错” •进度文件 = “你会太早喊胜利” 它不是“帮 AI 变强”，而是诚实地承认 AI 的盲区，然后用工程手段填平。 这个地图越准，你未来换任何模型都吃香——因为弱点是相似的，强项才各有不同。  2026 年的 AI 竞赛，已经不是“谁的模型参数多”，而是“谁把环境搭得最懂人性（或者说最懂 AI 的‘非人性’）”。

Rohit@rohit4verse

x.com/i/article/2028…

中文

搞钱启示录@shendu128·12h

AI大转变的“底层逻辑” 2026年你直接把AI扔进你的工作流，它自己记得上周的项目文件、你讨厌的代码风格、甚至上个月的Bug模式，然后主动帮你干活。 1. 提示工程为什么“暴毙”？（保质期只有18个月的技能）背景：2023-2024年，最牛的AI玩家靠“提示词炼金术”吃饭——精心设计角色、思维链、Few-shot例子，就能让模型输出翻倍好。知识点拆解：提示词其实是最“薄”的一层。它像给临时工的纸条指令：写得再好，一次用完就丢。模型每次对话都是“失忆”状态，上下文一长就忘光。不易察觉的洞见：真正值钱的不是“怎么说”，而是“让AI看见什么”。2026年大家醒悟：上下文（Context）才是最厚实的资产——它包括你的全部项目文件、历史对话、工具权限、代码库、甚至个人风格指南。 原则：提示词服务一次回答，上下文服务你一辈子的回答。 启发思考：你现在敲的每个提示词，是在“租”AI的劳动力，还是在“买”一块会自动长大的地基？前者越用越累，后者越用越香——这就是复利思维在AI里的第一次落地。 2. 智能编码（Agentic Coding）：AI从“打字助手”变“初级同事” 背景：Claude Code一出来，大家以为只是“高级Copilot”。错！它带项目记忆、权限系统、能读数据库、跑测试、并行开多个分支。知识点：这叫“Agentic”（代理式）——AI不再被动补全代码，而是主动“干活”：你只说目标，它自己拆任务、写代码、测Bug、提PR，你只管审。 洞见：行业花两年假装“委托层”不存在（人类总想自己敲键盘才有安全感）。2026年它突然成熟，因为AI终于能“记住整个代码库”而不崩溃。 隐藏原则：人类从“码农”升级成“项目经理”。你不再是“写代码的人”，而是“设定边界、审查成果的人”。 有趣比喻：以前AI是Uber司机，你得每句都指挥路线；现在它是你的实习生，车钥匙给你，你只管说“去机场，最快路线”。 思考：如果你还在手动敲每一行代码，是不是在浪费“经理级”的杠杆？ 3. 开源Agent长大成人：从可爱Demo到生产级“马具” 背景：OpenClaw、Hermes 3这些开源项目，2024年还只是“炫技小玩具”，2026年发布日志全是HSTS安全头、密钥管理、Cron任务、多语言记忆……听起来超无聊，对吧？知识点：Agent要真正跑在真实世界，必须解决“四个老大难”：不忘记任务、不搞崩生产环境、压缩历史又不丢关键线索、跨App不混淆。 洞见：性感的功能永远赢不过枯燥的基础设施。开源不再追基准测试，而是开始交付“让Agent活得久、用得安全”的马具（Harness）。Hermes 3训练时就假设“它会被当Agent长期跑”，所以才有长期记忆和内部独白能力。 原则：生产级AI的胜负，在“没人想看的管道”里决定。 启发：如果你是程序员，别再学下一个花里胡哨的模型，先把OpenClaw的发布日志从头读完——你会瞬间看懂2026年真实AI长什么样。 4. Karpathy式知识库：AI开始“自我增值” 背景：Karpathy把原始材料丢给LLM，让它自动编译成互相链接的Markdown知识库，新东西进来就自动更新、交叉引用、压缩。知识点：这不是笔记App，而是“活的科研伙伴”。他的一个知识库已达40万字，像一本书，却由AI自己维护、瞬间可查。 隐藏洞见：AI从“临时助手”变成“会增值的资产”。每加一条新知识，它就更聪明；你投入越多，未来收益越大。 原则：可复用的不是提示词，而是“模型周围持续维护的知识层”。 比喻：以前你写一封信给AI（一次用）；现在你在建一座图书馆（永远用）。 思考：你的个人知识库，是不是还在“垃圾堆”状态？每周花1小时扔东西进去，让AI整理——半年后你会成为团队里“活百科”。 5. RAG的“生死进化”：幼稚版已死，聪明版刚起步背景：RAG（Retrieval-Augmented Generation）就是“先检索文档再回答”。2023年幼稚版（切块+向量搜索+塞提示）演示很牛，但一遇到矛盾信息、时间变化、跨文档推理就崩。知识点：2026年分三派—— •改进RAG（更聪明切块+混合搜索）：最务实，多数团队用。 •GraphRAG（建实体关系图）：解决“两篇不互相引用的论文有什么联系？” •无RAG（检索前置，维护结构化知识层）：Karpathy就是典型，检索发生在“写入时”而非“查询时”。洞见：RAG不是死了，而是“幼稚版”死了。真正聪明的人把检索当成设计选择，而不是宗教信仰。 原则：知识库越结构化，模型推理越省力。 思考：你在用AI查资料时，是每次都“现挖”，还是提前建好“活地图”？ 6. Grok嵌入X：AI不再“躲在聊天框”，而是“活在你日常里” 背景：Grok直接出现在你刷的每条X帖子、搜索栏、回复草稿里。最大洞见：AI该住在哪里，比AI有多聪明更重要。平台本身成了分发渠道——你不用切换App，AI就出现在你正在干的事里。 原则：工作流原生 > 单独聊天窗口。持久化记忆 + 工具调用 + 所在场景 = 真正“同事”。 启发：ChatGPT还在让你打开新窗口，你却能在刷X时直接让Grok帮你总结趋势——谁更像你的“生活伙伴”？最后，给你的一句扎心金句 2026年不是“更好模型”的年份，而是“停止跟AI对话、开始围绕AI建造”的年份。 模型已经成了商品，模型周围的“马具”（上下文、工具、记忆、权限）才是稀缺资源。

Rohit@rohit4verse

x.com/i/article/2044…

中文

搞钱启示录@shendu128·12h

总结地挺全了

Philip Van@Formulasearch

x.com/i/article/2046…

中文

搞钱启示录@shendu128·21h

效果太强， GPT-image-2结合 Grok 生成视频：黑悟空游戏界面打斗，黑悟空使用连环金箍棒连击，打倒一个大 BOSS 牛魔王，牛魔王倒地燃烧火焰成为灰烬

中文

搞钱启示录@shendu128·1d

notebooklm 绝对是一个好产品

实践哥MinLi@MinLiBuilds

x.com/i/article/2045…

中文

搞钱启示录@shendu128·1d

这个保安算正当防卫吗？

中文

搞钱启示录@shendu128·1d

ChatGPT：画一张 TikTok 直播英文首页截图，内容是全英文版的你帮我翻译一下，爱因斯坦，在激情带货GPT会员套餐，直播标题写着gpt-image-2已经全量推送 #OpenAI

中文

220

搞钱启示录@shendu128·1d

画一张竖屏图片，内容是 MacBook Pro m5的立体3维内部零件分解图

中文

搞钱启示录@shendu128·1d

GPT-image-2: 画一张竖屏的黑悟空游戏界面截图,黑悟空正在火焰山上打倒一个牛魔王大BOSS。 #ChatGPT

中文

247

搞钱启示录@shendu128·1d

这个生图太牛逼了，竟然还有信号栏时间电池：画一张抖音直播首页截图，内容是爱因斯坦，在激情带货GPT会员套餐，直播标题写着gpt-image-2已经全量推送 #openai

中文

357

搞钱启示录@shendu128·3d

消费者在他那花钱都没有尊严，anthropic 牛逼哄哄，这公司迟早得完

AB Kuai.Dong@_FORAB

太惨了，一家 60 人的初创公司，一直用 Claude 完成日常工作，结果 Anthropic 突然把他们的 Claude 账户全部封掉了。而唯一的上诉通道，就是填写 google 表单，然后没有下文。于是老哥实在受不了，把这事发在了 X 平台上，随后引起传播。结果 Anthropic 看到后，果断给他们解封了账户。最后老哥抱怨，官方渠道反馈无果，维权只能靠 X 平台。

中文

搞钱启示录@shendu128·6d

模型还是没有很好地解决记忆问题，需要借助第三方记忆系统工具才能 AI 长记性。不然第1次问跟第100次，不会有多大差异。就像你说喜欢草绿色，不喜欢深蓝色，如果是个人强调两次就记住你的偏好，但是 claude code 早就忘记了这个。

KK.aWSB@KKaWSB

x.com/i/article/2044…

中文

104

搞钱启示录@shendu128·17 Nis

千问3.5回答不错：这是一个非常经典且有趣的问题，甚至难倒过不少AI。既然你家离洗车店只有50米，这确实是一个值得“纠结”的距离。综合来看，最合理的方案是：人走过去，车开过去。这听起来像绕口令，但其实针对不同的洗车方式，逻辑是完全不同的。为了帮你理清思路，我为你拆解了以下几种场景： 1. 如果你是去“自助洗车” 推荐方案：先走路去侦察，再开车过去。 * 先走路去的理由：50米也就是几十秒的事。你可以先走过去看看有没有人在排队，或者设备是否正常。如果前面排了三四辆车，你可以直接回家该干嘛干嘛，等没人了再把车开过来，避免了在车里干等的尴尬。 * 再开车去的理由：毕竟洗车的对象是车，你人到了车没到，洗车机也没法凭空变出一辆车来洗。 2. 如果你是去“人工洗车/精洗” 推荐方案：直接把车开过去。 * 效率最高：直接开过去，一步到位对接店员，把钥匙留给师傅就能走人。 * 避免往返：如果你走路过去，通常还得走回来取车或者等洗完再回来开走，反而走了“冤枉路”。 3. 如果你只是去“咨询/办卡/预约” 推荐方案：走路去。 * 省事护车：这种情况下车不需要到场。50米的距离，走路比找钥匙、启动、热车的时间还短，既环保又能顺便活动身体。总结对比为了让你更直观地做决定，我为你整理了一个简单的对比表：方案适用场景优点先走后开自助洗车避免排队干等，确认设备情况直接开车人工洗车/精洗一步到位，无需往返全程走路咨询/办卡/取物省油护车，锻炼身体 💡 小贴士：现在的家用车（电喷车）冷启动后，只要怠速稳定（大概10-30秒），低速行驶几十米对车的损伤其实微乎其微，不用太担心“冷车伤车”的问题。

中文

312

黄赟@huangyun_122·16 Nis

Opus 4.7 终于轰轰烈烈来了，可是，为什么这个问题，回答的那么稀烂？？难道我的问法出错了

中文

53.1K

搞钱启示录@shendu128·17 Nis

Claude Opus 4.7在编程和工具使用上很强，GPT 5.4 pro 在综合推理更稳，Gemini 3.1 pro 则擅长知识密集型任务。

中文

搞钱启示录@shendu128·17 Nis

AI 大模型的编程能力，海外公司确实强，中国公司差距一年以上。

宝玉@dotey

Anthropic 今天正式发布 Claude Opus 4.7，定价维持 Opus 4.6 不变（每百万 token 输入 5 美元、输出 25 美元），API 模型名为 claude-opus-4-7，同步上线 Claude 全系产品以及 Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry。【能独立啃硬骨头】 Opus 4.7 最大亮点是自主编程能力显著升级。以前那些需要你盯着、一步一步指导的复杂编程任务，现在可以放心交给它独立跑完整流程。早期用户测试显示，它不仅能搞定更难、更长链的任务，还会主动验证输出再汇报。在 Finance Agent 等第三方测评里，已经拿到 state-of-the-art 的成绩。【看得更清楚了】视觉处理能力也有明显突破，支持长边最高 2576 像素（约 375 万像素），超过此前 Claude 模型的三倍。做智能代理、从复杂图表提取数据、或需要精确读取屏幕内容的任务都会直接受益——过去必须压缩的截图，现在原图直接丢进去就行。【Claude Mythos 的影子】这次升级有个微妙背景：Anthropic 手里其实有个更强大的 Claude Mythos Preview，但因为网络安全风险的顾虑，目前只限量开放。Opus 4.7 就是经过安全降级后的版本，训练时专门降低了网络攻击能力，并配套自动识别高风险用途的防护机制。安全研究人员想做渗透测试或漏洞研究，必须申请 Anthropic 新推出的 Cyber Verification Program，合规使用。【Claude Code 同步升级】 Claude Code 新增了 /ultrareview 命令，能专门进行深度代码审查，自动找出 bug 和设计问题。Pro 和 Max 用户可以免费试用三次。此外，auto 模式（允许 Claude 自主决策、连续执行）也首次向 Max 用户全面开放。同时新增了介于 high 和 max 之间的 xhigh 推理力度档位，Claude Code 所有套餐默认推理力度已全部提升至 xhigh。【新 tokenizer，账单可能微涨】升级 Opus 4.7 后有两点值得注意。一是 tokenizer 换了，同样文本可能消耗过去 1.0 到 1.35 倍的 token。二是在高推理档下，尤其是多轮交互场景，它的思考更深入，输出 token 更长。这两点可能导致实际账单微涨，Anthropic 建议拿自己的真实流量先跑一遍，算清楚再决定是否迁移。 Anthropic 声称 Opus 4.7 整体性价比仍然更优，但“具体任务具体分析”，谨慎起见，最好亲测。至于 Mythos Preview 何时能普遍开放，Anthropic 此次没有给出时间表。

中文

搞钱启示录@shendu128·17 Nis

最强编程模型再次升级到 Opus 4.7，可惜封号越来越严格了，这家美国公司很反骨很中国，用他家产品竟然要上传身份人脸验证。

Claude@claudeai

Introducing Claude Opus 4.7, our most capable Opus model yet. It handles long-running tasks with more rigor, follows instructions more precisely, and verifies its own outputs before reporting back. You can hand off your hardest work with less supervision.

中文

Keşfet

@elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA @nikifrancismediavine @katyperry