Tim✨

2.5K posts

Tim✨ banner
Tim✨

Tim✨

@timyangnet

Co-Founder Westar Labs | 🛠️ $STC & AI Explorer | Ex-Chief Architect Weibo (NASDAQ:WB) What we hear is opinion; what we see is perspective. 此有故彼有 此生故彼生

Katılım Mayıs 2007
1.1K Takip Edilen9.7K Takipçiler
Tim✨
Tim✨@timyangnet·
我个人以及不少“古早”程序员对开发环境都有某种洁癖,例如非常谨慎的选择及安装稳定版本的最小工具集。 这种习惯至少有两个显而易见的好处: 1️⃣ 极致性能:减少常驻内存和存储占用,系统始终轻快。 2️⃣ 安全可控:每个包都在掌控中,规避恶意软件和 Dependency Hell。 但在 AI 时代,这种洁癖正变得奢侈。 当 Claude Code 或各类 AI Agent 接管开发环境后,它们的逻辑往往是暴力破解式的,先尝试主流安装,报错了再补依赖或切换安装方法。这种修修补补的做法很快就会让你的开发机变成一锅浆糊。 今天看到 OpenAI 收购 Astral (uv) 并将其并入 Codex 团队,我才突然意识到这种做法也不是 AI 厂商想要的效果。AI 巨头的下一步不是做出更会修报错的 AI,而是构建更底层、更现代的包管理。 只有像 uv 这样具备极速和确定性的工具,才能在保护开发机不被搞残的同时,大幅节约 AI 因管理环境屎山而耗费的无谓 Token。
中文
1
0
3
488
Tim✨
Tim✨@timyangnet·
我并不赞成这种“全量暴露”个人隐私的做法,提供隐私信息也并不是个人 agent 的标配,聊聊我的看法: 1. 任务边界:工作任务与私人画像应是解耦的 我们与 AI 交互的大部分场景是业务类的任务型项目。这些任务的核心在于业务逻辑和背景描述,与你几点起床、收集什么球卡本质上是解耦的。在处理高度抽象的专业问题时,堆砌私密信息不仅对解决问题无增益,反而可能引发不必要的干扰。 2. 信噪比:我不需要 AI 的“彩虹屁” 过度的个人预设往往会让 AI 变得谄媚。当你在讨论代码架构或商业模型时,模型为了体现个性化,每段话开头可能都要来一段毫无意义的恭维(比如:“作为一名资深的架构师,你这个思考非常专业……”),这些相关的输入和输出其实都是无效的冗余。 3. 交互习惯:精准的“按需提供”胜过“全量暴露” 或许有少量的生活建议场景(如健康规划)需要 AI 记得你的细节,但在 99% 的专业协作中,我更倾向于即时上下文。 比如,你想询问咖啡是否影响健康,与其指望 AI 从庞大的 Memory 里翻出你的习惯,不如提问时直接加一句:“我每天有喝 1-2 杯咖啡的长期习惯,请问对健康有什么影响?” 这种精准的上下文供给,比全局的隐私暴露更高效、也更安全。
Josh Pigford@Shpigford

x.com/i/article/2034…

中文
0
0
1
417
Tim✨
Tim✨@timyangnet·
中山大学与阿里联合发布的 SWE-CI 报告,给正处于 AI 编程狂热中的人泼了一盆冷水。这是首个关注持续集成循环(CI loop)的代码维护 Benchmark。 【核心数据揭晓】 Claude Opus 断层领先:但在长周期的代码演进中,最强模型的零回归率也仅过半(50%+)。 “快照式”神话破灭:绝大多数模型在面对跨越 200+ 天、多次 commit 的真实任务时,会迅速堆积技术债。 为什么这支撑了我对 SDD 的判断? 我最近一直对 Spec 驱动开发(SDD)的效果持保留意见。SDD 布道者认为 Spec 取代代码是维护大型系统的唯一入口,但如果 AI 无法可靠地解决回归问题,所谓的 Spec 就会与实际代码产生脱节。
Priyanka Vergadia@pvergadia

🤯BREAKING: Alibaba just proved that AI Coding isn't taking your job, it's just writing the legacy code that will keep you employed fixing it for the next decade. 🤣 Passing a coding test once is easy. Maintaining that code for 8 months without it exploding? Apparently, it’s nearly impossible for AI. Alibaba tested 18 AI agents on 100 real codebases over 233-day cycles. They didn't just look for "quick fixes"—they looked for long-term survival. The results were a bloodbath: 75% of models broke previously working code during maintenance. Only Claude Opus 4.5/4.6 maintained a >50% zero-regression rate. Every other model accumulated technical debt that compounded until the codebase collapsed. We’ve been using "snapshot" benchmarks like HumanEval that only ask "Does it work right now?" The new SWE-CI benchmark asks: "Does it still work after 8 months of evolution?" Most AI agents are "Quick-Fix Artists." They write brittle code that passes tests today but becomes a maintenance nightmare tomorrow. They aren't building software; they're building a house of cards. The narrative just got honest: Most models can write code. Almost none can maintain it.

中文
0
1
5
1.6K
Tim✨
Tim✨@timyangnet·
这其实是两个维度的概念。你说的 SDD 可能还是文档定义,而我说的 SDD 是 Spec 是维护大型系统唯一入口,也是最近很多厂商推销的概念。 在这个新范式里,人类维护 Spec,AI 负责全量生成和维护代码。功能变更时,Spec 是唯一的修改入口。这已经不是系统里有没有 Spec 的问题,而是代码所有权的交接。 这也是我原文对这种做法持怀疑的原因。
中文
0
0
1
98
Leon
Leon@LeonH·
@timyangnet 也沒見過不用 SDD 的大型複雜系統
中文
1
0
0
133
Tim✨
Tim✨@timyangnet·
对 Spec 驱动开发(SDD)一直有个疑虑:目前还没见过能完全通过 Spec 支撑的大型复杂系统。 这很像用一份“提纲”去写长篇小说:LLM 生成第 50 章时,如果不能完美加载前 49 章所有的伏笔和细节,内容就会出现严重的割裂感。 理论上子模块可以按 Input/Output 闭门造车,但真实的业务逻辑是网状耦合的。为了消除歧义,你必须把 Spec 定义得极度细致——细到最后,你会发现写 Spec 的工作量和严谨度,其实跟直接写代码已经没什么区别了。
Julián@juliandeangeIis

x.com/i/article/2033…

中文
12
12
97
29.1K
Tim✨
Tim✨@timyangnet·
哈哈,不错的 agent 设计模式,有效的进行了错峰 好像龙虾的定时任务就搞得模型厂商不堪重负。 > Claude 脑子有坑,这些模型全是一个样。 > 我想设置每天早上 8:00 运行一个技能,结果 Claude 自作主张把它定在了 7:57,说是为了‘避开整点高峰’。 > 我特么说的是 8:00! 让你怎么做你就怎么做
Santiago@svpino

Claude is retarded. All of these models are. I wanted to schedule a skill every day at 8:00 am. Claude decided to schedule it at 7:57 am "to avoid the on-the-dot" surge. I SAID 8:00 AM! Do the darn thing the way I asked you to do it! You gotta be crazy to trust these models.

中文
0
0
0
922
Tim✨
Tim✨@timyangnet·
有意思的访谈,安德森提到了内省: “我发现那些沉溺于过去的人会陷在过去。在工作和生活中,内省越少越好。”
David Senra@davidsenra

My conversation with Marc Andreessen (@pmarca), co-founder of @a16z and Netscape. 0:00 Caffeine Heart Scare 0:56 Zero Introspection Mindset 3:24 Psychedelics and Founders 4:54 Motivation Beyond Happiness 7:18 Tech as Progress Engine 10:27 Founders Versus Managers 20:01 HP Intel Founder Legacy 21:32 Why Start the Firm 24:14 Venture Barbell Theory 28:57 JP Morgan Boutique Banking 30:02 Religion Split Wall Street 30:41 Barbell of Banking 31:42 Allen & Company Model 33:16 Planning the VC Firm 33:45 CAA Playbook Lessons 36:49 First Principles vs. Status Quo 39:03 Scaling Venture Capital 40:37 Private Equity and Mad Men 42:52 Valley Shifts to Full Stack 45:59 Meeting Jim Clark 48:53 Founder vs. Manager at SGI 54:20 Recruiting Dinner Story 56:58 Starting the Next Company 57:57 Nintendo Online Gamble 58:33 Building Mosaic Browser 59:45 NSFnet Commercial Ban 1:01:28 Eternal September Shift 1:03:11 Spam and Web Controversy 1:04:49 Mosaic Tech Support Flood 1:07:49 Netscape Business Model 1:09:05 Early Internet Skepticism 1:11:15 Moral Panic Pattern 1:13:08 Bicycle Face Story 1:14:48 Music Panic Examples 1:18:12 Lessons from Jim Clark 1:19:36 Clark Versus Barksdale 1:21:22 Tesla Versus Edison 1:23:00 Edison Digression Setup 1:23:13 AI Forecasting Myths 1:23:43 Edison Phonograph Lesson 1:25:11 Netscape Two Jims 1:29:11 Bottling Innovation 1:31:44 Elon Management Code 1:32:24 IBM Big Gray Cloud 1:37:12 Engineer First Truth 1:38:28 Bottlenecks and Speed 1:42:46 Milli Elon Metric 1:47:20 Starlink Side Project 1:49:10 Closing Includes paid partnerships.

中文
0
1
10
2.4K
dapao
dapao@WeiQi1984697·
@timyangnet 是不是用于开发,这套思想可以是一个skill
中文
1
0
0
756
Tim✨
Tim✨@timyangnet·
感觉 Autoresearch 会引发异一场行业变革: Autoresearch 就是一套规范。它之所以有效,是因为它强制了两件事: 纪律: 每次只改一个变量。先有假设再做实验。实验后确认或否定。这听起来显而易见,但没有这个结构的 Agent 会一次改三个东西,拿到一个结果,却完全不知道哪个起了作用。正是这种约束让探索变得有价值。 记忆:Git 历史就是实验笔记本。Agent 能看到自己已经试过什么、什么有效、什么没用。没有这个,Agent 会无休止地重复自己。有了这个,它们能在自己的结果上持续迭代。 更深层的洞察在于自由与约束之间的平衡。你需要给 Agent 真正的探索空间。它们的随机性是特性,不是 bug。它们会尝试人类想不到的东西,其中一些最终会成为真正的发现。但你也需要边界。没有护栏,Agent 就会跑偏。自由太多和太少一样糟糕。 正确的模型是:人类设定方向和约束,Agent 在边界内做穷尽式探索。人类带来品味,哪些问题值得解决、哪些指标重要、什么算"好"。Agent 带来不知疲倦,尝试每一种组合,跑每一次消融实验,在人类早就放弃的平坦期耐心等待。
hamza mostafa@hamostaf04

x.com/i/article/2033…

中文
6
50
268
43.2K
Tim✨
Tim✨@timyangnet·
先写出完整的 spec, 然后让 agent 完全根据 spec 来写代码,这种流程是否更适合企业开发? Vibe coding 不就是写一个小原型,看看效果再想下一步么🤔
Augment Code@augmentcode

x.com/i/article/2032…

中文
2
0
1
712
Tim✨
Tim✨@timyangnet·
AI coding agent 的突飞猛进对行业及个人的影响 🤔 > (软件开发)真正的工作是围绕它的流程:读取系统、运行测试、查看什么坏了、形成假设、再试一次……运行实验,直到某个东西起作用。运行实验的速度越快,收敛的速度就越快。 一旦机器运行这个过程的速度超过人类,就会发生结构性的变化: - 中间层变得廉价:样板文件、数据库迁移、胶水代码、日常调试。 - 价值开始向两端移动: 1. 向上(设计):架构、抽象、以及定义系统应该是什么样子的决策。 2. 向下(基建):定义什么是“正确”的基础设施。
Natasha Malpani 👁@natashamalpani

x.com/i/article/2032…

中文
0
4
41
13K
Tim✨
Tim✨@timyangnet·
认同本帖评论的一个说法: > 当 AI 用同样的逻辑去处理上万篇帖子时,产出的内容便带有一种“共识味”。那些独到的反向见解被磨平了。你得到的并非“优于人类视角的新闻”,而是被压缩后的产物——仅仅是这上万篇帖子的最大公约数。 所有的 AI 代读都面临这个悖论:你在享受效率的同时,也在接受一种信息的脱水。 AI 的底层逻辑是基于概率模型寻找共识,但真正对你个人有价值的洞见,往往是那些“偏离概率曲线”的异数。 尤其在书、播客、电影这些载体中,独特的视角远比摘要更有价值。 如果只看总结,我们其实大部分时候是得到一些正确的废话。 当你在享受 🦞 帮你外包思考之余,或许可以警惕一下:你不希望你所有的信息输入,最后都变成如“官方晚间新闻”般四平八稳吧……
Robert Scoble@Scobleizer

AI can read X better than you can. Then it can create a Notebook LM for you. Here's today's news, as a podcast, a slide deck, a mind map, video to come in a bit: notebooklm.google.com/notebook/50ab4… All gathered by Levangie Labs by reading tens of thousands of posts here on X through the X API.

中文
1
1
3
1K
Tim✨
Tim✨@timyangnet·
方法值得参考。 Agent 表现不佳的一个关键原因在于缺乏合适的 context。 > MIT 发布的著名的《2025 年商业 AI 现状》报告指出,在 AI 部署中,“大多数失败归因于脆弱的工作流、缺乏上下文学习以及与日常业务操作的脱节。”
Jason Cui@JasonSCui

x.com/i/article/2031…

中文
0
0
1
811
Tim✨
Tim✨@timyangnet·
不错的思路 > AI code agent(如 Claude Code、Cursor、Copilot)在读取文件上花费了大量的 Token 预算。在探索陌生的代码库时,典型的模式通常是: - 全文读取一个文件以了解其内容; - 判断该文件是否相关; - 对 N 个文件重复此过程,直到找到答案。 低效之处: 智能体在确定只需要文件的某一部分(或者根本不需要该文件)之前,就已经读取了整个文件。 解决方案(设想): 目录优先访问 (TOC-First Access): 智能体不再直接读取整个文件,而是先读取根据文件的 AST(抽象语法树) 生成的“目录 (TOC)”。
Marco Franzon@mfranz_on

Problem: AI coding agents (e.g. Claude Code, Cursor, Copilot) spend a significant portion of their token budget on file reads. When exploring an unfamiliar codebase, the typical pattern is: 1. Read a file in full to understand what it contains 2. Decide whether it is relevant 3. Repeat for N files until the answer is found The inefficiency: the agent reads the entire file before knowing it needs only a fraction of it, or before knowing it doesn't need it at all. On a medium codebase (Flask, ~25 files, ~50k tokens of source), reading everything to answer a specific question costs between 9k and 50k tokens depending on how many files are relevant. Solution (maybe): TOC-First Access: instead of reading the entire file, the agent first reads a Table of Contents generated from the file's AST. The TOC contains: - All class names and their public methods (with line numbers) - All top-level function signatures - Module-level imports - Docstrings (first line only) The TOC is produced statically from the AST no LLM, no inference, instant. It compresses files by ~86% on average (e.g. app .py: 9,090 → 702 tokens). The agent reads all TOCs first (~7k tokens for all of Flask), identifies which files are relevant, then reads only those in full. Some benchmarks made with Flask codebase.

中文
3
1
15
2.6K
Tim✨
Tim✨@timyangnet·
认同,从工程师的角度来说,Loop engineering 比 agentic engineering 更具体。 > 提示词(Prompting)是一个 Bug,而非特性。 > 别再痴迷于琢磨动词和上下文窗口了。如果你的工作流还得靠你去做一个“提示词耳语者”(Prompt Whisperer),那你已经输了。在一个渴求“系统化”的世界里,你只不过是个手动挡的操作工。 > “氛围编程”(Vibe Coding)拿来做演示固然有趣,但真正的进化是**“循环工程”(Loop Engineering)。你不再是写一段提示词,而是构建一个递归环境**:让智能体(Agent)自行评估失败、重构逻辑,并不断迭代,直到意图与输出之间的偏差(Delta)归零。 > 人类不应是那个修修补补的编辑,而应是整个循环的架构师。 > 停止与机器对话。去建造那台会“自我对话”的机器。
Franziska Hinkelmann, PhD@fhinkel

Prompting is a bug, not a feature. Stop obsessing over verbs and context windows. If your workflow depends on you being a prompt whisperer, you’ve already lost. You’re just a manual operator in a world that demands systems. Vibe Coding is fun for demos. The real evolution is Loop Engineering. You don't write a prompt; you build a recursive environment where the agent evaluates its own failure, refactors its logic, and iterates until the delta between intent and output is zero. The human shouldn't be the editor. The human should be the architect of the loop. Stop talking to the machine. Start building the machine that talks to itself.

中文
0
2
8
1.2K
Tim✨
Tim✨@timyangnet·
发现 🦞 OpenClaw 用户圈一种现象: 搞一台 Mac Mini,配好 bot、调通 LLM、跑通几个简单任务(大多通过 LLM 调用本地脚本及工具完成),然后就立马感觉成为 🦞 核心用户,甚至有 AI 资深使用者的感受。 这种“掌控感”在 AI Web、CLI 甚至 API 调用者身上都很少见。难道对 agent 玩家来说,折腾环境和仪式感本身才是最关键一步?
中文
2
0
2
1.3K
Tim✨
Tim✨@timyangnet·
又一篇 harness engineering 不错的文章。 > 智能体的失败不是因为能力不足,而是因为由于它所需的知识——即对你的系统而言什么是“好”、你的架构鼓励哪些模式、回避哪些模式——都锁在你的脑袋里,而你没有将其**显性化**。
George@odysseus0z

x.com/i/article/2030…

中文
3
14
155
43.3K