watson999

563 posts

watson999

watson999

@iamwatson999

Katılım Şubat 2026
716 Takip Edilen13 Takipçiler
watson999 retweetledi
码良
码良@cxjwin·
再过1-2年,只会 prompt 和调包的人,可能会被真正懂 AI 的人按在地上摩擦。 现在大部分所谓的「AI Engineer」,其实只是会用框架拼积木的 glue coder。 而这个项目直接把 428 节课从零手写到生产级 agents 的 curriculum 扔了出来。 想继续当「会用的人」,还是想成为「懂的人」?
中文
4
1
12
1.7K
watson999 retweetledi
Gyro
Gyro@gyro_ai·
想学 Rust 但看完文档还是不知道怎么写的,不如直接上手练起来 有个 GitHub 项目叫 rust-by-practice,14,344 Stars,用「例子→练习→项目」三段路线带你真正动手,每道题都有难度评级和参考答案,线上直接跑代码不用配环境 评论区 GitHub 链接⬇️⬇️ 核心特点: 1. 三段结构 - 例子讲概念,练习验理解,最后用项目把知识串起来 2. 难度分级 - ⭐到⭐⭐⭐⭐标注,循序渐进,卡住了有答案可以对照 3. 覆盖面广 - async/await、多线程、同步原语、数据结构、算法都有专门章节 4. 双语内容 - 英文版和简体中文版同步维护,中文读者友好 5. 浏览器内运行 - 不用本地配 Rust 工具链,打开页面就能敲 cargo install mdbook 后 mdbook serve 可以本地运行 想把 Rust 从「看懂了但写不出来」推进到「能独立写」的阶段,这个练习册比反复啃书有效
中文
2
1
2
161
LotusDecoder
LotusDecoder@LotusDecoder·
codex desktop 真的不错, /goal + computer use + chrome 做前端测试或 bug 修复。 就是一把梭,然后等着收菜。
中文
10
2
59
8.9K
watson999 retweetledi
Phoenix Yin
Phoenix Yin@Phoenixyin13·
阿里算法岗一面 1-20是传统ML,21-30是Transformer和大模型微调,31-38是推荐系统工程落地,明显的ML老炮,外加LLM选手与推荐工程师三维画像。 美中不足的是,没有任何一题碰RLHF、DPO、强化学习、Agent、长上下文、推理时计算。对2026年算法岗来说,这有点保守。
Phoenix Yin tweet mediaPhoenix Yin tweet media
中文
32
54
340
55.3K
watson999 retweetledi
Feiteng
Feiteng@FeitengLi·
动手搭了一个 ReAct agent 系统:围绕 LLM 做 agent 系统 傍晚散步时在想:如何训练 LLM 的 agentic 能力、数据准备、模型训练、agent 轨迹 action 构造 RL 训练,再想 Claude 在过去一年的进步来自于哪些 SFT RL 方面的进步; 晚饭后读 智谱 “GLM-5: from Vibe Coding to Agentic Engineering” 是真的技术报告、细节非常丰富了;和自己想的差不多,用了 9T Code 还是数据让我感到意外 👍 多个 推理框架 top-k 实现竟然还存在 random 🥲 arxiv.org/html/2602.1576…
Feiteng tweet mediaFeiteng tweet media
中文
3
34
172
16.7K
watson999 retweetledi
loonggg
loonggg@KengGuangLong·
最近读到一篇很有意思的文章,作者是腾讯云开发者,一位很早就开始拥抱 AI 的开发者,付费用过的产品超过十几款,前前后后花了上万块。他把自己这一年折腾 AI 的经历、工具和思考都写了出来,读完确实有不少启发。 先说工具层面。他围绕 Mac 搭了一套高效的工作环境,核心是 AeroSpace 做窗口管理、Raycast 做快捷启动和剪贴板管理,再加上 Ghostty 终端和一堆命令行工具。最有意思的是他自己开发了一个叫 Cockpit 的仪表盘,专门用来同时监控多台机器上跑着的 AI Agent 状态,防止某个 Agent 卡住了自己还不知道。 然后他聊到怎么把 Agent 用好。他梳理了一条演进路线:从最早的 Prompt Engineering(写好提示词),到 Context Engineering(管好 Agent 能看到的所有信息),再到 Spec-driven Development(先写清楚需求契约再让 Agent 动手),最后到 Harness Engineering(给 Agent 搭一整套约束体系)。OpenAI 有个团队就是用 3 个工程师、5 个月、完全零手写代码,靠搭建这套"缰绳"体系做出了百万行代码的产品。核心比喻特别形象:Agent 是马,Harness 是缰绳,马跑得再快,没有缰绳就只会横冲直撞。 最让我觉得有价值的是他关于"让 Agent 替我学习"的思路。他发现现在技术迭代太快,传统的手动收集、整理笔记的方式已经跟不上了。所以他搭了一套 Agent 工作流:AI 每天自动从十几个信息源抓取新闻、转录播客、提炼最佳实践,然后把这些知识沉淀到 Agent 自己的技能库里。等到真正干活的时候,这个 Agent 已经是一个吸收了最新方案的"武装版"了。他甚至让 Agent 帮他打 Kaggle 比赛,春节旅游期间远程托管,4000 支队伍里最高冲到过第六名。 文章最后他也很坦诚地说,写这篇文章本身就是最"不 AI Native"的事情,因为这些内容完全可以让 AI 来整理。他还引用了 Karpathy 的"Jagged Intelligence"概念,提醒大家 AI 的能力分布跟人类很不一样,最好的办法就是持续使用、慢慢建立直觉,把 AI 当成一个无话不谈的好朋友,越了解它,协作起来就越顺畅。 原文地址:bestblogs.dev/article/83fa2a…
中文
10
154
645
48.9K
Markfreezing
Markfreezing@markfreezing111·
这个bot渠道的plus pro看来是都死光了 今天看了看还有说要报警的 给晶哥都整笑了 都是成年人了自己又上tg付款又是U的不割你割谁 目前看来就chong的渠道还没拉闸
Markfreezing tweet media
中文
2
0
0
1.5K
watson999 retweetledi
阿蔺A-Lin
阿蔺A-Lin@alin_zone·
卧槽,真宝藏博主,这文章目前应该是全网最详细的搭建教程了 最近 vps 都卖断货了,我之前给大家推荐的 dmit 全部都售罄了,恭喜已经上车的朋友们,不过 1T 的流量应该很难用完吧,可以参考这个文章把家里的网络升级一波,手把手教学了属于是
半格 / HalfBit@justhalfbit

x.com/i/article/2056…

中文
7
51
231
63.8K
watson999 retweetledi
WquGuru🦀
WquGuru🦀@wquguru·
中转站长圈子今天刷屏这篇报道,核心就4个爆点:渠道来源、低价原理、一鱼两吃、大量黄牛8手倒卖Token(最便宜仅官方1%)。直接上干货: 1. 中转站渠道来源(号池+逆向是核心) 号池(最底层资源):靠Claude Code MAX(每月200美元高额度套餐,普通免费账号100倍额度)。一个站至少要囤10-20个这样的账号才能稳住。 逆向封装:绝大多数不是走官方API,而是把网页聊天窗口、客户端直接反代成API。最火的是IDE反代——Cursor、Kiro、Windsurf等程序员开发工具里本来就有Claude调用权限,被站长拆出来包装成接口卖。 早期还有“零元薅羊毛”:故意发敏感内容触发封号,Anthropic全额退款,现在政策收紧了,但批量注册+IDE反代依然是主流。 GitHub开源项目(New API)一键部署,普通人也能上手,技术门槛极低。 2. 低价原理:为什么能打到官方1%? 官方Claude-Opus-4-6输出价≈170元/百万token。 中转站普遍10%-30%,最狠的一家只卖2元/百万token(1%官方价)。 价格战本质:多层分销压成本 + 灰色渠道。从大站拿批发额度,二道贩子、三道……一直到八手站,加价50%往下卖还能赚。 站长自己说:“没什么技术壁垒,就是信息差+规模效应”。小红书、抖音、闲鱼上全是推广,工厂工人、大学生都能0基础入场做“二道贩子”。 3. 一鱼两吃(业内公开暴利秘密) 这是站长自己都承认的“双赢”操作: 第一吃:掺假模型——用ChatGPT冒充Claude、DeepSeek冒充GPT-4o、豆包伪装DeepSeek……成本可能只有官方1/10,用户根本看不出(system prompt被污染,结果有偏差)。 第二吃:卖用户数据——中转站能看到全部请求/响应日志。高价值数据(30轮以上对话、多次工具调用)按0.1-0.2元/条卖给模型厂商做训练数据,或者打包10元1M数据。学术界都中招过,CISPA论文显示一半中转节点模型身份验证失败。 4. 大量黄牛倒卖Token:从圈内到全民狂欢 今年3月龙虾OpenClaw爆火后,非程序员也杀入。站长现在最烦“想做代理的人”,一天好几个大学生找上门要30%佣金分成。 结果就是二手站变八手站,还有“公益站”把价格卷到离谱。 客户画像:个人开发者、科研机构、AI漫剧公司、改论文大学生、企业外包……需求巨大,但很多人连正规AWS/Google Cloud渠道都不知道。 最后是风险提示:X上已经刷到上海中转站站长被抓37天取保候审、设备收入全没收的案例,提醒大家上游逆向渠道风险极高。
WquGuru🦀@wquguru

21世纪经济报道这篇《大量黄牛倒卖Token,最便宜仅官方价1%》值得看看: 现在中转站有多火热?一位年初入场的站长,如今同时开了三个站点:一个主做Claude,一个主做ChatGPT,一个专做企业私有化。客户多是个人开发者,也有国内科研机构和AI漫剧公司。 行业在迅速壮大分化。不少站长反映,最近找上门最多的是想做代理的人,从大站拿token额度,自己只负责下游分销。“现在这行最多的就是八手站了,还有各种价格低到离谱的公益站。”另一位站长苦笑道。 价格战打起来了,许多中转站token价格来到官方的10%~30%,最便宜的甚至只要1%。一鱼两吃的暴利手段是业内的公开秘密:调用假模型,骗用户token赚一笔;出售用户数据,再赚一笔。 “中转站能做下去,第一是有需求,第二是AI行业存在大量信息差。”曾在一家明星AI初创公司负责对外采购的人士发现,信息差不仅普通用户有,就连业内公司也有。许多做AI产品的公司甚至都不知道,自己有哪些正规途径调用海外大模型。

中文
7
32
182
43.2K
watson999 retweetledi
huangserva
huangserva@servasyy_ai·
Andrej Karpathy:“Claude 的错误里,90% 来自上下文缺失,而不是模型能力弱。” 没有 `CLAUDE.md` 时,错误率是 41%。 有 4 条基础规则时,错误率降到 11%。 使用下面这套 12 条规则时,错误率降到 3%。 这是资深工程师最终沉淀出的 12 条规则: 1. 写代码前先思考 先说明假设,不要猜。模型不会读心,别指望它能自动知道你的意思。 2. 简单优先 最少代码,不做投机式抽象。一旦你让 Claude 为“未来灵活性”加东西,可能就多出 200 行下季度要删的代码。 3. 外科手术式修改 只改必须改的地方。别让它顺手优化旁边的代码,PR 就是这么膨胀的。 4. 目标驱动执行 先定义成功标准,然后循环直到验证通过。没有成功标准,Claude 要么无限循环,要么过早停止。 5. 只把模型用于判断型任务 比如分类、草稿、总结、抽取。不要让模型处理路由、重试、状态码处理、确定性转换。代码能回答的,就让代码回答。 6. Token 预算不是建议 单任务 4000,单会话 30000。长时间调试到第 40 条消息时,Claude 会重新建议你第 5 条消息已经否掉的修复方案。 7. 暴露冲突,不要折中平均 代码库里有两种模式?选一种。Claude 把两种混在一起,错误就会被吞两次。 8. 先读再写 先读 exports、调用方、共享工具。Claude 很可能在一个已有相同函数旁边,再加一个重复函数,只因为它没读到。 9. 测试要验证意图,而不只是行为 如果业务逻辑变了测试却不会失败,这个测试就是错的。Claude 写的 12 个测试都可能通过,即使函数实际只返回一个常量。 10. 每个重要步骤都要 checkpoint Claude 可能在第 4 步已经坏掉的状态上继续完成第 5、6 步,而没人发现,浪费一小时。 11. 匹配代码库约定 项目用 class components,就不要默默改成 hooks。测试模式可能依赖 `componentDidMount`,hooks 会破坏它,却不一定暴露问题。 12. 失败要大声暴露 “成功完成”,但 14% 的记录被静默跳过,这是最糟糕的一类 bug。要暴露不确定性,不要藏起来。 真正会复利增长的,不是下一个框架,而是: - 把 `CLAUDE.md` 当作跨会话的组织记忆 - 基于 eval 改进,而不是凭感觉改 - 重视 checkpoint,而不是一味追求速度 - 明确暴露冲突,而不是静默混合 - 纪律永远比框架重要 - 一个仓库,一个规则文件,没有例外 在这件事变成 AI Twitter 的大众共识之前,提前领先几条规则。 研究它👇
中文
64
258
1.3K
141.7K
sanada🍃
sanada🍃@sanada_oops·
不知道大家有沒有感受到,用太多AI的結果之一,就是時間過得很快,事情做得很快,但是具體是怎麼做完的、怎麼實現的,記憶是真的很模糊,大腦裡很多事情都被折疊,一天下來彷彿自己只是一個訓練AI的另一台機器而已,空空如也。
中文
7
5
83
4.6K
Yuu💖
Yuu💖@QuantumTransf·
需要压缩是因为上下文窗口不够容纳那么多原始信息 如果有高效检索原始信息的方式(我不认为基于向量的检索满足这种要求),那就可以完全在原始信息上进行检索,但我并不认为这个难度会低于将信息进行较好的分类并进行压缩,事实上,这两者的难度可能是等同的
Phoenix Yin@Phoenixyin13

这应该是今天我最重要的信息转发。 我们可能做错了 AI Agent 的长期记忆系统。 最近 arXiv 上的新论文《Useful Memories Become Faulty When Continuously Updated by LLMs》揭露了一个极其残酷的现实: 你让 Agent 越努力去复盘和总结经验,它反而变得越蠢。 现在业界流行让 Agent 在运行中做 Memory Consolidation,把原始日志抽象成通用规则存起来。但实验表明,随着流式更新的深入,LLM 在反复重写记忆时,会不可避免地引入信息失真和错误累积。 最夸张的案例:在 ARC-AGI 任务里,原本没有记忆时模型能 100% 完美解决;但只要让它基于自己完全正确的历史轨迹去连续增量总结,准确率竟然暴跌到 54%!模型在自我反思的过程中,硬生生把自己给绕晕了。 看完论文我的几点工程思考: 1.原始情节记忆(Raw Episodic Memory)被严重低估了。 很多时候,直接把原始交互 Trace 作为 Few-shot 塞给 Prompt,效果完胜那些经过模型精简、看似高大上的规则库。 2.拒绝盲目实时更新。 鲁棒的 Agent 架构应该把原始情节视为第一手铁证,引入显式的门控机制,只有在非必要不整合。 3.异质任务必须隔离。 绝对不要把不同任务的经验混在一个批次里让 LLM 做增量总结,异质数据会加速记忆崩溃。 这篇论文的作者之中,来自@Tsinghua_Uni 交叉信息研究院的Zhengkun Wu是我最好的朋友之一,目前他在UIUC进行春研。我们相识已久,他是个很聪明并且创新性想法很多的人,在我的朋友里,他独特且有个人魅力。和他交流进步,我感到十分荣幸且开心。 祝愿他的科研、学习之路顺利!

中文
3
1
22
2.8K
watson999 retweetledi
大喵CS、转码、预科班(9年讲师,能够教你学会编程)
求求你们别再用“AI时代,定义问题比技术更重要”来洗脑了 ​刷到太多这种所谓的金句了:“与其焦虑被AI淘汰,不如当自己是那千分之一的幸存者——技术是底牌,真正值钱的是你定义问题、拆解系统的能力。” ​乍一看好有道理,仔细一想,这不就是纯纯的逻辑盲区和话术包装吗? ​有些“AI焦虑贩子”和“职场PPT大师”,非要在【技术问题】和【现实问题】之间画一道不可逾越的鸿沟,仿佛懂技术的都是只会敲键盘的“代码搬运工”,而那些不懂技术的人反而掌握了“定义世界”的财富密码。 ​我就想问一句:难道学习技术、精进架构的过程本身,不就是在疯狂定义问题、拆解系统、寻找最完美解决方案的过程吗?! ​这两者不仅没有鸿沟,反而是一体两面的: ​1️⃣ 被窄化的“技术”: 很多人以为技术就是背 API、写语法。真正的技术大牛,在写第一行代码前,脑子里已经完成了现实业务到计算机模型的抽象、边界推演和风险评估。这不叫定义和拆解,叫什么? 2️⃣ 没有技术支撑的“定义问题”,全是空中楼阁: 就像一个不懂材料力学和建筑学的人,天天嚷嚷着“我不会画图纸,但我擅长定义大楼的功能”。结果就是提一堆不切实际、根本无法落地的需求。只有带着工程约束条件(成本、算力、可扩展性)的拆解,才具备商业价值。 3️⃣ 计算机思维的底层通用性: 编程里的【拆解、模式识别、抽象、算法设计】,完美对应了现实世界的所有复杂问题。能把一个高并发分布式系统理顺的架构师,把他扔进一个混乱的组织里,他同样能用这套逻辑把业务流程理顺。 ​别再被那些看似高大上的“幸存者金句”给CPU了。他们之所以要造一道鸿沟,无非是想给不想深入钻研底层技术的人提供一种心理安慰,顺便显得自己认知深刻。 ​技术的本质,从来不是单纯的敲键盘,它就是用最严谨的逻辑去重构现实世界的能力。这种通用能力,AI拿不走,PPT大师们也学不来。 ​#AI时代 #程序员 #独立思考 #反焦虑 #技术本质 #职场吐槽
中文
1
1
17
8.4K
watson999 retweetledi
Gloria
Gloria@changloria0816·
目前最新codex额度测试 Plus:5 小时 22.67 美元;周限 85.23 美元(大概4个5小时) Team:5 小时 18.36 美元;周限 138.43 美元(大概9个5小时) Pro 5x:5 小时 152.23 美元;周限 507.43 美元(官方现在翻倍变10x) 5小时用完了等刷新,叠加周限 总结:team额度比plus高
中文
67
39
647
137.6K
watson999 retweetledi
LIN WEI
LIN WEI@skywind3000·
ai 生成的测试用例很多都是 “甜路径” ,100% 通过的质量经常比不上人自己写的用例 30% 通过率的质量,完全依赖 ai 生成的用例 100% 通过了,也是一堆 slop。
喵呜喵呜🐱@scavenger869

有点尴尬,发现 Codex 给我写的项目有好多垃圾代码,我到底该不该清理呢? 感觉意义也不太大,能过测试就行。 AI 时代要抛弃代码洁癖,没人在意你的代码写得如何,it just works 才是对的。

中文
7
1
38
33K
watson999 retweetledi
Barret李靖
Barret李靖@Barret_China·
很多人在聊 AI 的时候,默认有一个前提:人负责目标,AI 负责执行。 但当 AI 开始进入工作、生活、娱乐、社交,甚至开始长期观察你的行为模式之后,事情会发生变化。 因为它不再只是工具,它开始变成一种“连续存在”。 它知道你最近在关注什么,知道你为什么焦虑,知道你哪些事情总拖延,知道你什么时候状态最好,甚至知道你真正想成为怎样的人。你给它的上下文越多,它对你的理解就越深。到了某个阶段,它对“你”的了解,甚至可能超过你自己。 那么,真正的问题就来了。 如果 AI 可以帮你完成大量执行、组织、搜索、分析、协调、创作,那人还剩下什么? 我最近越来越强烈地感觉到,未来的人类价值,会逐渐收缩到几个非常核心的东西: 1)方向感。判断什么重要,什么值得投入一生。 2)审美。判断什么是好的,什么是有生命力的。 3)体验。真正去感受世界,而不是只处理信息。 4)意志。在无限可能和无限诱惑里,依旧选择长期主义。 AI 很强,但它没有活着的重量。它没有童年,没有遗憾,没有失去过重要的人,没有真正熬过一个漫长的夜晚。它能理解这些词,却无法真正经历这些东西。
中文
68
5
58
7.1K
watson999 retweetledi
LIN WEI
LIN WEI@skywind3000·
程序员无脑 vibe 出一堆 slop 我也不说了,现在 QA 开始用 AI 写测试用例了,而且用例写出问题来他们搞不定,又把程序员叫过去帮他们看哪里出问题了,所以为啥做调查时个个都说 ai 帮自己写了 50% 乃至 100% 的代码,但最后拉通一看,总效率还是那个鬼样子。
LIN WEI@skywind3000

ai 生成的测试用例很多都是 “甜路径” ,100% 通过的质量经常比不上人自己写的用例 30% 通过率的质量,完全依赖 ai 生成的用例 100% 通过了,也是一堆 slop。

中文
24
5
102
27.3K
watson999 retweetledi
Yifeng "Evan" Wang
Yifeng "Evan" Wang@ewind_dev·
前端工程师 == agent 工程师 写网页:用户交互层工程化建设 搓 event loop + setState:维护核心执行循环与状态流转 Redux 表单联动:多轮会话上下文管理 调 REST API:外部服务调用编排 接 WebSocket:流式输出增量渲染 try-catch 弹 toast:异常处理与降级链路 接埋点报 Sentry:全链路可观测性
Holegots@holegots

我提议现在开始所有前端工程师响应 AI 时代号召改名Agent 算法工程师

中文
6
12
104
18.6K
watson999 retweetledi
耳朵
耳朵@RookieRicardoR·
研究了一个提高代码质量的提示词, 每次提交代码前我会说: “Review 一下未提交代码中有哪些走弯路的设计”。
中文
45
18
252
47.1K