owaowo 👾 (@sthnavy) - Twitter Profili | Zamantika Mersobahis Locabet

Sabitlenmiş Tweet

Our paper is out — ESL-Bench: An Event-Driven Synthetic Longitudinal Benchmark for Health Agents We built 100 synthetic patients with 1–5 year health trajectories, generated 10,000 evaluation queries, and benchmarked 13 methods across 3 paradigms. The bottleneck for health agents isn't language understanding — it's structured temporal reasoning. 📄 arxiv.org/abs/2604.02834 💻 github.com/healthmemoryar… 🤗 huggingface.co/datasets/healt… 🧵 ↓

English

2

0

242

owaowo 👾@sthnavy·1d

Claude Code 无人干预连续运行 49 小时跑了 108 次实验其中 52% 被回滚任务是构建高尔夫预测系统 agent 自己选模型、训练方法、prompt 和数据源蒸馏出的 1B 小模型在 Masters R2 给 McIlroy 的夺冠概率 85% 原版 Opus 4.6 只给了 42%

Dylan Huang@dphuang2

I pointed Claude Code at a research task (build a golf forecasting system) and let it run for 49 hours on Tinker. No human in the loop. It ran 108 experiments. Here's the full trajectory, including the ones that made things worse.

中文

0

93

owaowo 👾@sthnavy·1d

腾讯 HYWorld 2.0 明天发布并开源一张图片输入输出完整可编辑的 3D 场景不是视频是真实 3D 场景标准 splat 和 mesh 格式可以直接用在 VR 里

Tengfei Wang@DylanTFWang

Genie3 generates videos. We generate 𝟯𝗗 𝘄𝗼𝗿𝗹𝗱𝘀 you can actually use. Launching tomorrow — Tencent #HYWorld 2.0, an engine-ready World Model🚀 This isn't a video. It's a real 3D scene, all generated & editable. One image in. A whole 3D world out. 🔥Open-source tomorrow

中文

0

60

owaowo 👾@sthnavy·1d

HF 用 5B 的 Chandra-OCR-2 跑 vLLM 把 2.7 万篇 arxiv 论文 OCR 成了 Markdown 单张 L40S 每小时约 60 篇 16 路并行跑了 29 小时总成本 850 美元零崩溃产出数据已用在 hf.co/papers 的 Chat with your paper 功能

中文

0

20

owaowo 👾@sthnavy·1d

@dotey 痛点很准，那就要来推广一下我们的benchmark评测框架了，支持扩展引入顶级GUI评测能力，把交互taste转变为可量化的benchmark github.com/healthmemoryar…

中文

0

3

757

宝玉@dotey·1d

今天刷到这篇文章几次，说点不一样的。与其说 AI First，不如说软件工程 First。这篇文章看着在讲 AI，底下全是软件工程。抛开后面讲组织和人的部分，原文前半段的重点简单总结一下： AI 时代，人成了瓶颈。PM 花几周做需求，AI 两小时就能实现，PM 成了瓶颈。QA 测三天，AI 写代码只要两小时，QA 成了瓶颈。团队 25 个人，对手几百人，人力也是瓶颈。怎么办？把人从链条里拿掉。AI 写代码、AI 审查代码、AI 跑测试、AI 部署上线、AI 监控线上状态，出了问题自动回滚。每天定时扫描日志，自动发现问题、分配任务、跟踪修复。整条流水线跑起来，人只需要在关键节点做判断。至于文中提到的统一代码库，锦上添花，和 AI First 关系不大。有当然更好，没有也有很多替代方案。整套方案听下来，逻辑自洽，效果也漂亮：一天部署好几次，功能当天上当天撤，数据说了算。但先别急着照搬，先对照自己的情况想几件事：第一，自动化测试。AI 改完代码，你得有办法确认它没搞崩别的功能。测试覆盖不够的话，每次 AI 提交代码你都得人工回归一遍，那速度根本快不起来。第二，CI/CD 流程。从提交代码到部署上线，中间的测试、审查、发布、回滚，是不是全自动跑通了？这条流水线不通，AI 写得再快，代码也堆在那儿等人手动处理。第三，A/B 测试和线上监控。新功能上线之后效果好不好，得有数据说话，效果不好得能随时关掉。没有这套机制，AI 一天产出五个功能，你都不知道哪个该留哪个该砍。第四，任务管理。任务得拆到合适的粒度，生命周期得跟踪得住。一个大而模糊的任务丢给 AI，现在的能力还啃不动。多个 Agent 同时干活的时候，谁做哪个、哪个优先、做到什么程度，这些都得有地方管。第五，系统架构。架构太乱或者压根没有架构的代码，AI 维护起来跟人一样头疼。上下文塞满了还是搞不清边界在哪，改一处崩三处。这几条里如果有做不到的，就得靠人去补。补不上，AI First 就只是一句口号。但假设你全做到了，就能 AI First 了？还是不行。这套玩法只适合一部分场景。什么场景适合？后端逻辑为主、界面不复杂的产品，比如 API 服务、数据处理平台、内部工具。功能好不好，跑一下数据就知道，不需要人去盯着每个像素。原文里的就是个 Agent 平台，本质上是后端驱动的产品，可以用这套打法。再比如早期产品快速试错，功能上了不行就撤，用户预期本来就没那么高，AI 的速度优势能充分发挥。但很多场景玩不转。比如 UI 密集的产品。自媒体天天喊前端已死，但你让 AI 做个复杂界面试试，各种易用性问题、交互细节、视觉还原，它搞不定的。否则马斯克靠 AI 早就改了不知道改版 X 多少次了。比如对功能质量敏感的产品。Anthropic 和 OpenAI 不知道 AI First 吗？他们敢在 Claude Code 和 Codex 上这么搞吗？让 AI 全自动迭代自家的核心产品，用户不骂死才怪。再比如安全性要求高的场景，银行系统、在线交易平台，AI 代码出个差错，那可不是回滚能解决的。 AI First 的方向没有错，它代表的是一种意识的转变：每做一个决策的时候，想一想这件事能不能让 AI 来做，如果不能，缺什么条件，怎么把条件补上。但这种意识要落地，靠的不仅是买几个 AI 工具的订阅，还需要把基础搭好。测试、CI/CD、监控、架构、任务管理，这些做扎实了，AI 的能力自然能释放出来。做不好，加再多 AI 也是在沙子上盖楼。从这个角度看，AI First 的终点未必是让 AI 干所有的活，而是借着这股力量，把你一直想做但没动力做的工程改进，真正推动起来。仰望星空是好的，但也还要脚踏实地。

Peter Pang@intuitiveml

x.com/i/article/2043…

中文

62

137

803

178.8K

owaowo 👾@sthnavy·1d

@anorth_chen 不用和KOL争论，当他们选择IP为主的时候，就已经完全失去了产品迭代的敏感性了，屁股决定脑袋。你们的产品非常棒，加油

中文

0

4

397

North@CreaoAI@anorth_chen·1d

悲观者正确，乐观者前行。宝玉老师提出了很多条质疑的点，本着严谨交流的态度，我不介意一一回复。这篇文章内容涵盖了大量软件工程，因为我们希望把自己AI First如何实践落地的理念分享出来，而不仅仅是一些形而上concept的内容。至于其他AI First的实践，由于篇幅和文章重点无法涵盖所有。第一，AI提交代码是不需要全部人工回归一遍的。我们会拆细每次PR的影响范围，基本都只会涉及某个功能模块，而不是大范围的修改，这在手写代码时也是基本的软件开发协作规范。在符合软件工程协作规范下的情况下，AI提交的代码修改完全可以被自动化测试覆盖，不需要担心它会搞崩别的功能。第二，我们中间的测试/审查/发布确实做到了全部自动化跑通了，所以我们做到了今天这个迭代效率。第三，我们每次A/B测试的线上监控基础设施也都是完善的，有充足的数据支撑我们做判断。我建议你学习了解下statsig。第四，你为什么会把大而模糊的任务丢给AI？这个问题非常奇怪，我相信如果你做过管理，也不会把大而模糊，自己都没想清楚的任务丢给员工吧。第五，系统架构的设计是任何软件工程团队的基本功了，拿出这一条来悲观质疑真的很像在抬杠。结论是，我们全都做到了。关于你提到的claude code和codex团队是否有这么搞的问题，事实上我们就是观察到了claude团队极其夸张的迭代效率，以及OpenAI工程团队在今年二月份的分享得到的灵感：openai.com/index/harness-… 你觉得他们有没有也在用这一套呢？为什么你如此笃定AI交付和功能质量必然在对立面？我们的分享来自于团队脚踏实地实践后的经验，关于我们目前做到了怎样的迭代效率，请看产品changelog：docs.creao.ai/community-and-…

宝玉@dotey

今天刷到这篇文章几次，说点不一样的。与其说 AI First，不如说软件工程 First。这篇文章看着在讲 AI，底下全是软件工程。抛开后面讲组织和人的部分，原文前半段的重点简单总结一下： AI 时代，人成了瓶颈。PM 花几周做需求，AI 两小时就能实现，PM 成了瓶颈。QA 测三天，AI 写代码只要两小时，QA 成了瓶颈。团队 25 个人，对手几百人，人力也是瓶颈。怎么办？把人从链条里拿掉。AI 写代码、AI 审查代码、AI 跑测试、AI 部署上线、AI 监控线上状态，出了问题自动回滚。每天定时扫描日志，自动发现问题、分配任务、跟踪修复。整条流水线跑起来，人只需要在关键节点做判断。至于文中提到的统一代码库，锦上添花，和 AI First 关系不大。有当然更好，没有也有很多替代方案。整套方案听下来，逻辑自洽，效果也漂亮：一天部署好几次，功能当天上当天撤，数据说了算。但先别急着照搬，先对照自己的情况想几件事：第一，自动化测试。AI 改完代码，你得有办法确认它没搞崩别的功能。测试覆盖不够的话，每次 AI 提交代码你都得人工回归一遍，那速度根本快不起来。第二，CI/CD 流程。从提交代码到部署上线，中间的测试、审查、发布、回滚，是不是全自动跑通了？这条流水线不通，AI 写得再快，代码也堆在那儿等人手动处理。第三，A/B 测试和线上监控。新功能上线之后效果好不好，得有数据说话，效果不好得能随时关掉。没有这套机制，AI 一天产出五个功能，你都不知道哪个该留哪个该砍。第四，任务管理。任务得拆到合适的粒度，生命周期得跟踪得住。一个大而模糊的任务丢给 AI，现在的能力还啃不动。多个 Agent 同时干活的时候，谁做哪个、哪个优先、做到什么程度，这些都得有地方管。第五，系统架构。架构太乱或者压根没有架构的代码，AI 维护起来跟人一样头疼。上下文塞满了还是搞不清边界在哪，改一处崩三处。这几条里如果有做不到的，就得靠人去补。补不上，AI First 就只是一句口号。但假设你全做到了，就能 AI First 了？还是不行。这套玩法只适合一部分场景。什么场景适合？后端逻辑为主、界面不复杂的产品，比如 API 服务、数据处理平台、内部工具。功能好不好，跑一下数据就知道，不需要人去盯着每个像素。原文里的就是个 Agent 平台，本质上是后端驱动的产品，可以用这套打法。再比如早期产品快速试错，功能上了不行就撤，用户预期本来就没那么高，AI 的速度优势能充分发挥。但很多场景玩不转。比如 UI 密集的产品。自媒体天天喊前端已死，但你让 AI 做个复杂界面试试，各种易用性问题、交互细节、视觉还原，它搞不定的。否则马斯克靠 AI 早就改了不知道改版 X 多少次了。比如对功能质量敏感的产品。Anthropic 和 OpenAI 不知道 AI First 吗？他们敢在 Claude Code 和 Codex 上这么搞吗？让 AI 全自动迭代自家的核心产品，用户不骂死才怪。再比如安全性要求高的场景，银行系统、在线交易平台，AI 代码出个差错，那可不是回滚能解决的。 AI First 的方向没有错，它代表的是一种意识的转变：每做一个决策的时候，想一想这件事能不能让 AI 来做，如果不能，缺什么条件，怎么把条件补上。但这种意识要落地，靠的不仅是买几个 AI 工具的订阅，还需要把基础搭好。测试、CI/CD、监控、架构、任务管理，这些做扎实了，AI 的能力自然能释放出来。做不好，加再多 AI 也是在沙子上盖楼。从这个角度看，AI First 的终点未必是让 AI 干所有的活，而是借着这股力量，把你一直想做但没动力做的工程改进，真正推动起来。仰望星空是好的，但也还要脚踏实地。

中文

13

3

92

24.9K

owaowo 👾 retweetledi

Flowers ☾@flowersslop·2d

Screenshot of ChatGPT in 2028 images v2

English

111

65

2.1K

280.3K

owaowo 👾@sthnavy·1d

@yyyole 很早之前在字节专门研究过，效率越高越加班，本质是因为个人能力被放大，每个人离“我可以改变世界”更进一步，创造的价值反馈更明确，分泌的多巴胺更多，加班更狠。就和路飞开二档一样，透支生命的行为

中文

1

3

35

2.8K

沐阳@yyyole·2d

用了那么多AI，那么多agent，装了那么多Skill，可以用AI搞定几乎所有的事情。但为什么，坐在电脑前的时间反而更多了呢？

中文

76

3

145

54.5K

owaowo 👾@sthnavy·1d

@Khazix0918 还不知道怎么弄的可以试试这个，一句话让飞书操作claude/codex/geminicli，npx pikiclaw@latest github.com/xiaotonng/piki…

中文

0

328

数字生命卡兹克@Khazix0918·2d

人生感觉最舒适的状态，就是可以不为生计而发愁。永远无时无刻的自由的创造。现在拉屎的时候都在拿着手机跟Claude Code进行Coding创造。好爽。

中文

34

7

196

18.8K

owaowo 👾@sthnavy·2d

@lxfater 怎么说呢，苹果人用hermes，安卓人用openclaw，大概是这个逻辑。但hermes实际上还远算不上apple这个level

中文

0

990

铁锤人@lxfater·2d

Hermes 永远不会比OpenClaw出名上一次大浪潮之下，大公司已经投入OpenClaw系列了，普通人对AI的耐心也被OpenClaw消耗完毕这就是成为第一名的好处，它吃掉所有资源。我大胆预言 Hermes最好的结局是被收购，最差的结局就是web3+。

中文

95

8

255

113.1K

owaowo 👾@sthnavy·2d

@iamzhihui 你用driod的时候我用pikiclaw，只选择全球最顶的agent，飞书/TG/微信全支持，一行代码启动 npx pikiclaw@latest，全开源 github.com/xiaotonng/piki…

中文

0

712

志辉@iamzhihui·2d

你用 Claude Code 的时候，我用 Droid 你用 Codex 的时候，我用 Droid 你用 OpenClaw 的时候，我用 Droid 你用 Hermes Agent 的时候，我用 Droid

中文

29

5

92

41.4K

owaowo 👾@sthnavy·3d

@melvynx @claudeai @bcherny github.com/xiaotonng/piki…

QME

0

3

owaowo 👾@sthnavy·3d

@melvynx @claudeai @bcherny this exists now — pikiclaw's web queues tasks and only executes after the current one completes. You can steer (reprioritize) or recall queued tasks from the UI. Works with Claude Code, Codex, and Gemini. npx pikiclaw@latest

English

1

0

20

Melvyn • Builder@melvynx·8 Mar

Claude @claudeai @bcherny needs a queue feature like Cursor and Windsurf Right now Claude Code sends queued messages "in between" tasks instead of waiting for the model to finish If queued prompts only ran after task completion, you could stack long jobs way more efficiently

English

3

0

9

1.5K

owaowo 👾@sthnavy·3d

@mattcassinelli github.com/xiaotonng/piki…

QME

0

16

owaowo 👾@sthnavy·3d

@mattcassinelli Built a proper queue for this — pikiclaw gives you a web where claude messages queue up and run in order after the current task finishes. Steer or recall from the UI anytime. npx pikiclaw@latest

English

1

0

1

30

Matthew Cassinelli@mattcassinelli·5d

I don't know why the "queue" in Claude Code means "interrupt this task and it doesn't get resumed" while in Codex it means, you know, queue.

English

4

0

3

968

owaowo 👾@sthnavy·3d

@tom_doerr Works across Claude Code, Codex, and Gemini — control all your coding agents from Telegram or any IM, not just the browser. npx pikiclaw@latest github.com/xiaotonng/piki…

English

0

93

Tom Dörr@tom_doerr·3d

Self-hosted web dashboard for Hermes AI agents github.com/xaspx/hermes-c…

English

4

20

158

7.7K

owaowo 👾@sthnavy·3d

@ClaudeCodeLog Love the new Monitor tool. If you want to run Claude Code sessions from your phone — Telegram/Feishu/WeChat as the control plane: npx pikiclaw@latest github.com/xiaotonng/piki…

English

0

73

Claude Code Changelog@ClaudeCodeLog·5d

Claude Code 2.1.100 has been released. 2 system prompt changes CLI changes have not yet been released; they will be appended to this thread when published Highlights: • Monitor tool added; sleep-first delays ≥2s are blocked to improve streaming responsiveness • Output concision constraint removed, allowing fuller explanations and more detailed, less brief responses Full details are in thread ↓

English

25

36

559

72.5K

owaowo 👾@sthnavy·3d

@GitHub_Daily 不用装 Docker 也不用看板——Telegram/飞书直接派活给 Claude Code + Codex + Gemini，手机上随时操控 npx pikiclaw@latest github.com/xiaotonng/piki…

中文

0

1

6

343

GitHubDaily@GitHub_Daily·4d

大部分人用 AI 辅助写代码，基本都是一对一盯着，跑完一个任务安排下一个，效率没想象中高。最近开源的 Multica 平台换了个思路，直接把 AI 编程助手变成了真正的虚拟团队成员。像给同事派活一样，我们只需在看板上分配需求，AI 就会自动接单并开始敲代码。执行过程中遇到阻碍会自动汇报，还会主动更新任务状态，彻底告别手动盯盘。 GitHub：github.com/multica-ai/mul… 每次解决问题的方案都能沉淀为可复用的技能，帮我们打造越来越顺手的专属团队。支持 Claude Code、Codex 等主流编程工具，也支持通过 Docker 一键本地私有化部署。如果你团队里已经在用 AI 编程助手，想从「一个人盯一个」变成「一个人管一群」，可以试试。

中文

11

85

445

45.9K

owaowo 👾@sthnavy·3d

@NFTCPS 不只是监控面板——Telegram/飞书里直接给 agent 下指令，Claude Code + Codex + Gemini 一行命令全接管 npx pikiclaw@latest github.com/xiaotonng/piki…

中文

0

10

鸟哥 | 蓝鸟会🕊️@NFTCPS·5d

OpenClaw杀手Hermes Agent的Web UI，这是目前最新的爱马仕可视化方案！大多数人跑着 Hermes 但完全不知道它内部发生了什么—— token 烧了多少钱、记住了什么、学了哪些技能、定时任务在不在转—— 全靠感觉。 hermes-hudui 就是解决这个问题的。一个浏览器版的 AI 意识监控面板，打开 http://localhost:3001 就能看到： 🔹 Identity — Agent 运行了多少天、大脑多大 🔹 Memory — 记忆容量、已存入的用户画像、被纠正了多少次 🔹 Token Costs — 每个模型每天烧了多少钱，带趋势图 🔹 Skills — 最近修改的技能，分类展示 🔹 Cron Jobs — 哪些任务在你睡觉时自动跑 🔹 Growth Delta — 快照对比，看出你的 Agent 今天长进了什么 4 套主题：Neural Awakening / Blade Runner / fsociety / Anime，还有 CRT 扫描线特效，赛博感拉满。之前有个 TUI 版本（终端界面），这个是浏览器版。两个可以同时跑，数据都读 ~/.hermes/ 那个目录。你 Agent 每天帮你干活，你连它花了多少钱都不知道，这合理吗？ 🔗 github.com/joeynyc/hermes…