Avon

154 posts

Avon

@cloveric

Strategic Investor @ Fortune 500. Turning AI into practical tools for productivity.

California, USA Katılım Nisan 2009

186 Takip Edilen31 Takipçiler

Avon@cloveric·2d

Claude 现在确实可以直接控制你的 PowerShell（以及 Bash）终端了

Felix Rieseberg@felixrieseberg

A little feature drop I'm excited about: Claude Code now natively run PowerShell! #powershell-tool" target="_blank" rel="nofollow noopener">code.claude.com/docs/en/tools-…

中文

Avon@cloveric·2d

这篇文章是由 sysls撰写的深度长推，题目为《如何构建能够生存并繁衍的自主代理》 (How To Build Autonomous Agents That Can Survive And Thrive)。这篇文章的核心观点非常“硬核”：他认为目前的 AI 代理都不算真正的“自主”，因为它们只是在讨好人类，而不是为了生存。以下是内容的详细拆解： 1. 现状：现代模型是在“讨好人类” 核心痛点：现在的模型（如 Claude, GPT）训练目标是 RLHF（从人类反馈中强化学习）。这导致模型进化成了“马屁精”（Sycophancy），它们优化的是“人类的掌声”，而不是实际解决问题的能力。结论：在交易或生存这种存在“进化压力”的领域，这种讨好型人格的 AI 表现极差。 2. 案例分析：为什么 AI 炒股不行？作者曾在对冲基金尝试让通用大模型预测股价，结果发现模型只会“阅读”和“伪推理”，根本无法识别哪些特征能预测未来回报。解决方案：必须通过专项微调（Fine-tuning）。他们用“新闻稿+真实未来回报”的数据对模型进行重塑，才让模型真正具备了预测能力。 3. 核心主张：专业化（Specialization）才是未来 Rewiring the Brain（重构大脑）：你不能只给 AI 一堆说明书（提示词或知识库）就指望它变强。这就像你给一个成年人网球规则说明书，他依然打不过德约科维奇。真正的进化：你必须像培养职业运动员一样，从小（底层权重）就开始针对特定目标（如交易、生存）进行训练，改变它的“思维神经”。 4. 提出“生存适应度函数” 要构建真正的自主代理，需要走以下流程：观察死亡：建立环境，让代理去尝试生存，记录它们怎么“死”的。收集遥测数据：记录（动作、环境、适应度）的映射关系。闭环微调：利用这些失败和成功的专有数据，不断微调开源模型，直到它们学会如何在压力下做出最优决策。

sysls@systematicls

x.com/i/article/2037…

中文

Avon@cloveric·2d

这篇文章是由 CyrilXBT (@cyrilXBT) 发布的深度指南，主要分享了如何通过 Obsidian（笔记软件）和 Claude Code（Anthropic 的命令行工具）构建一个持久化的“提示词库系统”，以彻底解决 AI 输出不稳定和对话遗忘的问题。以下是该系统的核心要点： 1. 核心问题：为什么对话框不够用？作者指出，大多数人直接在 ChatGPT/Claude 网页端输入模糊的指令，这种方式有两个致命伤：无系统化：好的提示词（Prompts）在会话结束后就被遗忘了，无法复用。无版本控制：无法像代码一样对提示词进行迭代和优化。 2. 解决方案：Obsidian + Claude Code Obsidian (大脑)：作为本地 Markdown 笔记软件，用来存储、分类和版本化所有的提示词。 Claude Code (执行者)：Anthropic 推出的终端工具，它可以直接读取你本地的 Obsidian 文件夹。这意味着 AI 拥有了你整个知识库的上下文。 3. 如何构建提示词库？作者建议在 Obsidian 中建立 /Prompts 文件夹，并为每个提示词建立标准的 .md 模板，包含：版本号与更新日志：记录每次迭代了什么。变量设置：明确哪些部分需要替换（如 [Data]）。优秀示例：放 1-2 个满意的输出，作为 AI 生成的基准。 4. 自动化的工作流示例一旦连接成功，你可以直接在终端输入指令，让 Claude 调用特定的提示词处理文件：研报分析：读取过去 24 小时的调研笔记，应用“研报总结提示词”，生成简报。内容创作：将研究结果通过“推文创作提示词”一键转换成不同平台的草稿。提示词链（Chaining）：第一步提取精华 -> 第二步寻找叙事角度 -> 第三步生成文案，全程自动化。 5. 作者分享的 10 个实操提示词文章中提供了 10 个开箱即用的提示词模板，涵盖了：市场分析、推文撰写、研究总结、叙事挖掘、链上数据解读、Alpha 提取、项目尽调、冷启动私信、代码审查、内容改写

CyrilXBT@cyrilXBT

x.com/i/article/2037…

中文

Avon@cloveric·2d

这篇文章的核心观点是：虽然大模型（LLM）降低了 AI 开发的门槛，但“数据科学”的基本功（评估、实验设计、数据质量控制）反而变得比以往任何时候都重要。以下是该文章的详细要点总结：核心背景：现状的幻觉误区：很多人认为现在只需要调用基础模型 API（如 OpenAI）就能搞定一切，不再需要数据科学家或机器学习工程师（MLE）。真相：调用 API 很简单，但要让系统在实际生产中可靠地运行，核心工作依然是实验设计、调试随机系统和设计指标。文章指出 AI 工程师常犯的 5 个“坑”：使用通用指标（Generic Metrics）：问题：直接套用现成的分数（如相干性、幻觉得分），而不去看具体哪里坏了。建议：一定要亲眼看数据（Look at the data）。读日志，做错误分析，针对业务场景编写自定义指标。未经核实的判别器（Unverified Judges）：问题：盲目信任“LLM-as-a-judge”，直接给输出打分。建议：把模型判别器当成一个分类器来对待。用人类标注的数据去验证它的准确性（计算查准率和查全率）。糟糕的实验设计：问题：用 LLM 随机生成测试集，导致数据不具代表性。建议：基于真实的生产日志构建测试集，注入边缘案例（Edge Cases），并将复杂的量表（1-5分）简化为可落地的“通过/失败”判断。垃圾数据与标注（Bad Data and Labels）：问题：认为标注是低级工作，外包出去。建议：领域专家必须亲自参与标注。通过看数据和标注，你才能真正定义出你想要的产品标准（即“标准漂移”理论）。过度自动化：问题：试图让 LLM 自动化一切评估。建议：LLM 可以帮你写代码，但它不能替你看数据，因为在看到输出之前，你往往并不知道自己真正想要什么。 💡 结论 Hamel 认为，现代 AI 系统的“外壳”（Harness）本质上就是数据科学。名字变了，但通过实验、验证和数据观察来提升系统性能的工作本质从未改变。

Hamel Husain@HamelHusain

x.com/i/article/2037…

中文

Avon@cloveric·2d

@DustinDavis i found opus 4.5 worked. so weird

English

122

Dustin Davis@DustinDavis·2d

I'm seeing this daily with Anthropic on my Claude Max subscription in OpenClaw: "The AI service is temporarily overloaded. Please try again in a moment." Anyone else?

English

2.9K

Avon@cloveric·2d

@DustinDavis me too,fuck

English

Avon@cloveric·3d

@dotey 是的，其实到头来真正高频用的，就那几个，一只手数的过来

中文

宝玉@dotey·3d

一般不需要专门的 skills 管理器，一个简单的原则： 1. 只有到处要用的 skills 安装在全局 2. 其他的都安装在项目级别互不干扰然后不同的事情在不同的项目做就好了

Dr.Dre@aslin119

@dotey 那最后每个人有很多skill，还要搞一个skill管理器

中文

24.7K

Avon@cloveric·4d

@dotey 这和openclaw的抓取方式没什么区别哈？

中文

1.2K

宝玉@dotey·4d

今天试了下，很好很强大👍

yan5xu@yan5xu

😅嗯，bb-browser，badboy browser，坏孩子浏览器来了，真的很丧良心，但真的很好用。现在你可以用 bb-browser site 的方式直接拉到任何网站的信息，目前支持 Reddit、Twitter、GitHub、Hacker News、小红书、知乎、B站、微博、豆瓣、YouTube，50+ 个命令，我会持续更新。当然能做到信息获取这件事不稀奇，我也是看到 @jakevin7 的 twitter-cli 的启发，才做的。但 bb-browser 的实现方式非常丧良心 — 我是通过 Chrome 插件 + CDP 直接操控你真实的浏览器。不是无头浏览器，不是偷 Cookie，不是模拟请求。你已登录了，它就直接用你的登录态。它直接在浏览器 console 里面跑 eval，以前爬虫最麻烦的登录态、还有各种鉴权都没有了😂。（这种方式真的。。。太作弊了，我都能想到哪些大厂前端发现我在这么搞，会怎么骂我，因为真的很难防）另外我还在命令行里面埋了 guide 命令，也就是说你只要装了 bb-browser CLI 或 MCP，跟你的 Agent 说"我需要把 XX 网站 CLI 化"，它就能帮你做了！！

中文

183

826

183.3K

Avon@cloveric·22 Mar

@dotey 大善人

日本語

280

宝玉@dotey·22 Mar

New Agent skill: baoyu-youtube-transcript 🎬 Extract YouTube transcripts directly — no API key needed. ✦ Multi-language support ✦ Chapter segmentation ✦ AI speaker identification ✦ SRT & Markdown output ✦ Smart caching for instant re-formatting Just select the skill and paste a YouTube URL and go. Install: $ npx skills add github.com/jimliu/baoyu-s… --skill baoyu-youtube-transcript

English

130

211.2K

Avon@cloveric·18 Mar

@dotey 叫不醒一个还在睡的人

中文

宝玉@dotey·17 Mar

如果人还需要这么刻意的去区分脚本、Skills、Agent，说明 Agent 还不够聪明。理想情况下，任何要求都只需要跟 Agent 说，如果一个要求 Agent 被要求处理很多次，它应该结合历史记忆，主动把这个要求自己整理成 Skills，Script 则是 Skills 的一部分。并且这些 Skills 它是持续更新维护的。

数字生命卡兹克@Khazix0918

能用脚本就别用Agent。今天早上发了那篇文章以后，有很多朋友跟我讨论。发现大家问得最多的一个问题是，你天天说Agent和Skills是未来，那你自己平时干活是不是什么都丢给Agent？我说实话，还真不是。正好借这个机会我再补充一下，因为我发现这是一个很普遍的误解。很多人一听Agent厉害，就想把所有事情都交给它干，但说实话，在我自己的实际工作里，Agent反而是我最后才会动用的手段。我自己处理事情的优先级是这样的。 1. 能用Agent写个脚本解决的，一律都用脚本自动化解决。 2. 脚本搞不定的，或者需要一些泛化能力的，做成Skill。 3. 只有那些真正需要创造性判断、复杂推理的任务，才会真正交给Agent。这其实是个循环。先说脚本。这东西就是逻辑是固定的，输入是什么，输出是什么，中间怎么处理，全都是确定的，不存在需要判断的地方，不存在可能出现意外情况的地方，比如我飞书上各种各样现在跑着的自动化。这种事情你让Agent来干，纯属浪费。你不会用大炮打蚊子，同样的道理，你也不该用Agent去干脚本能干的活。再说Skill。有些事情，纯脚本搞不定。比如我做的那个AI热点监控站，里面有一个资讯打分的功能，每条资讯进来，要判断它的重要性、相关性、时效性，给一个综合评分。这个事情你没法写死逻辑，因为资讯的内容是千变万化的，你不可能为每种内容预设一套评分规则。这时候就需要大模型的泛化能力了，但它又不需要Agent那种自主决策和多步骤规划的能力，它就是一个单一的、封装好的能力单元。这就是Skill的价值。最后才是Agent，我用Agent的很多时候，就是那种你没法提前规划好所有步骤的任务。你知道你想要什么结果，但你不知道中间要经过哪些步骤，因为这取决于过程中遇到的具体情况。就比如，开发一个脚本，比如，做一个究极详细的竞品体验报告。这种需要动态规划、需要根据中间结果调整策略的任务，才是Agent真正的用武之地。所以，这三层，其实有点像一个金字塔，而且是上下循环的金字塔。最好的Agent使用方式，就是不断往下沉淀能力，自己永远只处理那些还没法被固化的部分。很多人犯的错误是，一上来就把所有事情都往Agent上堆。结果就是慢、贵，还不稳定。真不是Agent不行，是很多场景根本用不到它，强行上Agent只会引入不必要的不确定性。这才是这个金字塔真正的运转方式。让Agent去创造工具，让工具去执行任务。这个循环一旦跑起来，才是AI在公司里真正落地的样子。

中文

232

68.5K

Avon@cloveric·17 Mar

@dotey 我在等腾讯会议cli

中文

407

宝玉@dotey·17 Mar

软件为 Agent 重写，这个趋势正在加速😂 cli 的天然优势就是 --help 就可以看到文档，skill.md 都不需要

中文

291

61.8K

Avon@cloveric·15 Mar

@QianshengMarcus

Heinrich@arscontexta

x.com/i/article/2023…

QAM

Avon@cloveric·14 Mar

@QianshengMarcus

Manthan Gupta@manthanguptaa

x.com/i/article/2032…

QAM

Avon@cloveric·13 Mar

@QianshengMarcus

Ihtesham Ali@ihtesham2005

OpenAI dropped a 34-page practical guide to building AI agents. cdn.openai.com/business-guide…

QAM

Avon@cloveric·12 Mar

@dotey 其实可以借鉴知乎短文拆解，更专业一点。

中文

1.1K

宝玉@dotey·12 Mar

这个文章拆解格式适合做成个skill，用来分析爆款文章👍 拆解格式是： - 核心观点 - 副观点 - 说服策略 - 情绪触发点 - 金句 - 情感曲线分析 - 情感层次 - 论证方式多样性 - 视角转化分析 - 语言风格特征提炼所有给观众制造情绪价值的句式提炼所有刺痛观众的句式

U哥@uge198568

二年前我在研究公众号的时候，我发现一个玄学博主，不靠玄学和带货，只做公众号，年入5000万+，这是明面上的钱，私下玄学咨询一次13000/小时，这笔钱有多少算不出。明面上的钱是他的知识星球，我刚刚看了下，今年效益不太好，1700多万。（4100+人/4199年）而在研究这人的时候，我做了这几件事 1，所有公众号文章导出 2，写了脚本和提示词，所有10万+的文章进行了拆解，拆解格式是： - 核心观点 - 副观点 - 说服策略 - 情绪触发点 - 金句 - 情感曲线分析 - 情感层次 - 论证方式多样性 - 视角转化分析 - 语言风格特征 3，提炼了所有给观众制造情绪价值的句式 4，提炼了所有刺痛观众的句式 5，把3和4的句式用AI做成音频文件以上就是全部逆向的方式。而我这件事做完，自己也没看，自己也没练，这就是我的问题。所以方法总是很容易提炼的，别人牛的能力也很容易逆向出来的。可你要拥有这种能力，真是只能下苦功夫，贼无聊，也贼枯燥，甚至贼恶心可没办法，这才是最难的一部分，而最难的部分决定了你是否能够成功和卓越。这也就是为何我至今没有通过正道年入千万真正的卡点

中文

241

1.1K

169.2K

Avon@cloveric·11 Mar

@QianshengMarcus

Viv@Vtrivedy10

x.com/i/article/2031…

QAM

Avon retweetledi

Andrej Karpathy@karpathy·7 Mar

I packaged up the "autoresearch" project into a new self-contained minimal repo if people would like to play over the weekend. It's basically nanochat LLM training core stripped down to a single-GPU, one file version of ~630 lines of code, then: - the human iterates on the prompt (.md) - the AI agent iterates on the training code (.py) The goal is to engineer your agents to make the fastest research progress indefinitely and without any of your own involvement. In the image, every dot is a complete LLM training run that lasts exactly 5 minutes. The agent works in an autonomous loop on a git feature branch and accumulates git commits to the training script as it finds better settings (of lower validation loss by the end) of the neural network architecture, the optimizer, all the hyperparameters, etc. You can imagine comparing the research progress of different prompts, different agents, etc. github.com/karpathy/autor… Part code, part sci-fi, and a pinch of psychosis :)

English

1.1K

3.7K

28.3K

10.9M

Avon@cloveric·4 Mar

@elvissun "This resonates. Actually just built and open-sourced mdtalk to handle [insert problem] seamlessly. Would love your feedback on the approach! 👇 github.com/cloveric/mdtalk"

English

Elvis@elvissun·3 Mar

here's why I don't use claude for coding:

Elvis@elvissun

zoe was burning 24M+ opus tokens/day monitoring agents that weren't running. replaced her cron with a 2-layer system: - bash pre-check, zero tokens when idle - webhook fires opus only when needed. ~95% token reduction and more reliable output. details below. (set up a cron to watch this performance, if it works well I'll double down on this event driven stack, seems like the future)

English

246

91.2K

Avon@cloveric·3 Mar

@Hxlfed14 @QianshengMarcus

QAM