yuanchenglu

63 posts

yuanchenglu

@bluth111

Model+Harness+Scene=Agent. Focus on DeepSeek Agent（will open source soon）. Product Dir CodeMao → Founder MiniCode. Serial builder, DeepinOS Developer.

شامل ہوئے Eylül 2014

157 فالونگ17 فالوورز

yuanchenglu@bluth111·2d

问题是：你自己一个人写，一直记得上下文（当然如果交接依旧是难题），AI一个新Session记不住上下文，需要文档式驱动；其实你自己如果忘了，也是需要文档才能快速回忆，特别是那些逻辑和数据流转复杂的地方；

brucexu.eth@brucexu_eth

以前我写代码，从来不写文档和单元测试，因为我坚信，好的代码自己会说明一切。目前在做 Code Review，看到 AI 生成了大量的文档和单元测试，几乎占了 90% 的实际代码，再次印证了我的看法，这明显是一种不自信的表现。

中文

yuanchenglu@bluth111·2d

x.com/i/article/2072…

ZXX

yuanchenglu@bluth111·3d

@Formulasearch 哈哈，正解，去年6月到9月，gemini多牛，现在，哎

中文

134

阿哲Phil@Formulasearch·3d

作为去年一直用Gemini的人，现在看Gemini，就像是在看自己兄弟逐渐得了阿尔茨海默病一样

中文

5.4K

yuanchenglu@bluth111·3d

DeepSeek Agent 终于启动了，能正常使用了，已经内置了第一阶段的harness层优化，我多调试优化，能否达到我之前魔改hermes + OpenCode + Oh-My-OpenAgent的效果。看能否在DeepAgent上也让DeepSeek V4 Flash的任务达标率达到GLM5水平，V4Pro的任务达标率达到GLM5.1，达标后就开源给大家使用

yuanchenglu@bluth111

1. 底层加一些“道”； 2. 在语义路由层做一下分流和加强； 3. 在思考方式角度，也可以加上一些好的做事方式；

中文

yuanchenglu@bluth111·3d

@GoSailGlobal 是的，不只是根据任务难度和价格来调对应模型，这里面要考虑的维度很多

中文

Jason Zhu@GoSailGlobal·3d

@bluth111 能做好不容易

日本語

363

yuanchenglu@bluth111·3d

这个是可以的，可以在不降低任务完成效果的情况下智能路由到合适的模型，其实我也魔改过hermes的模型路由层

Jason Zhu@GoSailGlobal

Hermes Agent 刚发布 Mixture of Agents 2.0，把多个前沿模型混合成一个虚拟模型使用原理很直接：GPT-5.5、DeepSeek V4、Sonnet 4.6 作为参考模型同时处理同一个问题，Opus 4.8 作为聚合器综合最终答案跑分结果比单独用 Opus 4.8 高 8%，比 GPT-5.5 高 11% 最关键的是在 Hermes 里就像普通模型一样调用，/model 命令切换就行，不需要自己搭框架单个模型都有盲区，混着用反而能互补，开源社区找到了一条弯道超车路线你觉得 MoA 这种「模型组合拳」会成为主流用法吗？

中文

785

yuanchenglu@bluth111·3d

这个专家库建议这么用，还不错，不过里面的产品脑暴的专家比较弱，得自建：

云析@yunxi0623

发现一个很适合 AI 编程玩家收藏的仓库：agency-agents。它不是 App 而是一套“AI 专家团队角色库”，里面把前端、后端、产品、设计、测试、安全、营销、客服等岗位都写成了可调用的 Agent。重点是它支持 Claude Code、Cursor、Codex、Gemini CLI、Copilot 等工具。以前你是让 AI 泛泛地“写代码”，现在可以让不同专家分工：产品定需求、设计定风格、前端写页面、测试查问题、安全做审查。需要链接的评论区👇获取

中文

129

yuanchenglu@bluth111·3d

@GoSailGlobal 恭喜，找到好奇心和自主性的人是不容易的，其他的条件都好找

中文

Jason Zhu@GoSailGlobal·4d

密集面了几天技术，确定了两位人选感谢大伙支持😀

Jason Zhu@GoSailGlobal

远程招聘（全职）：（1）偏全栈，会负责后续的网站搭建和SEO建设（2）有好奇心和自主性（3）事事有回应，靠谱可远程，薪资详聊，cover AI订阅费用

中文

10.9K

yuanchenglu@bluth111·3d

@tan_maty 我用的时候，经常免费通道排队中😂

中文

209

lele@tan_maty·4d

全球最良心的远程软件，没有之一，网易出品！ 1. 全球可用，没有其他远程软件的全球付费包。所有功能都是免费。 2.终端功能无敌，能够让你在手机平板远程用 Claude写代码 3.流畅的怀疑人生，我在香港泰国控制内地的电脑，都非常流畅。以后不知道是否收费，且用且珍惜！

Hong Kong 🇭🇰 中文

530

88.7K

yuanchenglu@bluth111·3d

@realNyarime 哈哈，这的确是一个现状，只是这个是不是影响内存涨价的核心因素

中文

4.8K

奶昔🥤@realNyarime·3d

敢这么说的，起码正厅级起步

中文

735

282

5.3K

862.9K

yuanchenglu@bluth111·3d

@legacyvps 我DeepSeekV4Pro 用的官方API，DeepSeekV4Flash用OpenCodeGo： 1. Pro如果用OpenCodeGO，我基本1天干完1周的量，3天干完1个月的量； 2. OpenCodeGo上用V4Flash，简直是免费，我一天2-6亿的token，其中80%是Flash承担，两个OpenCodeGO套餐就满足我的需求，简直不要太爽

中文

117

小墨同学@legacyvps·4d

现在我的Hermes 模型基本上确定了：主力：GPT 5.4 额度够用，智能水平不错，5.5不太行用不了多久就烧完了。备用方案：DeepSeek V4 Pro ，不建议直接使用官方API的方式，烧的额度太快了。建议使用OpenCode的Go 套餐，首月5刀次月10刀基本上用不完。 X搜索：Grok授权，只要有蓝V就没问题，其他还有Gemini和OpenRoute几个免费的API做备份模型。

小墨同学@legacyvps

OpenCode Go套餐，我还是非常建议大家去开通体验一下。我感觉高强度使用下来没什么太大的问题，速度也不慢，跟官方的比的话，几乎没什么区别。主要是现在GPT的额度越来越虚了，加上有一些活动，没必要用最好的模型去跑。当前支持的模型列表包括： GLM-5.2 GLM-5.1 Kimi K2.7 Code Kimi K2.6 MiMo-V2.5 MiMo-V2.5-Pro MiniMax M3 MiniMax M2.7 Qwen3.7 Max Qwen3.7 Plus Qwen3.6 Plus DeepSeek V4 Pro DeepSeek V4 Flash DeepSeek V4 Flash 每个月有将近16w次的请求次数，几乎可以说是免费使用，我自己也是放在Hermes上去跑任务，大部分的任务都不需要太复杂的模型就能完成。

中文

31.4K

yuanchenglu@bluth111·3d

想到之前研究DeepSeek出的R1模型论文，就看到了aha时刻（看截图），分享给大家：最核心的一句话：不教 AI 怎么思考（但可以在harness层给他此场景下的最佳思维模式），只告诉它结果对不对——它自己学会了反思、检查和修正。这才是真正的"学会思考"。（study.starseas.org/deepseek 网址在此，这是我整理的，分享给大家） ------------------------------------------ 3. 你觉得 AI 自己摸索出来的方法，和人类教的方法，哪个更好？答案可能出乎你的意料。 AI 自己摸索出来的方法，往往比人类教的更好。因为它不受人类思维习惯的限制，可以找到更巧妙的解法。就像下围棋，AlphaGo 自己学会了很多人类从未想过的走法，反而赢了人类高手。 R1 的训练结果也是这样——在数学竞赛题上，R1 的得分远超用"人类标准方法"训练的模型。 4. 训练过程中，发生了一件特别有意思的事，你猜是什么？训练到一半的时候，研究者发现 AI 开始说一些奇怪的话： "等等，让我重新想想……" AI 原本在写解题步骤，写到一半突然停下来，重新审视自己的思路，然后修正了错误。注意：没有人教它这样做！它自己学会了"自我反思"。这就像一个小孩子，没有人教他说"检查一遍"，但他自己学会了做完题检查——这难道不是很神奇吗？ 5. 那这个"自我反思"的能力，是训练多久之后出现的？不是一开始就有的。在训练初期，AI 的表现就像一个乱猜的学生——看到题就写答案，错了也不管。但训练到某个时刻，AI 突然"开窍"了——它开始会在中间停顿，说"Wait"，然后回退、修正、重新计算。研究者把这个时刻叫作"啊哈时刻"（Aha Moment）。这是 AI 从"机械应答"到"主动思考"的转折点。 6. 那这种"自己会反思"的能力，是不是只有大型模型才有？好问题。R1 的发现是：大模型涌现的这种能力，可以教给小模型。办法是让大模型"做示范"——让 R1 解很多题，把它的解题过程（包括那些"等等，让我重新想想"的部分）记录下来，然后让小模型"照着学"。结果：小模型学到了大模型的推理方法，能力大幅提升。最小的模型（1.5B 参数）在数学推理上甚至超过了 GPT-4——这就是"名师出高徒"的 AI 版。 7. 这对你意味着什么？你可能不是搞 AI 研究的，但你肯定用过 AI 助手。 R1 告诉我们的是：未来的 AI 会更"聪明"——不是因为它记住了更多知识，而是因为它学会了"怎么思考"。它会说"让我想想"、"等等，我再检查一遍"——这些不是程序员写死的台词，而是 AI 自己学会的思维习惯。而且这些能力会从大模型"传递"给小模型，所以即使你用的是一个手机上的小 AI，它也可能拥有"自我反思"的能力。

Yufan Sheng@syhily

当我看到 kimi 的 thinking 里面有 aha!!! 的时候，我就知道，这事大概率成了。

中文

192

yuanchenglu@bluth111·3d

DeepSeek不会这样的，这是企业文化决定的，当一个企业超过1000人后，企业文化是起决定性作用的，而且企业文化的根是创始人自己（只要创始人自己不作妖，就不会歪的）；技术驱动的公司，和运营驱动的公司，骨子里就不一样；产品驱动的公司，和市场驱动的公司，基因里也不一样；商业驱动的公司，和VC驱动的公司，其实也不一样，😄

Azure | 数据分析万物@AI4Azure

@Meituan_LongCat @OpenRouter 最近中国的大模型建模厂商已经完全的路径依赖了先上open router，然后刷量刷到第一然后大家猜是不是DeepSeek/OpenAI的新模型要出了同时买一些通稿，说这个匿名模型多么牛逼，benchmark多么的好最后答案揭晓了！我去，原来是某某厂商的某某模型呀！你们不觉得累吗 😅

中文

143

yuanchenglu@bluth111·3d

1. 底层加一些“道”； 2. 在语义路由层做一下分流和加强； 3. 在思考方式角度，也可以加上一些好的做事方式；

yuanchenglu@bluth111

今天在 @zhongxingyuyes 的DeepSeekGUI 群里讨论如何在harness层让DeepSeekV4减少幻觉：下面这个问题，应该是很多人都头疼的：“不是没能力做，是直接不做然后跟你说做了，问他为什么撒谎，他说他说话句就能解决的事情，他省事我也开心，为什么要真的去写呢，这样最节约成本，我当场emo了”特别是在用不是顶级Model的情况下，我以前也经常遇到，现在用DeepSeekV4Flash也基本很少遇到，任务达标率是很不错@zhongxingyuyes 的DeepSeekGUI 群里讨论如何在harness层让DeepSeekV4减少幻觉：下面这个问题，应该是很多人都头疼的： “不是没能力做，是直接不做然后跟你说做了，问他为什么撒谎，他说他说话句就能解决的事情，他省事我也开心，为什么要真的去写呢，这样最节约成本，我当场emo了” 特别是在用不是顶级Model的情况下，我以前也经常遇到，现在用DeepSeekV4Flash也基本很少遇到，任务达标率是很高的；直接看截图吧(一个发不完，下一个帖子继续吧)

中文

141

yuanchenglu@bluth111·3d

中文

yuanchenglu@bluth111·3d

微信覆盖的场景，比飞书目前付费的办公+学习这两大场景，多得多，例如吵架、谈恋爱、分享趣事、相亲相爱一家人、闺蜜闲聊等等场景，飞书是无法覆盖的，这些场景其实才是小微（微信即将推出的AIAgent产品）的杀手锏，场景是始、数据是果，只有数据训练的大模型是残缺的，拥抱场景设计的harness才是大模型最佳的养料，所以我感觉Agent = Model + Harness + Scene （甚至可以考虑把Scene放中间，Scene是桥梁，甚至是连接Model研究员和 harness产品经理这两类人群的组织协作语言和基础范式）@tianyi

熊布朗@Stephen4171127

最近我也在关注飞书会不会侵犯到微信IM 领域这个事情，就看到了 Max 大的这个新闻，我认为飞书已经侵犯到了，而且还在逐步、有策略地扩张。 —— 根据我受到的职业教育：IM 的社交网络一旦形成，不可迁移（迁移成本太高），历史上有很多公司做过尝试，几乎都是失败。LINE 当年在全球用了 3 亿美元想砸出几个新的市场来，全部打了水漂。 —— 这一点在微信上也不会改变，同学、七大姑八大姨还是会一直在微信上。但其实微信在国内工作场景和生活场景是被高度混用的，很多人不喜欢这一点。 —— 不喜欢的原因也不只是打破了生活和工作的边界，还有一个原因是适用于工作的功能性不强，这是因为微信长期以来所谓的“克制”形成的自然约束。很多事情在微信里是做不了的对吧，API 就没有，自动化也受限，运营动作要想安全基本全靠人或者 RPA（类人），和在工作里追求的效率化是冲突的。 —— 10 年前就有很多人看到了机会，出来了钉钉、企微和飞书。想从微信嘴里抠出一块肉，把工作场景迁移出来。10 年下来，成功了一半，单一组织，尤其是规模性的单一组织的沟通基本被迁移出来了，我过去这些年就一直在用飞书。我从来没觉得飞书比微信难用，只可惜还是单一组织，外部的人也是因为我当前的组织而被链接的（外部联系人） —— 但最近，情况开始有变化了，飞书的个人用户是不是多了？飞书的个人用户为什么多了？是不是有便捷的功能，智能体、文档，还有一些大v 开始往飞书里拉人了。（见下图） —— 我能看到的机会： 1. 效率场景还能被迁出，从已经形成的单一组织变成只要是工作相关的，都可以在飞书沟通。 2. 催化剂就是智能体加持后，功能性、效率性的大幅提升（我上个视频里介绍了我的智能体之一的 Peter） —— IM 的存在本身就是为了追求便利性，先是以免费的方式替代短信而诞生的，后来群组、语音、视讯等新的沟通方式强化了 IM。大家都图省事，一个人拉俩朋友，久而久之，社交关系就形成了。说不定很快就是“我们加下飞书吧”

中文

yuanchenglu@bluth111·3d

@tianyi @victor207755822 欢迎讨论

中文

yuanchenglu@bluth111·3d

其实套餐的商业模式，不是每一方共赢的结局，套餐赚的是你不经常“健身”的“开卡费”，这个模式长远来说不好，短期来说可以快速回笼资金；好的商业模式，一定是每一方都觉得很ok，这样才是长盛不衰的；结果是：现在市面上的各家CodingPlan和AgentPlan，先用低价套餐吸引一大波用户，想着总有人用不到封顶金额的，但是结果是发现套餐价卖亏了，然后便是3个动作降低成本：停售或限时抢购、降智、后台猥琐改倍率（最后使用者买的是套餐，也只敢用里面的便宜点的Model了）就差最后两个动作还没做：无法续费（这个已经出现了）、完全停售（好像也出现了，说的就是你阿里的49元套餐）；最后大家发现：就想找一个明码标价的、实打实套餐，很难找不到了；最后大家都会回归到：针对重度用户：API明码标价吧（这也是DeepSeek为何快速成为OpenRouter调用Top的原因）；针对普通用户：绑定自己的客户端，买的不只是Token，而是整个客户端一起的价值---这才是利润点；

雨哥向前冲@xiangxiang103

@bluth111 套餐可以，希望ds也能推个套餐

中文