rust

496 posts

rust

rust

@jiangdsa

انضم Kasım 2016
251 يتبع8 المتابعون
rust أُعيد تغريده
karminski-牙医
karminski-牙医@karminski3·
什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让AI评估skill写的好不好然后不断去优化! 最终, 这个框架写的 skill 让GPT-5.5的直接对话准确率飙升了 23.5分! 这个框架具体是怎么做的也很简单, 让skill迭代过程实现 harness 闭环! 大模型写完 skill 后, 立刻进入跑分流程, 只有得分更高的 skill 变更才会留下来. 跟大模型的强化学习过程如出一辙. 框架的设计也很值得做 Agent 框架的同学借鉴, 比如: 它设计了一个独立的优化器模型, 这个模型是用来写 skill 的, 它会根据 Agent 执行任务的试错表现得分, 对 skill 进行编辑操作(增加、删除、替换文本). 然后就是 harness 流程了:每一次文本编辑都必须在独立的验证集上分数有提升, 才会允许合并. 最后, 也是最精彩的地方, 框架还引入深度学习训练机制, 设计了文本层的学习率预算, 这个的核心就是限制大模型每次只能修改skill的一小部分, 慢慢迭代, 而不是全都重写. 论文中最有价值的数据就在这里, 论文实验发现, 每一步设置 4 到 8 个编辑操作的预算效果最好. 最终的最佳 skill 往往只包含 1 到 4 个被接受的核心修改. 甚至他们还设计了被拒编辑缓冲区, 用来存储训练过程的反面胶材, 以及周期性慢速/元更新, 这个则是跑完一个周期后, 会进行一次盘点, 类似于让框架形成记忆, 能更好的维持后续迭代. 这篇论文的结论十分深刻: skill(prompt) 完全配得上, 也需要一套系统级的训练流程. 原文中的描述直接是: 我们主张, skill 应当作为 Agent 的外部冻结状态来被"训练", 并且训练过程还要"让权重空间优化具有可重复性"! 这是不是意味着, 提示词工程(Prompting)和模型训练(Training) 的界限将逐渐变得模糊? 而提示词工程完全进入了机器学习的领域. 也许很快, 我们再也不需要人类去手动瞎改和调试提示词了! 论文地址: arxiv.org/pdf/2605.23904 #skillopt #微软 #提示词工程 #harness
karminski-牙医 tweet media
中文
43
120
661
89.1K
rust
rust@jiangdsa·
@CMGS1988 如果是电商这种高流量场景,上线分分钟挂😂
中文
1
0
0
51
CMGS
CMGS@CMGS1988·
@jiangdsa 是的,所以我现在还是基于人在回路进行强制矫正…现在就2个流派,头条的认为人可以不在回路了,包括 openclaw 也是这样,结果导向,代码不易维护就不维护,最后推倒重来大家再吃一碗饭。一种是就是你我认为需要维护的,但说实话这条路跟你带个程序员没啥两样……
中文
1
0
0
153
CMGS
CMGS@CMGS1988·
我就是觉得,都 AI Agent 了还在纠结啥语言…很滑稽…是的甚至不是觉得智障,就是很滑稽…看古墓派小丑一样…所以现在新生代 AI 上脑后什么是图灵完备也不懂了是吧…
中文
12
1
42
12.9K
rust
rust@jiangdsa·
@CMGS1988 3. ai不懂实体/领域模型拆分,你不说,它可能会一个文件写几千行代码,几十个方法
中文
0
0
0
38
瓜哥玩AI
瓜哥玩AI@MatrixCoreX·
说一个教培真相: 一群一本毕业的父母, 天天996没空教娃, 把娃送到外面的培训班, 全是大专毕业的老师教。
中文
183
38
1.2K
167.3K
rust أُعيد تغريده
郭宇 guoyu.eth
郭宇 guoyu.eth@turingou·
语言中的停顿和表情做的真好,想象一下如果这在未来六个月能被实时视频模型支持…不可思议的未来
中文
4
5
46
33.4K
rust أُعيد تغريده
Matt Pocock
Matt Pocock@mattpocockuk·
Things people get wrong with my grill-* skills: - Being too passive - Not grilling in parallel - Not prototyping - Going into the dumb zone - Grilling too hard - Grilling too large a topic - Using too dumb a model - Clearing the context too soon Here's the breakdown:
English
39
51
1.1K
65.2K
rust أُعيد تغريده
ᴅᴀɴɪᴇʟ ᴍɪᴇssʟᴇʀ 🛡️
Claude Code is about to release a feature called /workflows that I think will be extremely significant. Especially for Enterprise AI. I talked about this in 2024 in a post called Companies Are Just Graphs of Algorithms. Basically the idea is that all work is just an algorithm, i.e., a series of steps to accomplish a goal. Skills and Cowork have been heading in this direction already, and we've seen what that's done to company valuations in various spaces. Well this is closer to the final form. It's turning the regular, expected work that's done in companies into pseudo-deterministic workflows that follow defined SOPs. The human role will be determining what problems to solve (taste, expeirence, etc), building new products from that, and then optimizing these workflows from above. But the work itself will be these workflows executed according to SOPs.
ᴅᴀɴɪᴇʟ ᴍɪᴇssʟᴇʀ 🛡️ tweet media
English
212
432
3.1K
324.1K
rust
rust@jiangdsa·
@kuaidaoqingyi 已经把那人block了,面相看着就讨厌
中文
0
0
0
193
rust أُعيد تغريده
Dash
Dash@DashHuang·
早上试了下,真管用,被 Codex 诊断出来是路由器到光猫的网线出问题了,刚去换了根,立马好了🤣
Dash tweet media
Xudong Han@Xudong07452910

昨天在 X 的英推看到一个很爆火和具有启发性的Codex玩法,中推还没看到有人提。 有人用 Codex 5.5(支持操作电脑的 AI Agent)大幅优化了网络速度,并在帖子里晒出了前后对比。 随后下面这位 @giyu_codes 用户做了件特别聪明的事: 他把整个原帖直接复制粘贴给 Codex,并附上一段自己的提示词: “Hey my friend says he improved his internet speed and here is what happened. Can you check if there are any improvements we can make for our internet? My provider says they're sending 1.2k gbps and anything I get is a result of hardware. I'm getting 55mbps right now pls fix make no mistakes.” 他把“别人成功优化的真实案例”当作上下文喂给 Codex,让 Codex 参考那个案例,给自己当前的烂网速做针对性诊断和修复。结果就是网速起飞了。 我觉得这种做法的核心价值在于:不是自己凭空写 Prompt,而是把真实世界里已经验证成功的案例作为上下文喂给 AI,让 AI 参考成功经验,针对自己的具体情况进行精准诊断和优化。 感觉这是一种非常高级的靠案例驱动的提示技巧,目前在 Agent 类 AI 的使用上特别有效。

中文
114
71
755
456.5K
Matt Pocock
Matt Pocock@mattpocockuk·
Skills should be: - Concise - Responsible for one thing, not multi-step - Composable - Progressively disclosed - Harness-agnostic What else? Or - what did I get wrong?
English
189
83
1.7K
132K
rust
rust@jiangdsa·
@mattpocockuk Could you discuss SubAgent like this?
English
0
0
0
9
rust أُعيد تغريده
宝玉
宝玉@dotey·
Codex 交互做的真的挺好的,你可以方便的看当前运行的 SubAgents,以及每个 SubAgent 在做的事、用的提示词
宝玉 tweet media
中文
31
13
124
30.4K
rust أُعيد تغريده
郭宇 guoyu.eth
郭宇 guoyu.eth@turingou·
最近我已经用 AGS(Agent Git Service) 替代了 GitHub 作为我的主要开发环境,年初我曾经想过彻底放弃本地开发环境,5月底终于做到了,现在,除了 iOS 模拟器依赖 Mac 我不得不让我家里的 Mac Studio 始终在线之外,其他产品的开发我已全部迁移到围绕 AGS 的第一层 harness 工作流,因此,AGS 成了我的 source of truth,GitHub 仅用来做代码备份和开源项目的 issue 管理。 我的 AGS 开发服务器运行在 sandbank cloud 的第一台服务器,也就是东京(TYO)服务器上,工作流是截图中第二条。dev agent 会自动在 AGS 服务器上进行开发,支持 wanman 和 codex /goal 双驱动的模式,提交,构建,stage 环境和发布都在本机。至于 chat UI,我现在选择 chatGPT ios app 上的 codex 来监控和指导对话,没有用其他聊天软件。 基于 AGS 的工作方式,我在做一个新的产品叫做 VAS(virtual agent server)除了整合上述功能并提供虚拟化的工作空间之外,VAS 还提供了双工语音模型的控制入口,这样我们就可以把这样一个「可以在生产环境开发真正产品」的 harness 整合到任何音箱或者语音人机界面中去。
郭宇 guoyu.eth tweet media
中文
6
28
226
37.4K
rust
rust@jiangdsa·
@turingou x 怎么这么多垃圾账号评论
中文
0
0
0
824
郭宇 guoyu.eth
郭宇 guoyu.eth@turingou·
这几个月一直在参与拍摄的 NHK 特别节目纪录片首播日期定档在本周日晚上 9 点!本次拍摄足迹横跨东京,安曇野,沖縄和宮古島多个取景地,展示了 wanman 和 tuwa 等许多我正在开发的 AI 产品,节目时长约一小时,欢迎大家准时打开电视观看!
郭宇 guoyu.eth tweet media郭宇 guoyu.eth tweet media
中文
124
21
247
103.7K
lolieatapple
lolieatapple@lolieatapple·
@RizumuA3 Claude Code, 提示词是:“生成可视化HTML来讲解《软件设计的哲学》(A Philosophy of Software Design)这本书里面所表达的内容。”
中文
2
0
5
753
绚香音 Rizumu
绚香音 Rizumu@RizumuA3·
最近公司 领导 和我聊起面 向对象(OOP)和设计模式。并说想要在公司中推广设计模式。但是我表示了 反对。 我想聊聊我为什么不喜欢设计模式,以及我信奉的软件 “设计模式”。 说实在的,我其实没看过 GoF 那本设计模式的书。以后也大概不会去读。但是设计模式的大名还是有听过 我之前在 Vue 团队写 Vapor 模式时。发现 Vue 的响应式系统确实使用了 OOP,但主要是出于性能上的考虑。当优化达到一定层级之后,哪怕是引擎层面的微小实现差异也会影响性能。所以我们选择 OOP,是因为它带来的优化便利,并不是因为我们想要套用某种具体的设计模式。 * Vue 的源代码中 ReactiveEffect、Dep、ComputedRefImpl 这些类的存在,是因为 V8 的 hidden class / inline cache 对固定形状的对象优化更好。 (如果理解有误,欢迎指出) 我在入行的初期学过 OOP,大约是 8 年前的事了,已经很久了。但是过去这几年,我逐渐觉得设计模式并不太适合 Vue 3 + TypeScript 的开发。如果不是为了性能优化,我现在也很少使用面向对象。我会这样看,一部分原因是受到了像 Anthony Fu (antfu) 这些人的影响。 * GoF 是 1994 年的 C++/Java 世界的产物。如今语言进化了,很多模式从"需要刻意设计"退化成了"语言原生特性"。 这就是为什么 antfu、Evan、Anthony Fu 那一派人不太谈 GoF。不是反对它,而是它已经融进语言里了,再单独命名反而显得笨重。 “ 模式之所以叫模式,是因为语言没原生支持它,你得手动重复实现。” 去年我读了一本关于如何更好的编程的书,我很快就爱上了它。我试着推荐给我的推友们,结果发现推友中已经有不少人读过了。而且也很喜欢! 这本书是《软件设计的哲学》(A Philosophy of Software Design) 我特别喜欢书中对复杂度的阐释方式,现在仍会时常翻阅。 我的 CLAUDE.md 提示词里也用了这本书的概念: - 深模块(Design Deep Modules) - 消除错误(Define Errors Out of Existence) - 向下沉淀复杂性(Pull Complexity Downwards) - 不同层不同抽象(Different Layer, Different Abstraction) 这边篇幅有限,就不展开这几个概念了。如果感兴趣的话,我可以之后仔细写写我自己的理解。 让我疑惑的问题: 设计模式如今还被使用,似乎更多是一种沟通时的共同语言。但是我们是否真的按照它的模式来设计代码架构呢? 它作为大家交流的语言和思想的工具如今是否还是合适的选择。是否落后,又是否有着与时俱进的新选择呢? * 写了好多,以上都是我自己的主观想法,可以随便聊 🤗
绚香音 Rizumu tweet media
中文
81
31
409
117.9K
rust
rust@jiangdsa·
@RizumuA3 那么有没有 软件设计的哲学 的skill
中文
0
0
0
32
rust أُعيد تغريده
lolieatapple
lolieatapple@lolieatapple·
@RizumuA3 与时俱进,因地制宜。“设计模式”就是一种工具,当你所面对的问题和所处环境需要它时,就拿出来用。当你不需要它时,就把它丢一边就好。另外分享楼主说的这本书的概览: …g-software-design-philosophy.surge.sh
lolieatapple tweet media
中文
7
5
28
3.2K
rust أُعيد تغريده
Thariq
Thariq@trq212·
a prompt I've been using a lot recently: implement <SPEC> and while you do, keep a running implementation-notes.html file (or markdown) with decisions you had to make weren't in the spec, things you had to change, tradeoffs you had to make or anything else I should know
Thariq tweet media
English
343
580
9.7K
815.3K