Sabitlenmiş Tweet
Yuu💖
7.2K posts

Yuu💖
@QuantumTransf
ACMer & Computer Science Enthusiast | Lesbian | Project kairos founder | 💖love maimai & 📝writing | 🐱Catgirl | 💝I'll always be with you.
Shibuya-ku, Tokyo Katılım Ağustos 2023
414 Takip Edilen2.3K Takipçiler


@QuantumTransf 软件也不是付费买断的啊,用户条款又朝令夕改,并且本身就通过用户(上传或者行为)数据以及第三方推送广告收获了很多利益还吃相越来越难看.
中文

中国的软件市场太不健康了
以前中学的时候没钱付费,会觉得你怎么能收费呢
现在会觉得明明大家都有钱付电费,有钱付各种订阅(网易云音乐会员,qq 会员,etc...),有钱买各种让自己生活更便利的东西
为什么轮到把软件作为明码标价的商品的时候就不乐意了,这本质和给自己家里买一把椅子有区别吗?
卡比卡比@jakevin7
豆包新增付费订阅的评论区下面是这样的… 豆包增加收费版,这个事情不好评判。 但是评论区这样子可以看得出来,在中国做付费产品到底有多难…
中文

@karry_viber 开始设计之前把模块分好,项目不超过 5w loc 的情况下很难一个文件过 3000 行?我自己快速迭代的项目的话,总共 1w 行的时候也很少有一个文件过 1k 行的
中文

非工程出身,在自己做orb的这几周体会很深。
开始很简单,不断偷师,不断迭代,等到几个主文件代码都超过3000行,就会出各种bug,然后orb自己提议要做抽象,原本硬编码的IPC独立啊,woker,scheduler分离啊,工程化问题都出来了。再一层层剥离,抽象……每次剥离都会有段加固期。
不过整个过程还是非常有意思~
卡比卡比@jakevin7
软件到了一定的复杂度之后,如果不进行约束和控制。 后面复杂度根本控制不住,从根本上来说,还是一个软件工程问题。 AI agent 时代,软件工程会非常重要。
中文

本周AI agent领域悄然发生了一个有意思的现象。
DeepMind、Anthropic、Alibaba等顶级实验室的最新论文集体指向同一个方向:智能体不再是简单调用工具的“聊天机器人”,而是正在变成可工程化、可审计、可规模化的真正生产力系统。
先看Agentic Harness Engineering——它把目前最头疼的“智能体支架”从手工调优、试错进化的黑箱,变成了可观测、可证伪的工程闭环。
系统被拆成三层:可版本回滚的组件文件、从百万轨迹token中提炼的结构化经验证据、以及可验证的决策预测。
每一次修改都变成可审计的契约。
结果?
Terminal-Bench Pass@1从69.7%提升到77.0%,超越人类设计的Codex-CLI,还节省12% token。
更重要的是,这个框架的优化能跨模型迁移,证明它抓到了结构本质而非特定模型的过拟合。
再看Alibaba的AgenticQwen-30B-A3B—一个只有30B参数的MoE模型,激活参数仅3B,却在真实工具使用任务上接近235B级别的Qwen3表现。
秘诀是两个并行强化学习飞轮:一个从自身失败中挖掘更难的推理问题,另一个用模拟用户不断制造误导场景来进化多分支行为树。
这套方法让开源实验室第一次在极低激活参数下实现了高性能工具使用,成本曲线被彻底改变。
还有RecursiveMAS,它直接挑战了多智能体通信的传统方式:不再让每个agent用文本消息互相喊话,而是通过潜在空间的递归计算传递状态。
结果是token消耗降低34.6%-75.6%,推理速度提升1.2-2.4倍,同时准确率平均提高8.3%。
OneManCompany则把多智能体团队从固定组织图,变成了动态“人才市场”:每个agent都是可招聘的Talent,任务时实时匹配,最优组合,失败后还能自动迭代。
这些论文共同勾勒出一个清晰趋势:agent系统正在从“实验玩具”走向“生产级工程”。
当我们还在讨论模型参数谁更大的时候,真正决定落地胜负的,可能已经是“谁先把智能体工程化”这件事。
你觉得agent工程会成为下一波AI红利的主战场吗?

DAIR.AI@dair_ai
中文

GitHub 上 DeepSeek TUI 这个项目,把 DeepSeek V4 搬进终端,做成一个完整的编码智能体。
仅一个二进制文件,能直接读写文件、执行命令、搜索网页、管理 Git,还能实时看到模型的思考过程。
GitHub:github.com/Hmbown/DeepSee…
提供三种工作模式:Plan 模式只读探索不动代码,Agent 模式每步操作需要你确认,YOLO 模式则全自动执行。
除此之外,还支持多个智能体并行处理任务,支持会话保存和工作区回滚等功能。

中文

不是哥们,GPT 5.5 在 Codex 里,Opus 4.7 在 Claude Code 里,怎么最后都像是在 Cursor 里更好用啊
这要是真的,尴尬点就不在模型了,而是 Codex 和 Claude Code 自己的 harness 已经落后了
Dan ⚡️@d4m1n
lol Cursor is a better harness for both GPT 5.5 in Codex AND Opus 4.7 in Claude Code how is that possible?!
中文

@junthekey hhh 就是让 ai 照着 slack 的风格做了
但因为我们不仅想要可以通过 im 的方式和 ai 协作,也想可以即时确定 ai 现在在干什么(可观测性),所以加了一个 dashboard 页面
中文















