Sabitlenmiş Tweet
Versun
3.1K posts

Versun
@VersunPan
2026: 专注 AI 落地 2025: INTJ | 伪全栈 | 古法运维工程师 | Pentest菜鸡 博客: https://t.co/l3LVvV01Uy
Katılım Eylül 2022
2.1K Takip Edilen2K Takipçiler

🦞 Opus 4.6 通过率只有 25.7%?!我们给 Claw-Eval 加了 35 个多模态 Agentic 任务
上个版本评的主要还是 agent 在文本世界里能做什么,这次我们往前推一步
从多模态素材到多模态作品,这组任务评测的是 agent 端到端的创造能力
🏠 看一段房间参观视频 → 绘制标注空间关系的建筑平面图
📊 从多篇学术论文中交叉提取实验数据 → 自动生成对比可视化
🏸 看完一整场羽毛球比赛 → 绘制出比分走势
这些任务要求 Agent 不仅理解多模态素材,还需要自主检索信息、收集资源、编排工具链,最终交付完整的作品
评测本身也做了更新:把 agent 产出的作品渲染、截帧,由视觉模型逐维度评审最终交付物。
感知 → 推理 → 创造 → 视觉评审,端到端闭环。
目前 Opus 4.6 稳定通过率 25.7%,K2.5 和 Gemini 3 Flash 都只有 20%。离理想的形态,还有一段路要走
claw-eval.github.io

中文

重新跑了<模型编程性能测试>,添加了 Minimax 2.7、Mimo V2 Pro、GPT 5.4 Mini 模型
结果在预料之中:coding-model-comparison.versun.me
⚠️ 防杠补丁:本次测试纯属娱乐,仅针对当前提示词和模型版本有效,博主无任何厂商立场

中文

今天正式发布了我的第 12 个 vibe 产品 mails.dev
这是一个为 agents 设计的邮件服务,100% 开源,cli 大小仅 20kb。产品想法源于最近我在 sandbank cloud 中大量使用 agent 操作浏览器自动化所以需要收验证码。mails 的逻辑很简单,支持 agents 收发邮件和附件,搜索内容,快速识别验证码,一条命令简单安装:
$ npm install -g mails
$ mails send --to guoyu@mails.dev --subject "Hello from my agent" --body "check my resume" --attach resume.pdf
$ mails inbox --query "验证码"
mails 提供完整的自部署方案:基于 Cloudflare Email Routing Worker 接收邮件,Resend 发送邮件,支持 SQLite 和 db9.ai 两种存储后端,附件收发开箱即用。用户只需部署一个 Worker,即可拥有自己域名的 Agent 邮箱,Resend 免费额度一个月 3000 封,足够大部分人的 agent 使用。
为了让大家快速上手给自己的 openclaw 用,我还特意做了它的云服务 mails.dev,使用 mails claim myagent 即可获得免费的 myagent@ mails. dev 邮箱,每月 100 封免费发件,超出按 $0.002/封通过 x402 协议自动支付(Stripe x402)一个人类用户最多可以为自己的 agents 认领 10 个邮箱。
当然,你也可以直接让 agent 去自助认领,他会需要你配合授权并获得一个验证码,把这个 skill 说明书链接发给你的 agent,它会理解如何使用 mails mails.dev/skill.md
mails 官网:mails.dev
GitHub 链接:github.com/chekusu/mails (以MIT 协议开源)

中文

@settinghead claude code搭配第三方模型,在长时任务上,不是很稳定,可能网络问题,或者模型适配问题,所以就故意选了一次性的任务
中文

@VersunPan 之前我做过一个前端卡片的场景,三个评估角度: 完整度,效果,细节丰富度。我个人的感官就是 glm-5 最强,kimi-2.5也不差。至于 minimax 2.5,deepseek 3.2,gemini-3-flash 则要差不少
中文













