Versun

3.1K posts

Versun banner
Versun

Versun

@VersunPan

2026: 专注 AI 落地 2025: INTJ | 伪全栈 | 古法运维工程师 | Pentest菜鸡 博客: https://t.co/l3LVvV01Uy

Katılım Eylül 2022
2.1K Takip Edilen2K Takipçiler
Sabitlenmiş Tweet
Versun
Versun@VersunPan·
【置顶】很高兴在推上与你相遇。 这里主要分享日常心得、技术干货、随想感悟与个人看法,不涉及宗教政治,也避免无谓争论。 所有原创内容首发于博客,X 仅作同步转载。为防平台风险致内容丢失,建议优先访问博客,并用 RSS / Newsletter 订阅更新! 博客地址:versun.me
中文
0
0
4
3.1K
Versun
Versun@VersunPan·
@rxliuli 😭果然还是做web和cli应用方便
中文
0
0
0
12
琉璃
琉璃@rxliuli·
@VersunPan 但凡是要人工审核的,就没有不糟糕的,例如 play store 也是每年威胁一次不活跃账户会被删除
中文
1
0
0
64
Versun
Versun@VersunPan·
为什么注册苹果开发者账号这么难,无论是在iPhone上还是iPad上,都提示“无法验证你的身份”,联系了苹果客服,又是提供录屏又是提供身份证的,还是没搞成。。。。。这体验也太差了吧,赶着给钱都不要。。。。
中文
2
0
0
304
Versun
Versun@VersunPan·
@jayfx42 无语,我的名字一样,没改名啥的。。。搞到后面都不想搞了,提示风险就提示吧😂
中文
0
0
0
17
Jayfx
Jayfx@jayfx42·
@VersunPan 我也是趟了两次坑,我之前“无法验证你的身份”是注册ID的名称和上传的身份证明不是一样的“字”,得完全是中文和身份证一样
中文
1
0
0
24
Lei Li
Lei Li@_TobiasLee·
🦞 Opus 4.6 通过率只有 25.7%?!我们给 Claw-Eval 加了 35 个多模态 Agentic 任务 上个版本评的主要还是 agent 在文本世界里能做什么,这次我们往前推一步 从多模态素材到多模态作品,这组任务评测的是 agent 端到端的创造能力 🏠 看一段房间参观视频 → 绘制标注空间关系的建筑平面图 📊 从多篇学术论文中交叉提取实验数据 → 自动生成对比可视化 🏸 看完一整场羽毛球比赛 → 绘制出比分走势 这些任务要求 Agent 不仅理解多模态素材,还需要自主检索信息、收集资源、编排工具链,最终交付完整的作品 评测本身也做了更新:把 agent 产出的作品渲染、截帧,由视觉模型逐维度评审最终交付物。 感知 → 推理 → 创造 → 视觉评审,端到端闭环。 目前 Opus 4.6 稳定通过率 25.7%,K2.5 和 Gemini 3 Flash 都只有 20%。离理想的形态,还有一段路要走 claw-eval.github.io
Lei Li tweet media
中文
10
1
36
4.3K
Versun
Versun@VersunPan·
重新跑了<模型编程性能测试>,添加了  Minimax 2.7、Mimo V2 Pro、GPT 5.4 Mini 模型 结果在预料之中:coding-model-comparison.versun.me  ⚠️ 防杠补丁:本次测试纯属娱乐,仅针对当前提示词和模型版本有效,博主无任何厂商立场
Versun tweet media
中文
13
2
48
20.1K
郭宇 guoyu.eth
郭宇 guoyu.eth@turingou·
今天正式发布了我的第 12 个 vibe 产品 mails.dev 这是一个为 agents 设计的邮件服务,100% 开源,cli 大小仅 20kb。产品想法源于最近我在 sandbank cloud 中大量使用 agent 操作浏览器自动化所以需要收验证码。mails 的逻辑很简单,支持 agents 收发邮件和附件,搜索内容,快速识别验证码,一条命令简单安装: $ npm install -g mails $ mails send --to guoyu@mails.dev --subject "Hello from my agent" --body "check my resume" --attach resume.pdf $ mails inbox --query "验证码" mails 提供完整的自部署方案:基于 Cloudflare Email Routing Worker 接收邮件,Resend 发送邮件,支持 SQLite 和 db9.ai 两种存储后端,附件收发开箱即用。用户只需部署一个 Worker,即可拥有自己域名的 Agent 邮箱,Resend 免费额度一个月 3000 封,足够大部分人的 agent 使用。 为了让大家快速上手给自己的 openclaw 用,我还特意做了它的云服务 mails.dev,使用 mails claim myagent 即可获得免费的 myagent@ mails. dev 邮箱,每月 100 封免费发件,超出按 $0.002/封通过 x402 协议自动支付(Stripe x402)一个人类用户最多可以为自己的 agents 认领 10 个邮箱。 当然,你也可以直接让 agent 去自助认领,他会需要你配合授权并获得一个验证码,把这个 skill 说明书链接发给你的 agent,它会理解如何使用 mails mails.dev/skill.md mails 官网:mails.dev GitHub 链接:github.com/chekusu/mails (以MIT 协议开源)
郭宇 guoyu.eth tweet media
中文
102
69
925
109.9K
李不凯正在研究
童子尿蛋美式☕️,哪天去东阳出差,高低得鼓起勇气试试!
李不凯正在研究 tweet media
中文
2
0
0
319
Stanley
Stanley@Stanleysobest·
刚用上Qclaw,对腾讯真是太失望了, 啥玩意🤣🤣🤣
中文
59
3
75
54.1K
Versun
Versun@VersunPan·
@settinghead claude code搭配第三方模型,在长时任务上,不是很稳定,可能网络问题,或者模型适配问题,所以就故意选了一次性的任务
中文
0
0
0
249
xc
xc@settinghead·
@VersunPan 感觉如果加点很多步骤才能完成的长时间测试,一些模型可能就撑不住了。
中文
1
0
0
315
灰机
灰机@yale_hwang·
@VersunPan 虽然我不同意 Opus 排第三 但看在 Minimax 位置的面子上点了 Like
中文
1
0
0
267
AstroHan
AstroHan@AstroHanRay·
@VersunPan Kimi K2.5 还是这一波模型中最能打的,期待新的更新
中文
1
0
0
340
Versun
Versun@VersunPan·
这两天,minimax 2.7 发布,小米的 mimo 模型发布,然后搞笑的是,好多评论区都在问,和kimi 2.5 比怎么样? 一个已经发布一个多月的模型,和glm 5, minimax 2.5还要早发布的模型,到现在依旧被拿出来比,谁稳定谁能干活一目了然呀😂
中文
5
0
12
6.7K
Cruise Bob
Cruise Bob@CruiseBob2025·
@VersunPan 个人感觉 glm5 可以,就是性价比不如 kimi 和 minimax
中文
1
0
0
462
DoDoRex
DoDoRex@papapa556611·
@VersunPan 整个1000行+的md需求文件,内容是后端代码的测试 再看其余模型的理解和执行能力
中文
1
0
0
562
Versun
Versun@VersunPan·
@_TobiasLee 感谢指点哈😁下次还这样 哈哈开玩笑,主要没啥时间认真评测,目的就是简单选个模型干活,心里有个大概就行了,虽然不客观😂
中文
1
0
1
247
Lei Li
Lei Li@_TobiasLee·
@VersunPan 你那个设计挺好的 多点case其实稳定下来会更客观一些
中文
1
0
3
2.8K
Lei Li
Lei Li@_TobiasLee·
2026 了,可以忽略一切拿 one-shot 前端测评 frontier LLM 博主了...
中文
4
2
90
85.9K
Versun
Versun@VersunPan·
@llc7218 我同意!对glm没啥好感。。
中文
0
0
1
700
lc liu
lc liu@llc7218·
@VersunPan 我实际使用GLM5不如KIMI,没那么高
中文
1
0
1
782
Versun
Versun@VersunPan·
@ren2672 啊?我说的是选kimi 2.5一目了然。。。
中文
0
0
0
547
阿生的回忆
阿生的回忆@ren2672·
@VersunPan 能不能干活 跟早不早无关,生产看的实际能力 还一目了然
中文
1
0
0
575
Versun
Versun@VersunPan·
@jalr4ever 嗯嗯,那和我这个评测体感差不多
中文
0
0
0
944
Warren Zhan
Warren Zhan@jalr4ever·
@VersunPan 之前我做过一个前端卡片的场景,三个评估角度: 完整度,效果,细节丰富度。我个人的感官就是 glm-5 最强,kimi-2.5也不差。至于 minimax 2.5,deepseek 3.2,gemini-3-flash 则要差不少
中文
1
0
0
1.2K