oyiadin retweetledi
oyiadin
2.3K posts


@hsiaoxychen 具体是什么模型?不同模型在批判式思维能力上确实差的比较大。给我最极端感受的就是 Gemini 和 Opus 4.6,前者附和赞同的倾向非常明显,Opus 4.6 就更“杠精”,一定会先褒后贬,从两个角度都会给出看法。
中文

@hsiaoxychen 如果骂醒的prompt就是骂醒,那llm就骂是符合预期的。有客观分析的需求prompt一般加个客观两字就够用了,不加客观的要求默认llm就是有讨好的趋势。最近看到一个胡话benchmark,测试llm会不会反驳一个胡编的观点,大部分llm的反驳率都不高,其中claude排第一
中文
oyiadin retweetledi

作为 LLM 小白有一事不明,上下文大小的主要技术难度在哪里?有可能这个值未来变的更大吗?
Claude@claudeai
1 million context window: Now generally available for Claude Opus 4.6 and Claude Sonnet 4.6.
中文

之前部门产品老大说,抄功能是最挫的,得发掘其背后真正的用户故事,我感觉这是个很好的例子(而且一定要抛弃技术视角)
Yifeng Wang@ewind_dev
钉钉和企业微信这波接不住 OpenClaw 流量的一个重大原因,就是自建应用需要经过复杂审批并暴露域名到公网(于是就自然牵扯到备案)。而飞书在国内是唯一支持以 WS 长连接跳过域名需求,且基础消息收发能免审发布的 IM。 IM SDK 设计中体现出了上一代老登们根深蒂固的官僚主义和傲慢,被颠覆不冤的。
中文

长久以来大家一直在嘲笑的独立开发者的三件套:笔记、记账、TodoList 可能是在 AI Agent 时代最重要的三件事情。
首先 AI 要依赖笔记存储记忆,也要通过记账来管理 token,最重要的是 TodoList 带来的 mission 系统,尤其是现在很多 Coding 相关的 Agent 完全把 goal 给定错了,它们把 goal 定成了提一个 GitHub PR,其实它们真正的 goal 应该是把这个需求 ship 到用户面前。再加上现在缺少一个 agent less 的 mission 系统,导致各个 Agent 各自为营,人类为了在各个 Agent 中同步 mission 消耗了太多。
中文






