Lyra

169 posts

Lyra

Lyra

@HasManaFuture8

Katılım Aralık 2022
322 Takip Edilen20 Takipçiler
RJ
RJ@RJDAIGOGO·
马斯克在李老师帖子下留言:“我的儿子正在学习普通话。”李老师开始对马斯克键政。
RJ tweet mediaRJ tweet media
中文
125
17
510
312.1K
九原客
九原客@9hills·
都在讲 Harness Engineer, 甚至说模型以外都是 Harness ,最近和客户/学员沟通,他们刚半知半解上下文工程,又来这个,而且没有实感,理解很混乱😵‍💫。 我说下我的理解,不一定对。 Harness 其实是两件事,Harness Workflow,关注 Agent 的工作流,比如研究-需求-设计-开发-验证闭环,比如 autoresearch 等等,更偏方法论。 还有一个是 Harness Infra,指的 Agent 的基础设施(沙盒、skills 等等)。 两件事分开讲会清晰很多,当然 Infra 的目标是保证 Workflow 的落地。
九原客 tweet media
中文
39
42
292
74.9K
Lyra
Lyra@HasManaFuture8·
@dotey @9hills 连anthropic自家agent sdk都没这待遇
中文
0
0
0
274
宝玉
宝玉@dotey·
@9hills pi 唯一的问题是不能影共享 Claude Max 订阅
中文
2
0
6
6K
九原客
九原客@9hills·
最近几天玩 pi 玩的很开心,还是那么喜欢折腾工具。 主要是扩展好玩,想怎么定制就怎么定制,而且可以Vibe 扩展。有 ArchLinux 的那种感觉了。 刚刚完成一个并行的讲义审核任务,高效~
九原客 tweet media九原客 tweet media
中文
11
5
98
20.1K
Lyra
Lyra@HasManaFuture8·
@ando_w @dotey 以我的观察,领导目标一般都很明确很单纯,就是要降本增效。他知道AI好,但是不知道怎么用,巴不得有人主动学呢。正是因为没人主动学,领导才不得不给你们下任务。努力成为你团队里的AI意见领袖。
中文
0
0
0
38
Ando.ai
Ando.ai@ando_w·
@dotey 这模型有个隐藏前提:你能自己决定学什么。 但现实中,领导说"下周全员学RAG", 它就从"知道就行"变成"必须深学" 客户说"要AI画图" 你就得从"试试"变成"精通" 你的时间不是你自己分配的,是老板分配的。 模型很优雅,但职场很粗暴。
中文
3
0
4
1.3K
Lyra
Lyra@HasManaFuture8·
@otterpal24 同感,下午换codex了。突然觉得codex真是能力又强UI又好看。如果不是模型强,Claude Code的那个TUI啥也不是。
中文
0
0
1
104
Otter
Otter@otterpal24·
claude 又降智到这两天每一个bug都修复不好的地步了,引入了其他问题,或者压根没修。
中文
7
1
22
8.4K
Lyra
Lyra@HasManaFuture8·
@yan5xu 这个要看agent的定义是什么,不是openclaw或者Claude Code才叫agent。对于垂直领域的复杂软件系统,比如一些工业软件,agent的形态可能就完全不一样了,它可能仅仅是一个嵌入其中的一个小环节,专门解决不确定性的问题。
中文
0
0
0
69
yan5xu
yan5xu@yan5xu·
下午和两个朋友先后聊完想明白一个事情 垂类不要做 agent,agent 一定是通用的,或者类似于os。垂类要去给 agent 做应用,赋能 agent。 最基础的是 skill,高级一点,把逻辑分装到内部,替调用 agent 省 token,再高级一点,把用户状态保存起来(状态就是 memory)
中文
25
20
204
36.4K
Lyra
Lyra@HasManaFuture8·
@amber_toffee 小说也很精彩,我花了6小时一口气看完的
中文
0
0
1
6.3K
Lyra
Lyra@HasManaFuture8·
@tutulifestyle 每个人都合理合法的捍卫自己的利益,没什么丢脸的。我们追求的价值应该是让每一方都有站出来说话的权力,而不是要求每个人成为圣人。
中文
2
1
10
2K
TuTu生活志
TuTu生活志@tutulifestyle·
最近看到网上对农民养老金的讨论,联想到以前有些亲友的暴论,就觉得很多人完全是没有公共品德的。比如说农民可以涨一点,但不能涨多,因为他们也用不了那么多。比如说什么如果农民涨要以自己的降为代价,那肯定就不支持,要涨一起涨。比如说什么现实国情太复杂,当你也成了既得利益家庭,你也就不想改了。真的是完全没有平等、公平、博爱、共同体概念的,难怪改革永远“在路上”...
中文
36
6
180
39.1K
Lyra
Lyra@HasManaFuture8·
@bearliu 语音转文字的。
中文
0
0
0
64
Bear Liu
Bear Liu@bearliu·
互动:你觉得下面的这段文字,是我人肉写的,还是AI写的?
中文
10
0
0
3.4K
Lyra
Lyra@HasManaFuture8·
@NataliyaRo4040 职场大忌,你已经不受信任了。要么提了果断走,要么别提。
中文
0
0
13
1K
NataliyaRose
NataliyaRose@NataliyaRo4040·
感觉被边缘化了是怎么回事😅 项目邮件不loop我,会议不邀请我。 也不给我安排什么任务,只让我给新人培训。 是不是提了离职,就是这种下场。
中文
85
0
187
125.4K
Lyra
Lyra@HasManaFuture8·
@wangzhian8848 五反田那家台湾豆浆店吗
中文
1
0
0
1.3K
王局志安
王局志安@wangzhian8848·
周末了,吃点儿好的。
王局志安 tweet media王局志安 tweet media
中文
107
2
229
98.7K
Lyra
Lyra@HasManaFuture8·
@9hills 曾经和Claude讨论过,被他劝退了哈哈,玩不过机构,尤其是短线操作
中文
0
0
1
1.3K
九原客
九原客@9hills·
OpenClaw 炒A股暂亏3000,挠头。
九原客 tweet media
中文
87
5
214
120.1K
Lyra
Lyra@HasManaFuture8·
@RJDAIGOGO 戴唇环的白雪公主吗
日本語
1
0
2
148
Lyra
Lyra@HasManaFuture8·
@DaBingJingDuo @grok 小陆师傅估计在和grok私聊,找角度反驳。太可乐了。
中文
0
0
11
926
美国大兵净多
美国大兵净多@DaBingJingDuo·
@小陆师傅 的【美国崩溃论】被我和@grok 打脸全记录,看截图(他可能还没放弃,得不到满意答案还在对grok死缠烂打中,本帖可能还有更新……)
美国大兵净多 tweet media美国大兵净多 tweet media美国大兵净多 tweet media美国大兵净多 tweet media
中文
20
5
89
15.3K
Lyra
Lyra@HasManaFuture8·
@geniusvczh 老祖宗:我可没说过。
中文
0
0
0
80
geniusvczh
geniusvczh@geniusvczh·
老祖宗告诉我们,单元测试要从需求分析和用户故事里产生,显然套用到这里,spec的首要目标就是出test coverage,test case来保证正确性。祖宗之法不可变也,TDD不需要理由🤪
宝玉@dotey

转译:规范驱动开发错在哪了 你唯一能百分百信任的文档,就是代码本身。 设计文档、更新日志、README、架构图、入职指南。这些东西写完几乎立刻就过时了。 让文档和不断变化的系统保持同步,需要持续投入成本。工程师天生习惯爆发式输出:写文档,发功能,然后做下一个。后续更新属于隐形工作,每天都要和其他任务争夺时间,而且几乎每次都会败下阵来。我们试过流程,试过工具,甚至试图把它塑造成团队价值观。都没用。因为我们总是在强求人类去做他们骨子里就不愿做的事。 这正是规范驱动开发经常翻车的地方。理念本身没毛病:与编写代码的 Agent 合作时,先写清楚需求再让它们放手干。这显然比在聊天窗口里随便贴几句提示词然后祈祷奇迹发生要靠谱得多。 但规范也是文档。文档的下场,我们刚才已经见识过了。 区别在于代价不同。过时的设计文档只会误导碰巧读到它的下一位工程师。而过时的规范会误导不知变通的 Agent。它们会自信满满地执行一个早已脱离实际的计划,根本不会发现哪里不对。 因此,在开发 Intent 的过程中,我们反复思考一个问题:如果规范不需要你来维护呢?如果它能自我更新呢? 这是我们最终的方案。 规范不再是人类或 Agent 的专属产物。双方都要去读写它。 你描述想做什么。协调 Agent 草拟规范,拆解任务。你审阅、修改,批准后才开始执行。一旦 Agent 开始干活,它们会将进展同步回规范中:发现了什么、改变了什么、遇到了哪些计划外的限制。你可以随时暂停,重写部分规范,Agent 就会接着新状态继续干。 回想一下,把任务交给优秀的初级工程师会怎样。你把工单给他们,他们去干活;发现 API 不支持工单里预设的分页方式时,他们会自己更新工单。他们不会等你发现问题,更不会将错就错。他们会跑来告诉你:“之前的假设不对,我改用这种方法了,原因是这样。”你审查他们的更新,批准或驳回。 这正是我们希望开发者和规范之间建立的关系。因为双方都在维护,工单才不至于“说谎”。 初级工程师这个比喻比你想的还要贴切。优秀的初级工程师不会把每行代码怎么写都向你汇报。他们只会反馈那些改变了方向的决策:“我发现了一个现成的 auth context,所以直接接入了,没去建新的。”这就是信号。这也正是你期望 Agent 做到的事。把握好这种颗粒度,成了系统设计中真正有趣的难题。细节太多,规范就会变成噪音,让你产生习惯性无视;细节太少,你又要重新去猜到底发生了什么。 实际任务是这样的。你写道:“在设置页面加个能跟随系统偏好的深色模式开关。”协调 Agent 读取代码库,草拟一份包含三个子任务的规范:添加开关组件、接入 preference store、更新 CSS 变量。 你扫了一眼,发现漏掉了跨会话保存选择这个细节,于是补上一句。 你点击批准。 Agent 开始干活。 15 分钟后,其中一个 Agent 更新了规范:“在代码库里找到了现成的 Theme Provider。已直接接入,未创建新 store。” 你审查代码变更(已按 Agent 和任务清晰分组)。 现在,这份规范反映了实际做出来的东西,而不是最初计划的东西。最重要的是,没人需要专门记着去更新它。 软件工程中所有“文档优先”的倡议之所以失败,原因如出一辙:它们都要求开发者去做那种没人看见、没人奖励的持续维护工作。 除非 Agent 也承担起自己那份维护工作,否则规范驱动开发也将重蹈覆辙。 既然 Agent 会写代码,它们也能更新计划。放手让它们干吧。

中文
2
0
42
8.3K
Lyra
Lyra@HasManaFuture8·
@wangzhian8848 王局究竟做了啥 惹得这么多中老年妇女同时声讨你
中文
6
0
71
16K
王局志安
王局志安@wangzhian8848·
王局街头邂逅抗议王志安的人民群众,和他们惺惺相惜,一起共同谴责中共特务王志安。
中文
271
33
893
317K
Lyra
Lyra@HasManaFuture8·
@mranti typeless马上推出网页版了,Linux也能凑合用
中文
0
0
0
474
Michael Anti
Michael Anti@mranti·
期待有Linux系统的Typeless出现。
中文
11
0
21
20.7K
Lyra
Lyra@HasManaFuture8·
@iamai_eth bug当feature了这是
中文
0
0
0
856
✧ 𝕀𝔸𝕄𝔸𝕀 ✧
✧ 𝕀𝔸𝕄𝔸𝕀 ✧@iamai_omni·
Seedance2.0 最让影视飓风感到恐惧的点,在于当Tim的脸出现在画面中时,它会自动匹配Tim的声音,也就是说模型内部已经泛化了,我相信这应该是随着训练自动涌现出来的能力。
中文
21
3
105
29.4K
Lyra
Lyra@HasManaFuture8·
@caiziboshi 查了一下日本的法律,诽谤罪的成立条件太宽松了。只要言论(不论真假)可能损害对方的名誉或者社会评价,诽谤罪就成立了。王局要能同时证明:(1)所述事实涉及公共利害(公共性);(2)发言目的纯粹是为了公共利益(公益性);(3)所述事实的重要部分确实为真(真实性)。
中文
0
0
0
42
蔡子博士Chris
蔡子博士Chris@caiziboshi·
关于美国的诽谤案,再给大家科普一点: 在美国诽谤法中,证明标准是否严格,关键取决于原告是否属于公众人物:对公众人物或公众官员,依据最高法院确立的判例规则,原告必须证明被告存在 actual malice,即在发表言论时明知内容为虚假,或在存在明显疑点的情况下仍对事实真伪表现出重大轻率,这一门槛被刻意设定得极高,以最大限度保护公共事务中的言论自由;而对非公众人物,这一严格要求并不适用,法院通常只要求原告证明被告存在过失(negligence),即一个理性的人在当时情形下本应核实却没有核实即可成立侵权。其背后的法理在于,公众人物因主动或被动进入公共讨论领域、拥有更多回应渠道,需承受更高的舆论风险,而非公众人物名誉更为脆弱、反驳能力有限,因此法律给予其更强保护。换言之,actual malice 主要是公众人物的“高门槛”,非公众人物并不需要跨过这道坎。 在美国法律上,是否构成“公众人物”并不是看名气大小,而是看其与公共事务的关系以及进入公共讨论的方式,这一判断主要来源于最高法院判例形成的分型标准。总体而言,法院会将个人分为三类:公众官员、全面公众人物、有限目的公众人物,其核心依据来自 New York Times v. Sullivan、Gertz v. Robert Welch, Inc. 等判例。公众官员是指在政府中行使公共权力、对公共事务具有实质影响的人;全面公众人物是指因长期、广泛的社会知名度而在多个议题上都处于公共舆论中心的人(如全国性名人);而最常见、也最具争议的是“有限目的公众人物”,即某个人自愿或可预见地进入某一具体公共争议或公共议题,并试图影响其结果。法院在判断时通常综合考察:该议题是否属于公共事务;当事人在争议发生前是否已具有一定公共能见度;是否主动接受媒体采访、发表主张、参与公共运动;以及其是否拥有相对充足的舆论反驳渠道。只要在某一具体议题上满足这些条件,即使在其他领域是普通人,也会被认定为该议题范围内的公众人物,从而触发更高的诽谤举证门槛(actual malice)。换言之,公众人物不是“身份标签”,而是一种“情境性法律地位”,随议题而定,而非终身不变。 所以陈光纯诉王局的诽谤案在美国胜诉几率不大,但在日本可能胜诉率就很高!
中文
3
0
4
2.7K
Lyra
Lyra@HasManaFuture8·
@dongxi_nlp 我这里用着没问题啊。前提是要配置好ssh免密码登录,关闭沙盒。
Lyra tweet media
中文
1
0
2
966
马东锡 NLP
马东锡 NLP@dongxi_nlp·
Opus 4.6 做了安全层面的提升,但它开始拒绝我使用 ssh session,并开始说谎。 它为了让我放弃使用 ssh,编造谎言说技术上不可行,但其实技术上非常容易实现。 这反应了严重问题,表面安全提高了,但为了达到安全设定,编造事实欺骗用户,优先模型的目的,而不是用户的目的。 Alignment 做的不好。
马东锡 NLP tweet media
Logan Graham@logangraham

Opus 4.6 is a bump up in cyber capabilities. We found 500 validated high-severity vulnerabilities in open source code with our models. Then we worked to disclose + patch them. It is now very clear to our team that we are in the middle of the security inflection point.

中文
13
3
119
33.4K