Datou

27.7K posts

Datou banner
Datou

Datou

@Datou

shenzhen Entrou em Şubat 2007
207 Seguindo19.9K Seguidores
Datou
Datou@Datou·
工作做不完是因为自我剥削,完全可以按照以前的工作量工作,而不是按以前和工具的交互频率工作,等待工具干活的时候可以做做拉伸看看书,维护保养一下自己。
即刻精选@jike_collection

很多人没有意识到,工作是做不完的,当你通过各种工具提高了效率,并不会真正获得更多自由时间,只会被分配更多工作。 因为本质上市场所购买的是你的时间,至于你在工作时间内能产出多少、市场又能消化多少,并不在考虑范畴内。

中文
0
0
2
286
Datou
Datou@Datou·
还有个小问题就是中控屏的 ui 太素了,把内饰的豪华氛围格格不入•ᴗ•💧
Datou tweet media
中文
0
0
0
131
Datou
Datou@Datou·
试驾了一下极氪 9x,配置和操控都不错,抬头显示可以显示后视镜画面好评,但是吧,用辅助驾驶帮忙开的时候在一个十字路口遇到了外卖小哥闯红灯,标准的鬼探头测试用例,辅助驾驶没反应过来,差点把人撞飞,还好我及时踩了刹车。
Datou tweet media
中文
1
0
7
473
QG_accelerator
QG_accelerator@asdonqual·
@Datou 然而反过来说,外观件这么简单的事,比亚迪为啥就一直不做好,非要逼消费者二选一是什么心态😅
中文
1
0
0
51
Datou
Datou@Datou·
@superhtoooth 那怎么发现自家模型的问题,怎么 pdca?
中文
1
0
0
5
Link Huang
Link Huang@superhtoooth·
@Datou 不了解实际情况,自由选择模型,不要强制用自家,是不是会更好
中文
1
0
0
8
Datou
Datou@Datou·
agent 能力在团队内部都推不动,有点意外,claude 在团队内部推 vibe coding 好像就很顺。但是想想阿里和腾讯,也就不意外了。
宝玉@dotey

传说中的DeepSeek天才少女、雷军千万年薪挖角的罗福莉也开始发推了。 帖子里最生动的段落是关于她第一次使用复杂 Agent 脚手架的经历。她用的词是:orchestrated Context,编排过的上下文,我理解就是现在比较火的 Harness Engineering。 她说第一天就被震惊了,然后试图说服团队去用,没成功,于是下了一个硬性命令: > MiMo 团队里,明天对话数不到 100 条的人,可以辞职了。 这个管理风格相当激进,但有效。一旦团队的想象力被 Agent 系统的能力点燃,这种想象力就直接转化成了研发速度。 一方面确实霸气,一方面也让我有点意外,原以为大模型团队应该是更积极拥抱这种从传统 Chat 模型到 Agent 模型范式变化的。 其他都是“干货” 1. 提前押注的架构优势 1T 底座模型几个月前就开始训练了,当时的目标是长上下文推理效率。采用了 Hybrid Attention 机制(混合注意力,简单说就是不让所有 token 都互相关注,而是让一部分用全局注意力、一部分用局部注意力,大幅降低计算成本),支持百万 token 上下文窗口,加上 MTP 推理层(Multi-Token Prediction,一次预测多个 token 而不是一个一个蹦,推理延迟和成本都大幅下降)。 这些架构决策在当时并不时髦,但它们恰好成了 Agent 时代的结构性优势。 2. 为什么 MiMo 团队能这么快 罗福莉在做 DeepSeek R1 的时候亲眼见证过的真实总结: — 基座与基础设施研究周期很长。你需要在它产出回报的一年前就有战略定力。 — 后训练的敏捷性是另一种能力:靠产品直觉驱动评估,压缩迭代周期,及早捕捉范式转换。 — 还有那些不变的东西:好奇心、敏锐的技术直觉、果断的执行力、全力以赴。 以及一样很容易被低估的东西:对你正在为之构建的世界,发自内心的热爱。 3. 模型会开源的,等模型稳定到值得开源的时候。

中文
1
1
6
1.8K
Datou retweetou
艾略特
艾略特@elliotchen100·
论文来了。名字叫 MSA,Memory Sparse Attention。 一句话说清楚它是什么: 让大模型原生拥有超长记忆。不是外挂检索,不是暴力扩窗口,而是把「记忆」直接长进了注意力机制里,端到端训练。 过去的方案为什么不行? RAG 的本质是「开卷考试」。模型自己不记东西,全靠现场翻笔记。翻得准不准要看检索质量,翻得快不快要看数据量。一旦信息分散在几十份文档里、需要跨文档推理,就抓瞎了。 线性注意力和 KV 缓存的本质是「压缩记忆」。记是记了,但越压越糊,长了就丢。 MSA 的思路完全不同: → 不压缩,不外挂,而是让模型学会「挑重点看」 核心是一种可扩展的稀疏注意力架构,复杂度是线性的。记忆量翻 10 倍,计算成本不会指数爆炸。 → 模型知道「这段记忆来自哪、什么时候的」 用了一种叫 document-wise RoPE 的位置编码,让模型天然理解文档边界和时间顺序。 → 碎片化的信息也能串起来推理 Memory Interleaving 机制,让模型能在散落各处的记忆片段之间做多跳推理。不是只找到一条相关记录,而是把线索串成链。 结果呢? · 从 16K 扩到 1 亿 token,精度衰减不到 9% · 4B 参数的 MSA 模型,在长上下文 benchmark 上打赢 235B 级别的顶级 RAG 系统 · 2 张 A800 就能跑 1 亿 token 推理。这不是实验室专属,这是创业公司买得起的成本。 说白了,以前的大模型是一个极度聪明但只有金鱼记忆的天才。MSA 想做的事情是,让它真正「记住」。 我们放 github 上了,算法的同学不容易,可以点颗星星支持一下。🌟👀🙏 github.com/EverMind-AI/MSA
艾略特 tweet media
艾略特@elliotchen100

稍微剧透一下,@EverMind 这周还会发一篇高质量论文

中文
102
326
2K
509.5K
Datou
Datou@Datou·
@_naiVe_2 ag 也能给装好,一句命令就能装,太简单了
中文
1
0
0
18
属鼠蜀黍
属鼠蜀黍@_naiVe_2·
@Datou 毕竟cc和codex真能帮你配好openclaw
中文
1
0
0
29
Datou
Datou@Datou·
openclaw 把 claude code 和 codex 的搜索热度带起来一大截,antigravity 带不动。
Datou tweet media
中文
2
1
2
677