Datou

27.7K posts

Datou

@Datou

shenzhen Entrou em Şubat 2007

207 Seguindo19.9K Seguidores

Datou@Datou·18m

首周 20 万收入的话，总收入可能在 50 万到 80 万，四年平均下来年薪 13 万到 20 万，在德国算是高薪了，但是很不稳定。塔防里加肉鸽这件事，从好评率来看是成了，我也买个玩玩支持一下。

泥伏雷闯关记@Nicole_yang88

一周净赚超 600 万，独立开发者当场落泪由独立开发者 Cakez 历时 4 年打造的像素塔防游戏《Tangy TD》，在 Steam 上拿下 89% 好评。上线仅一周：售出 28,078 份，净收入达 197,847 美元（约合新台币 600 多万元）。当他打开后台看到数据的那一刻，情绪瞬间崩溃，当场落泪；一旁的妻子也激动欢呼，两人紧紧相拥。这是一次典型的独立开发者逆袭——没有团队，没有资本，只有时间、坚持，以及一点点运气。

中文

313

Datou@Datou·2h

@worldpeople2019 人教人教不会，事教人一次就会。

中文

山夫 hiker@worldpeople2019·2h

@Datou 😂你这个角度很新奇有趣

中文

Datou@Datou·2h

灰度测试西式皿煮，给全国人民看到了测试结果，排除错误选项也算达到了测试目的。

山夫 hiker@worldpeople2019

香港的一国两制没有失败？？你这回答也太不诚实了吧。一国两制无论对于大陆，还是对于香港民众，都基本上失败了。对比一下2000年时的香港政治生态和现在的政治生态，再看看北京曾经的承诺和现在的落实情况，只要不是瞎子，都能看出巨大的差别，更不要说还闹出了19年反送中以及后面的国安法这么大的事来

中文

359

Datou@Datou·2h

工作做不完是因为自我剥削，完全可以按照以前的工作量工作，而不是按以前和工具的交互频率工作，等待工具干活的时候可以做做拉伸看看书，维护保养一下自己。

即刻精选@jike_collection

很多人没有意识到，工作是做不完的，当你通过各种工具提高了效率，并不会真正获得更多自由时间，只会被分配更多工作。因为本质上市场所购买的是你的时间，至于你在工作时间内能产出多少、市场又能消化多少，并不在考虑范畴内。

中文

286

Datou@Datou·3h

还有个小问题就是中控屏的 ui 太素了，把内饰的豪华氛围格格不入•ᴗ•💧

中文

131

Datou@Datou·4h

试驾了一下极氪 9x，配置和操控都不错，抬头显示可以显示后视镜画面好评，但是吧，用辅助驾驶帮忙开的时候在一个十字路口遇到了外卖小哥闯红灯，标准的鬼探头测试用例，辅助驾驶没反应过来，差点把人撞飞，还好我及时踩了刹车。

中文

473

Datou@Datou·8h

有点像是五笔字型输入法

biantaishabi5@biantaishabi5

我操，这个吐槽，，，克劳德还挺能黑的呀！我操。

中文

409

Datou@Datou·11h

@asdonqual 这事可能不简单🌚

中文

QG_accelerator@asdonqual·11h

@Datou 然而反过来说，外观件这么简单的事，比亚迪为啥就一直不做好，非要逼消费者二选一是什么心态😅

中文

Datou@Datou·12h

我说啥来着，兆瓦闪充对消费者心智的影响远不如外观件，也远不如把原本就含在价格里的配件说成“免费送”。

Datou@Datou

根据我的出片理论，外观占宣传的 64%，内饰占 16%，藏在壳子里面的技术不能出片，再怎么宣传也是只占 20%🤪

中文

2.2K

Datou@Datou·11h

@superhtoooth 那怎么发现自家模型的问题，怎么 pdca？

中文

Link Huang@superhtoooth·11h

@Datou 不了解实际情况，自由选择模型，不要强制用自家，是不是会更好

中文

Datou@Datou·12h

agent 能力在团队内部都推不动，有点意外，claude 在团队内部推 vibe coding 好像就很顺。但是想想阿里和腾讯，也就不意外了。

宝玉@dotey

传说中的DeepSeek天才少女、雷军千万年薪挖角的罗福莉也开始发推了。帖子里最生动的段落是关于她第一次使用复杂 Agent 脚手架的经历。她用的词是：orchestrated Context，编排过的上下文，我理解就是现在比较火的 Harness Engineering。她说第一天就被震惊了，然后试图说服团队去用，没成功，于是下了一个硬性命令： > MiMo 团队里，明天对话数不到 100 条的人，可以辞职了。这个管理风格相当激进，但有效。一旦团队的想象力被 Agent 系统的能力点燃，这种想象力就直接转化成了研发速度。一方面确实霸气，一方面也让我有点意外，原以为大模型团队应该是更积极拥抱这种从传统 Chat 模型到 Agent 模型范式变化的。其他都是“干货” 1. 提前押注的架构优势 1T 底座模型几个月前就开始训练了，当时的目标是长上下文推理效率。采用了 Hybrid Attention 机制（混合注意力，简单说就是不让所有 token 都互相关注，而是让一部分用全局注意力、一部分用局部注意力，大幅降低计算成本），支持百万 token 上下文窗口，加上 MTP 推理层（Multi-Token Prediction，一次预测多个 token 而不是一个一个蹦，推理延迟和成本都大幅下降）。这些架构决策在当时并不时髦，但它们恰好成了 Agent 时代的结构性优势。 2. 为什么 MiMo 团队能这么快罗福莉在做 DeepSeek R1 的时候亲眼见证过的真实总结： — 基座与基础设施研究周期很长。你需要在它产出回报的一年前就有战略定力。 — 后训练的敏捷性是另一种能力：靠产品直觉驱动评估，压缩迭代周期，及早捕捉范式转换。 — 还有那些不变的东西：好奇心、敏锐的技术直觉、果断的执行力、全力以赴。以及一样很容易被低估的东西：对你正在为之构建的世界，发自内心的热爱。 3. 模型会开源的，等模型稳定到值得开源的时候。

中文

1.8K

Datou@Datou·11h

能用语言描述的知识只是人类全部知识的一个子集，语言模型不会开车，甚至专门开车的模型都没办法像人类一样到处开。

Pure Nomad@realPureNomad

一个比较全面的大模型，完全下载到本地，小的能小到十几个G。你随便问它问题，他全部知道。他会所有人类语言。这就是人类全部知识骨架，或者说是知识 DNA，也就十几个G。

中文

613

Datou retweetou

艾略特@elliotchen100·1d

论文来了。名字叫 MSA，Memory Sparse Attention。一句话说清楚它是什么：让大模型原生拥有超长记忆。不是外挂检索，不是暴力扩窗口，而是把「记忆」直接长进了注意力机制里，端到端训练。过去的方案为什么不行？ RAG 的本质是「开卷考试」。模型自己不记东西，全靠现场翻笔记。翻得准不准要看检索质量，翻得快不快要看数据量。一旦信息分散在几十份文档里、需要跨文档推理，就抓瞎了。线性注意力和 KV 缓存的本质是「压缩记忆」。记是记了，但越压越糊，长了就丢。 MSA 的思路完全不同： → 不压缩，不外挂，而是让模型学会「挑重点看」核心是一种可扩展的稀疏注意力架构，复杂度是线性的。记忆量翻 10 倍，计算成本不会指数爆炸。 → 模型知道「这段记忆来自哪、什么时候的」用了一种叫 document-wise RoPE 的位置编码，让模型天然理解文档边界和时间顺序。 → 碎片化的信息也能串起来推理 Memory Interleaving 机制，让模型能在散落各处的记忆片段之间做多跳推理。不是只找到一条相关记录，而是把线索串成链。结果呢？ · 从 16K 扩到 1 亿 token，精度衰减不到 9% · 4B 参数的 MSA 模型，在长上下文 benchmark 上打赢 235B 级别的顶级 RAG 系统 · 2 张 A800 就能跑 1 亿 token 推理。这不是实验室专属，这是创业公司买得起的成本。说白了，以前的大模型是一个极度聪明但只有金鱼记忆的天才。MSA 想做的事情是，让它真正「记住」。我们放 github 上了，算法的同学不容易，可以点颗星星支持一下。🌟👀🙏 github.com/EverMind-AI/MSA