zhenyi.eth

105 posts

zhenyi.eth banner
zhenyi.eth

zhenyi.eth

@soczhenyi

Co-Founder of @TurtlecaseGang | Author of ERC721G | Crypto | AI | 🏀 | 🏎 | 📷 | 📚 | 🎮 | ☀️ | Olympiad in Informatics/ICPC | BUIDLer | $TCGOG holder

Edinburgh, Scotland Katılım Nisan 2012
821 Takip Edilen87 Takipçiler
zhenyi.eth
zhenyi.eth@soczhenyi·
@TaNGSoFT 所以msa的doc不是把整个doc训练到attn里。而是把学习到怎么看doc写入了? 每次query的时候,local doc也要作为输入一起和prompt给到msa是吧
中文
1
0
1
57
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
消化了一下MSA,Memory Sparse Attention:本质上是利用attention机制对本地文本的学习,包括与LLM交互的trajectory文本。 MSA 填补了"单次会话内的超长上下文"这个格子。这个格子之前要么靠 RAG 外挂(不是真正的 in-context),要么靠暴力扩窗口(计算不可行),现在 MSA 提供了一个端到端的原生解法。 从 NTT(Next Turn Prediction)的框架看:MSA 让单个 turn 内的推理能够访问更完整的历史,这提升了每个 turn 的质量上限。但 turn 与 turn 之间的连续性问题——这个 M-step vs. E-step 的边界问题——MSA 没有触及,也不应该触及。这是两个不同层级的问题。 最终判断: MSA 是序列轴上的真实突破,不是炒作。但它解决的是会话内的超长记忆,不是跨会话的持久记忆。"让大模型原生拥有超长记忆"这个描述是准确的——但"超长"的边界仍然是单次推理上下文,不是真正意义上的情节记忆(episodic memory)。 真正的持久记忆问题,在 TASTE.md 和 GOTCHAS.md 的工程层面依然需要解决——因为那个问题的本质是M-step 结果的跨会话持久化,而 MSA 优化的是 E-step 内部的信息访问效率。两者都需要,在不同的层级上工作,没有一个能取代另一个。
艾略特@elliotchen100

论文来了。名字叫 MSA,Memory Sparse Attention。 一句话说清楚它是什么: 让大模型原生拥有超长记忆。不是外挂检索,不是暴力扩窗口,而是把「记忆」直接长进了注意力机制里,端到端训练。 过去的方案为什么不行? RAG 的本质是「开卷考试」。模型自己不记东西,全靠现场翻笔记。翻得准不准要看检索质量,翻得快不快要看数据量。一旦信息分散在几十份文档里、需要跨文档推理,就抓瞎了。 线性注意力和 KV 缓存的本质是「压缩记忆」。记是记了,但越压越糊,长了就丢。 MSA 的思路完全不同: → 不压缩,不外挂,而是让模型学会「挑重点看」 核心是一种可扩展的稀疏注意力架构,复杂度是线性的。记忆量翻 10 倍,计算成本不会指数爆炸。 → 模型知道「这段记忆来自哪、什么时候的」 用了一种叫 document-wise RoPE 的位置编码,让模型天然理解文档边界和时间顺序。 → 碎片化的信息也能串起来推理 Memory Interleaving 机制,让模型能在散落各处的记忆片段之间做多跳推理。不是只找到一条相关记录,而是把线索串成链。 结果呢? · 从 16K 扩到 1 亿 token,精度衰减不到 9% · 4B 参数的 MSA 模型,在长上下文 benchmark 上打赢 235B 级别的顶级 RAG 系统 · 2 张 A800 就能跑 1 亿 token 推理。这不是实验室专属,这是创业公司买得起的成本。 说白了,以前的大模型是一个极度聪明但只有金鱼记忆的天才。MSA 想做的事情是,让它真正「记住」。 我们放 github 上了,算法的同学不容易,可以点颗星星支持一下。🌟👀🙏 github.com/EverMind-AI/MSA

中文
7
8
48
7.7K
zhenyi.eth
zhenyi.eth@soczhenyi·
@elliotchen100 请教一下,docs是作为输入和query一起组成prompt的对吧。而不是把docs直接存入attention
中文
0
0
0
1.5K
艾略特
艾略特@elliotchen100·
论文来了。名字叫 MSA,Memory Sparse Attention。 一句话说清楚它是什么: 让大模型原生拥有超长记忆。不是外挂检索,不是暴力扩窗口,而是把「记忆」直接长进了注意力机制里,端到端训练。 过去的方案为什么不行? RAG 的本质是「开卷考试」。模型自己不记东西,全靠现场翻笔记。翻得准不准要看检索质量,翻得快不快要看数据量。一旦信息分散在几十份文档里、需要跨文档推理,就抓瞎了。 线性注意力和 KV 缓存的本质是「压缩记忆」。记是记了,但越压越糊,长了就丢。 MSA 的思路完全不同: → 不压缩,不外挂,而是让模型学会「挑重点看」 核心是一种可扩展的稀疏注意力架构,复杂度是线性的。记忆量翻 10 倍,计算成本不会指数爆炸。 → 模型知道「这段记忆来自哪、什么时候的」 用了一种叫 document-wise RoPE 的位置编码,让模型天然理解文档边界和时间顺序。 → 碎片化的信息也能串起来推理 Memory Interleaving 机制,让模型能在散落各处的记忆片段之间做多跳推理。不是只找到一条相关记录,而是把线索串成链。 结果呢? · 从 16K 扩到 1 亿 token,精度衰减不到 9% · 4B 参数的 MSA 模型,在长上下文 benchmark 上打赢 235B 级别的顶级 RAG 系统 · 2 张 A800 就能跑 1 亿 token 推理。这不是实验室专属,这是创业公司买得起的成本。 说白了,以前的大模型是一个极度聪明但只有金鱼记忆的天才。MSA 想做的事情是,让它真正「记住」。 我们放 github 上了,算法的同学不容易,可以点颗星星支持一下。🌟👀🙏 github.com/EverMind-AI/MSA
艾略特 tweet media
艾略特@elliotchen100

稍微剧透一下,@EverMind 这周还会发一篇高质量论文

中文
172
564
3.2K
1.7M
zhenyi.eth
zhenyi.eth@soczhenyi·
That's it!
DeepSeek@deepseek_ai

🚀 Day 0: Warming up for #OpenSourceWeek! We're a tiny team @deepseek_ai exploring AGI. Starting next week, we'll be open-sourcing 5 repos, sharing our small but sincere progress with full transparency. These humble building blocks in our online service have been documented, deployed and battle-tested in production. As part of the open-source community, we believe that every line shared becomes collective momentum that accelerates the journey. Daily unlocks are coming soon. No ivory towers - just pure garage-energy and community-driven innovation.

English
0
0
0
57
AIGCLINK
AIGCLINK@aigclink·
超级酷!李飞飞联合创办的 World Labs刚刚发布了其首个3D生成模型:空间智能,只一张图片,就可以生成一个逼真的3D世界,具备持久性,可控制性 生成后,可以通过键盘和鼠标与3D场景互动,键盘移动,鼠标点击和拖动环顾四周,你可以"走进"这张照片,查看场景细节 一旦场景生成,就可以在浏览器中使用虚拟相机实时渲染,实现艺术摄影效果,比如,模拟浅景深和多轴变焦等 特点: 持久现实,生成的世界会一直存在,场景不会在视线离开后发生变化 实时控制,可以在生成的场景中实时移动,观察细节 几何准确:遵循3D几何基本物理规则,有实体感和深度感 #3D生成 #空间智能
中文
11
55
217
62.3K
zhenyi.eth
zhenyi.eth@soczhenyi·
@lidangzzz 和我观点接近。中国孩子只有竞赛可以打是一种“悲哀”,没有美国这么多样化的机会和途径
中文
0
0
2
1.2K
lidang 立党 (劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人)
其实中国被埋没最多的,是计算机天才。 在中国,数学、物理都有完整的培养、选拔、竞赛通道,哪怕是县级学校,数学老师也知道让学生报名参加竞赛,到省会培训竞赛,报考少年班。 唯独编程这件事,不仅无法选拔,甚至99%的人在18岁以前都没机会接触——很多天才编程少年,纯靠在家混github和B站自学。 与其你们关心姜萍的造假,不如思考一下: 在中国大学几乎不给编程天才提供培训通道,学校不教编程、不了解信息竞赛,家里爹妈更不让玩电脑的前提下, 如何在中国系统性选拔、培养计算机小天才? 再思考一个问题: 中国计算机选拔人才的方式非常单一,只有一个信息学竞赛(算法比赛)的通道,而缺乏美国这种deep learning+应用+商业创业+web3等多元化的hackathon平台,分层、分领域、分行业选拔, 如何在中国系统性选拔、培养编程和科技互联网青年的创业精英呢?
lidang 立党 (劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人) tweet media
中文
38
27
284
271.8K
zhenyi.eth
zhenyi.eth@soczhenyi·
@VitalikButerin Vitalik, we’re developing the same idea (AI-based) of that about the problem of inconsistency between code implementation logic and the author's intention is widespread. This phenomenon is known as Code-Comment Inconsistency (CCI). github.com/AntChainOpenLa…
English
0
0
0
15
vitalik.eth
vitalik.eth@VitalikButerin·
One application of AI that I am excited about is AI-assisted formal verification of code and bug finding. Right now ethereum's biggest technical risk probably is bugs in code, and anything that could significantly change the game on that would be amazing.
English
2.9K
2K
12.1K
3.6M
zhenyi.eth
zhenyi.eth@soczhenyi·
#NVDA #AGI #ChatGPT 上一个高点精准“抄顶”,但是对“算力”的未来就是有很大信心,不论Crypto还是AI。 长线,还是看好硬科技。 Long GPGPU~
zhenyi.eth tweet media
中文
1
0
1
525
zhenyi.eth retweetledi
Cos(余弦)😶‍🌫️
Cos(余弦)😶‍🌫️@evilcos·
从来不会因为一个漏洞弃用一个产品,哪怕这个漏洞再严重;而肯定会因为一个团队对待漏洞的态度而决定弃用与否,哪怕这个漏洞再小。
中文
10
11
143
43.3K
zhenyi.eth retweetledi
东京温哥
东京温哥@wenqiangjp·
按理说,中国人遍布全球,理应在Twitter上,看到世界各地不同的文化碰撞。为什么,每天一上推,看到的都是“中国新闻”?好像人人都是时政评论家,一睁眼就开始键盘指点江山,生活中实在没什么可发的吗?关键是,真正有水平的也没几个,都是转来转去,没什么独到的见解,一条新闻看几十遍...在简中圈,但凡看见一个敢于真人出镜,乐于分享生活的推友,我大概率都关注了,因为太罕见了...😂 为什么华人上推特就只能聊政治?是马斯克规定的吗?文化、宗教、艺术、科技、历史、旅行、美食、生活...什么不能聊?Twitter 改名为 X ,意味着,这将是一个包罗万象的App,与时俱进一点吧! 政治会影响生活,但不是生活的全部。 (图:隅田川花火大会) #温哥的小感悟
东京温哥 tweet media
中文
563
55
1.1K
626.5K
zhenyi.eth
zhenyi.eth@soczhenyi·
符号学习这种人工找模式是必然路径,已经找到的模式依然有价值。但是只要人可以经历这种范式转移的路径,理论上机器也可以。比如AlphaGo是预学习了棋谱的。但是AlphaZero只告知了围棋的规则,完全从0开始自我博弈,也就是可以做到把棋谱(确定算法)的东西自主学习(模式发现)出来
中文
0
0
0
38
zhenyi.eth
zhenyi.eth@soczhenyi·
突破某个奇点后,开始发展自动找这些固定模式,就是从统计学习开始往深度学习不断演变的。所以很多机器学习干的事情就是Pattern Recognition。 所以整个AI领域,也从符号学习 演变为 连接主义的学习(监督、无监督、强化)
中文
1
0
0
279
zhenyi.eth
zhenyi.eth@soczhenyi·
#GPT #AGI 机器学习带来的范式转移就一段话:过去在初级阶段,需要人力总结模式,所以早期大发展符号学习,确定性算法。比如早期的计算机图形学的识别算法就是人工总结的霍夫线变换加仿射。这个算法是定死的,特定模式只能硬匹配特定算法,基本没有泛化能力。
中文
1
0
0
77
zhenyi.eth retweetledi
Elon Musk
Elon Musk@elonmusk·
Elon Musk tweet media
ZXX
28.2K
69.7K
799.9K
77.5M
zhenyi.eth
zhenyi.eth@soczhenyi·
chatGPT API,信息世界的铱星 GPT技术非常有希望获得GPS相似的地位,成为现代世界必不可少的基础技术之一
中文
1
0
0
56
zhenyi.eth
zhenyi.eth@soczhenyi·
1. Quick Basic 2. Turbo Pascal 3. VB 4. JavaScript 5. C/C++ 6. Python 7. C# 8. Java 9. Scheme 10. APL 11. Prolog 12. Scala 13. Coq 14. Isabelle 15. Haskell 16. TypeScript 17. Rust 18. Solidity 19. Vyper
Jeff Dean@JeffDean

1. Assembly (8080, later 68000, x86, ...) 2. Basic 3. Pascal 4. Modula-2 5. C 6. Lisp/Scheme 7. Ada 8. Perl 9. Miranda 10. C++ 11. Self 12. Cecil 13. Modula-3 14. Java 15. Javascript 16. Python 17. Go Fun! (Written/worked on compilers or interpreters for 6, 10, 11, 12, 13, 14)

English
0
0
0
79
zhenyi.eth retweetledi
Damus⚡️
Damus⚡️@damusapp·
That was fast
Damus⚡️ tweet media
English
148
240
1.4K
507.2K