LotusDecoder

7.7K posts

LotusDecoder banner
LotusDecoder

LotusDecoder

@LotusDecoder

AI - mind - heart

Tham gia Aralık 2023
2.1K Đang theo dõi6.6K Người theo dõi
Tweet ghim
LotusDecoder
LotusDecoder@LotusDecoder·
这个账号一开始是用来收看国际国内 AI 讯息的。 自从2025年初开始发一下自己的 AI 学习和实践笔记。 第一次发,如何用 AI 做心理咨询的整套技术栈,便得到了很多朋友的喜欢和支持。 再到后来做 chatgpt 、gemini、claude 的很多使用经验, 再到下半年做 知心伙伴提示词 。 感谢大家的信任。 接下来以这个帖子作为置顶贴, 将在评论区系统地罗列一下, 觉得自己发表的一些比较有长远价值的推文。 个人重点分享: - 大规模地有深度和广度地把 AI 接入到自己的生活、学习、工作、事业中。尤其是处理通用和复用的部分。 - 进一步总结提炼模式,反思内省,进行行为认知的优化和提升、进化。 - 推演预测 AI 在未来各行各业的落地、变化、化学反应,AI for science 的前景等等,这块有些科幻性质。🤗
中文
5
2
60
14.6K
LotusDecoder
LotusDecoder@LotusDecoder·
@yibie 格局打开了, 快开源代码和model, bub 和 MSA 合体吧
中文
0
0
0
25
yibie
yibie@yibie·
我正在土法炼丹,照搬原样,希望测试成功。如果是真的数据那么好看,正好解决我当前很大的问题。非常感谢有人在这方面突破! 我现在希望它可以和 Bub 的 tape.system 结合。产生一种基于时间序列的记忆,或对话 Session 。
艾略特@elliotchen100

论文来了。名字叫 MSA,Memory Sparse Attention。 一句话说清楚它是什么: 让大模型原生拥有超长记忆。不是外挂检索,不是暴力扩窗口,而是把「记忆」直接长进了注意力机制里,端到端训练。 过去的方案为什么不行? RAG 的本质是「开卷考试」。模型自己不记东西,全靠现场翻笔记。翻得准不准要看检索质量,翻得快不快要看数据量。一旦信息分散在几十份文档里、需要跨文档推理,就抓瞎了。 线性注意力和 KV 缓存的本质是「压缩记忆」。记是记了,但越压越糊,长了就丢。 MSA 的思路完全不同: → 不压缩,不外挂,而是让模型学会「挑重点看」 核心是一种可扩展的稀疏注意力架构,复杂度是线性的。记忆量翻 10 倍,计算成本不会指数爆炸。 → 模型知道「这段记忆来自哪、什么时候的」 用了一种叫 document-wise RoPE 的位置编码,让模型天然理解文档边界和时间顺序。 → 碎片化的信息也能串起来推理 Memory Interleaving 机制,让模型能在散落各处的记忆片段之间做多跳推理。不是只找到一条相关记录,而是把线索串成链。 结果呢? · 从 16K 扩到 1 亿 token,精度衰减不到 9% · 4B 参数的 MSA 模型,在长上下文 benchmark 上打赢 235B 级别的顶级 RAG 系统 · 2 张 A800 就能跑 1 亿 token 推理。这不是实验室专属,这是创业公司买得起的成本。 说白了,以前的大模型是一个极度聪明但只有金鱼记忆的天才。MSA 想做的事情是,让它真正「记住」。 我们放 github 上了,算法的同学不容易,可以点颗星星支持一下。🌟👀🙏 github.com/EverMind-AI/MSA

中文
1
0
2
153
LotusDecoder
LotusDecoder@LotusDecoder·
@Tsj_estwld 是的,太多了,那天看了一个论文,pre-pre,把元胞自动机的数据先塞进去当垫子,效果还有点点。
中文
0
0
0
13
tsj
tsj@Tsj_estwld·
在实际操作中,流程可能会分得更细。比如在广义的“后训练阶段”: (a) 先进行多个阶段的 SFT (b) 再进行 RL (c) RL 之后,又会针对一些泛化没那么好的任务,再进行几轮 SFT (d) 直到达到满意的效果
中文
1
0
1
13
tsj
tsj@Tsj_estwld·
再补充一些心得吧。 从 2022 年到 2023 年以后,大家默认的大模型训练通常分为三个阶段: 1. 预训练阶段 2. SFT 阶段 3. 强化学习(RLHF)阶段 但在现在的大模型训练中,界限早已经不是那么泾渭分明了。现在大家可能会看到很多名词,比如预训练、中训练、SFT 阶段、RFT 阶段或者是 RL 阶段。
中文
1
0
0
24
Mike Yang
Mike Yang@yfractal·
@LotusDecoder 可以自动化让 AI 修啊,AI 都能写代码了,还差这几个 bug 吗。。。
中文
1
0
0
29
LotusDecoder
LotusDecoder@LotusDecoder·
@Arcadia_Bao 我之前也生酮过,好像会引起些什么,也不太确定,后来只是低碳了吧。
中文
0
0
0
47
忒修斯的船板
忒修斯的船板@Arcadia_Bao·
真的是倒霉到家了 前段时间运动不足宅家,眼睛散光加重加干眼症加体重增加,想着该多出门放松了吧 正好这时候打了替尔泊肽,身体很不舒服几天低烧打喷嚏发冷(明明家里不冷也没出过门)。我怀疑是叠加上生酮饮食,怀疑自己出现生酮感冒,补电解质恢复了部分碳水。 终于好些了,结果喷嚏和干眼流泪却更严重,这才发现北京这几天花粉量爆炸,我喷嚏和眼酸可能是过敏导致的 这下好了,不出门眼睛就难受,身体也倦怠, 出门锻炼立刻眼睛狂流泪狂流鼻涕整个人垮掉,几头一起堵
中文
0
0
1
141
LotusDecoder
LotusDecoder@LotusDecoder·
我也是,今天有三件事,claude code 已经超出我的提示词要求的范围,但又是符合我的意图, 简单说,惊喜。 一是,claude code 的系统提示词瘦身,在 system tools之外还找到了github的指导部分,告诉我可以关掉。 二是,找一本残卷电子书,已经下载回来了,cc还多看了一眼,发现内容是另外一卷,然后告诉我需要去另外三个网站下载。 三是,我提出我喜欢的生活方式,根据我的知识库,综合文档做性格画像,给我一个看法,这是我最意外的,我以为只是一个纯粹的文本读取汇总分析任务, claude code 主动读取了我的 git 提交时间,得出了我固定朝九晚五的工作区间,很少加班过,明确告诉我根据我的工作习惯,我确实是喜欢轻松的生活方式。
中文
0
0
1
191
Rainman
Rainman@0xdeusyu·
面完了,Rainman 可能要回归外企了😇
日本語
10
0
45
4.5K
LotusDecoder
LotusDecoder@LotusDecoder·
@Fevenrrr 是的,而且,大厦将倾。 中低端市场性价比搞不过开源国模, 智谱、minimax 一上市之后,资金充足, kimi、qwen想象力打开, 高端卷不过 claude opus, 两头挨揍。
中文
0
0
10
564
Feven
Feven@Fevenrrr·
其实4o以后OAI出的5之后的系列都不会说人话,目前相比于Claude的唯一优势就是量大管饱 但是据说马上也要计量收费了,那岂不是量大管饱这个唯一的优势也没了 再加上微软和马斯克的法律诉讼压力 及自身成本压力 形势不太妙啊OpenAI 来猜一猜OpenAI真的不行了的话花落谁家吧,微软,马斯克,还是英伟达呢
中文
5
2
66
3K
LotusDecoder
LotusDecoder@LotusDecoder·
嘻嘻, cursor 的新模型 composer-2 底座疑似是 kimi-2.5, 给抓现行了。
中文
1
0
4
1.5K
LotusDecoder
LotusDecoder@LotusDecoder·
@liyucheng_2 还有 opus 的性能,这点上下文开头提示词的污染,毛毛雨啦,还是会很专注末尾的要求的。
中文
0
0
0
16
LotusDecoder
LotusDecoder@LotusDecoder·
@liyucheng_2 chatbot 不能在多文件多目录里自由跳转, agent 可以这样, “看一下,在xx目录,cc关键词,结合yy目录里的bb数据,综合分析我的观点 tt” claude code sys 现在 几k吧,纯文字任务,tools 可以只用 bash write read glob ,mcp 和 git指导提示词等等都关了。 对于讨论的上下文污染还是可以接受。
中文
2
0
0
32
LotusDecoder
LotusDecoder@LotusDecoder·
哎, 回头用 chatbot 的话, 感觉越用越不舒服, 还是 claude code 丝滑。 更爽。
中文
6
0
12
2.2K
AstroHan
AstroHan@AstroHanRay·
@LotusDecoder Chatbot 已经是上一个时代的产品了,Agent 才是未来!
中文
1
0
1
18
DanielW
DanielW@dddanielwang·
@LotusDecoder 不注意就没事,注意到了就完蛋是吗哈哈哈
中文
1
0
0
21