BTC

9.6K posts

BTC banner
BTC

BTC

@Gomahu110

猪队友

Katılım Mart 2022
4.3K Takip Edilen805 Takipçiler
Sabitlenmiş Tweet
BTC
BTC@Gomahu110·
1.行情总是在绝望中诞生,在犹豫中上涨,在疯狂中死亡; 2.别人贪婪我恐惧,别人恐惧我贪婪;
中文
13
2
23
0
BTC
BTC@Gomahu110·
@phyrexni 这就讲完了
中文
0
0
0
330
Phyrex
Phyrex@PhyrexNi·
😂讲完了
中文
20
0
19
15.4K
BTC
BTC@Gomahu110·
川普币梭哈!
中文
0
0
0
126
BTC
BTC@Gomahu110·
@XXY177 赞同👍。我看川普币1000美金💲
中文
0
0
0
198
BTC
BTC@Gomahu110·
川普币1000美金💲。梭哈
日本語
1
0
1
112
BTC
BTC@Gomahu110·
买川普币。买川普币。买川普币
中文
0
0
0
90
BTC
BTC@Gomahu110·
梭哈,川普币。买川普币
中文
0
0
0
75
BTC retweetledi
UNICORN⚡️🦄
UNICORN⚡️🦄@UnicornBitcoin·
转:关于 DeepSeek 的研究和思考 (Archerman Capital) 关于这几天很火的 DeepSeek, 我们 (Archerman Capital) 做了一些研究和思考, 和大家分享, enjoy! 灰色部分是技术细节, 不感兴趣的可略过。 几个事实 1) DeepSeek 不是套壳不是蒸馏美国的大模型。 虽然中国有些大模型是套壳和蒸馏的, 但 DeepSeek 不是。 2) 核心架构还是基于 Transformer, deepseek 在架构、工程设计上进行了创新和工艺提升, 实现效率优化。架构上, 采用了混合专家模型 (MoE)、多头潜注意力 (MLA)、多令牌预测 (MTP)、长链式推理 (CoT)、DualPipe 算法等设计, 并进行了依赖强化学习 (RL) 而不加入监督微调 (SFT) 的训练尝试。工程上, 在数据精度 (FP8 混合精度)、底层通信等方面进行了优化。这些方法在学术界都已经有了, Deepseek 没有过于追求新技术, 而是花了心思把这些方法都用上, 解决了一些技术的应用难点, 在理论应用和工程上找到平衡, 具体如下: MoE: Mixture of Experts (混合专家模型)。将模型划分多个专家模块来进行分工。训练中将不同专家模块分配到不同计算设备训练, 提升训练效率。推理时, 仅动态激活部分专家 (37B 参数), 而非全模型参数 (671B 参数), 减少计算负担。但是 MoE 经常会面临某些专家承担所有工作, 其他专家不被使用的问题, 业内会通过一如辅助损失来对此调控、平衡各个专家模块的工作量, 而 deepseek 通过无辅助损失的自然负载均衡 (引入一个无形的手而不是人为调控)、共享专家机制来解决该问题。 MLA: Multi-Head Latent Attention (多头潜注意力)。扩展了传统的多头注意力机制, 引入潜向量 (latent variables), 可以动态调整注意力机制, 捕捉任务中不同的隐含语义。在训练中减少内存和计算开销, 在推理中降低 KV 缓存占用空间。 MTP: Multi-Token Prediction (多令牌预测)。一般 LLM 一次生成 1 个 token, 采用单步预测。deepseek 在特定场景下能同时预测多个 token, 来提高信号密度。一方面能够减少上下文漂移、逻辑更连贯, 也能减少一些重复中间步骤, 在数学、代码和文本摘要场景能提升效率。 CoT: Chain of thought (思维链)。一种训练和推理方法, 将复杂的问题拆分成小步的中间逻辑, 细分逻辑链条。在训练阶段, Deepseek 用标注的 Long CoT 数据微调模型, 让模型生成更清晰的推理步骤, 在强化学习中用 CoT 设计奖励优化, 增强长链推理能力, 并且在此过程中观察到了模型的反思 (回溯推理路径)、多路径推理 (能给出多个解)、aha 时刻 (通过策略突破瓶颈) 等自发行为。 DualPipe (双重流水线): 传统训练信息流水线会产生一些等待时间、有“流水线气泡”, deepseek 设计了一个双重流水线, 让一个计算阶段在等待数据传输时可以切换到另一批数据, 充分利用空闲时间。 R1-Zero: Deepseek 在 V3 基础模型上, 仅通过强化学习 (Reinforcement Learning) 训练, 而不加入 SFT (Supervised fine tuning) 数据, 训练了 R1-Zero 模型, 探索了模型不依赖人类标注数据微调、自主推演的能力, 打开了新的思路。但 R1 模型仍然采取 SFT 数据优化推理和生成质量。 FP8 混合精度训练: 引入了 FP8 混合精度训练框架, 相比传统的 FP16 精度, 数据内存占用更少, 但在一些算子模块、权重中仍然保留了 FP16、FP32 的精度, 节省计算资源。 底层通信优化: 开发了高效的通信内核, 优化对带宽的利用, 保证数据传输效率, 并能支持大规模部署。 拿内燃机和汽车的发明打个比方, 德国人发明了内燃机和汽车, 美国人喜欢 Scaling Law, 排量越大马力越大, 于是从 2 升到 4 升, 甚至 8 升排量的车在美国都很常见, 所以美国肌肉车很耗油。虽然源头技术不是日本发明的, 但日本人擅长把一件事做精, 工程上做很多优化, 日本 2.5 升排量的车甚至可以做到和美国 5 升排量车一样的百公里加速指标。比如轻量化设计把大钢板换成钢条 (类似通过稀疏的办法减少大模型的参数量); 涡轮增压利用废气能量增加空气供给, 提高燃烧效率; 精密制造, 使得发动机零部件的配合更加紧密, 从而减少能量损失; 等等。 3) 有些宣传说 DeepSeek 的训练成本是 550 万美元, 是 Meta 的 1/10, OpenAI 的 1/20, 好像一下子比别人厉害了 10 倍 20 倍, 这有点夸张。 因为现在在美国预训练几千亿参数的一个模型其实也到不到 2000 万美元的成本, DeepSeek 把成本差不多压缩到三分之一。Meta 和 OpenAl 花的钱多是因为前沿探路, 探路就意味着会有浪费, 而后发追赶是站在别人的肩膀上, 是可以避开很多浪费的。另外算力成本在过去几年是指数型下降的, 不能这么机械的比较。打个不恰当的比方, 创新药的研发需要十年几十亿美元, 而仿制药的研发一定会更快更省。另外成本的统计口径也没有统一的标准, 可以有很大的差别。
中文
8
7
29
7.2K
H.E. Justin Sun 👨‍🚀 🌞
H.E. Justin Sun 👨‍🚀 🌞@justinsuntron·
举报deepseek有10000张芯片的alexandr wang 跟举报柯洁棋子没放到盒子的卞相壹有的一拼 😂
中文
259
79
1.6K
499.1K
孙宇晨(去过太空版)🧑‍🚀
我也要进军大模型了,太伟大了,生逢其时,波场挺适合做大模型的,区块链AI直接结合,真想不到潜力会有多大,年后网站就部署出来大家试一下
中文
236
37
443
284.3K
BTC
BTC@Gomahu110·
@bboczeng 啥时候回家啊。
中文
0
0
0
74
勃勃OC
勃勃OC@bboczeng·
如果英伟达一月底之前跌破$120,我就回国 加入DeepSeek,报效祖国! 😳😳😳
中文
514
27
844
590.4K
陳威廉
陳威廉@williamlab·
除夕快乐呀大家! 春节行情,启动启动!
中文
23
3
71
20.1K
BTC retweetledi
玄门上品
玄门上品@suanguaa·
录人间功过之因,依期上奏。  体天地生成之化,覆佑下民。 ​ ​大家别忘了祭灶哦………
玄门上品 tweet media
中文
3
10
139
18.5K
America
America@america·
Elon Musk speaking ahead of President Donald Trump: “It is thanks to you that the future of civilization is assured. We're going to have safe cities — finally — secure borders, sensible spending. Basic stuff. And we're going to take DOGE to Mars!”
English
1.4K
3.1K
27.2K
3.3M
BTC
BTC@Gomahu110·
预期落地,川普四年周期开始。我很不看好币圈会迎来大爆发。雪崩开启啦
中文
0
0
0
96