Duyihao duyihao.com

34 posts

Duyihao duyihao.com

@iduyihao

To be a better man. github: https://t.co/ppPNBR0swh

日本東京 Katılım Aralık 2015

11 Takip Edilen1 Takipçiler

Duyihao duyihao.com@iduyihao·19h

x.com/i/article/2066…

ZXX

Duyihao duyihao.com@iduyihao·18 May

@liujiayi1111 项目里的Tauri的开发依赖远远大于这点安装包体积，给我搞到了5gb多

中文

刘佳怡@liujiayi1111·18 May

🤔好诱人...

中文

33.1K

Duyihao duyihao.com@iduyihao·20 Nis

x.com/i/article/2046…

ZXX

Duyihao duyihao.com@iduyihao·7 Nis

如果你经常在浏览器里看长文、教程、文档，可以试试我做的这个浏览器插件：一览。打开网页后按一下 `Alt + S`，它会先把正文提出来，再给你一个结构化总结。如果还不够，还能继续整理成行动项、术语表、问答卡。我自己开发时候就很满意的一点设计是，结果不是看完就没了。它可以留在本地历史里，后面搜索、收藏、回看都方便；想认真读的时候，也能直接切到独立阅读页。它更像一个网页阅读工作台，不只是一个“一键总结”插件。（BYOK)模式。官网: yilan.app GitHub: github.com/mutuyihao/yilan

中文

132

Duyihao duyihao.com@iduyihao·22 Mar

本来以为还有灵气复苏，没想到先来的是赛博朋克2077🥲

中文

333

Duyihao duyihao.com@iduyihao·19 Mar

@turingou 哥，还在等待你的正式介绍哈哈哈

中文

郭宇 guoyu.eth@turingou·17 Mar

已经上线 mails.dev 明天我睡醒再正式介绍

中文

10.2K

郭宇 guoyu.eth@turingou·17 Mar

又开了一个新项目，这可能是我买过最贵的域名？

中文

46.6K

Duyihao duyihao.com@iduyihao·18 Mar

算是引导入门级别的，有一些帮助，更多的还是需要读者亲自开始去写自己的 skills。

Thariq@trq212

x.com/i/article/2033…

中文

Duyihao duyihao.com@iduyihao·18 Mar

x.com/i/article/2034…

ZXX

Duyihao duyihao.com@iduyihao·18 Mar

x.com/i/article/2034…

ZXX

Duyihao duyihao.com@iduyihao·18 Mar

@turingou wow, awesome. 似乎还有很多 agent 不方便，需要借助人力的地方，都可以慢慢提供类似的服务。

中文

479

Duyihao duyihao.com@iduyihao·23 Şub

@0xmagnolia 好强的手法，真看不出来，其实手法普通一点，牌后边用特殊药水做记号，戴个眼镜，就足够做局普通人了。

中文

5.8K

Duyihao duyihao.com@iduyihao·5 Şub

@0xmagnolia 呜呜，脱水等待恒纪元了

中文

magnolia@0xmagnolia·5 Şub

@iduyihao 等第一个大暴雷，直接破

日本語

87.8K

magnolia@0xmagnolia·5 Şub

BTC严格遵守四年减半牛市规律，牛市顶点后基本1年半左右见底，这轮熊市估计在明年3月到达38000左右开始底部震荡。（中间至少有两次大机构暴雷）在2027一整年完成35000～47000约34.29%震荡区间，开始回升，到28年4月20日附近完成第五次BTC减半后还有1年半的牛市。好好活到明年3月（见底后一级开始回暖）

magnolia@0xmagnolia

上轮牛市积累经验本轮熊市积累本金下轮牛市积累财富一定要好好活下去

中文

430

152.3K

Duyihao duyihao.com@iduyihao·13 Oca

@0xmagnolia 阿妹最美

日本語

270

Duyihao duyihao.com retweetledi

两禅寺李当心@0xInv1ctus·23 Oca

最近，Kimi 团队公布了新的kimi k1.5模型，这也与前段时间 OpenAI 推出的重要研究息息相关：即通过强化学习（RL）方法，在大语言模型（LLM）的训练和推理中，发现了一种新的 Scaling Law。相比于 ChatGPT 横空出世时依赖堆叠算力和海量数据提升智能性的方式，这种新的 Scaling Law 显然更具潜力。毕竟，如今可用的人类语言数据几乎已经被充分挖掘，而构建更大规模的 GPU 集群不仅成本高昂、能源消耗巨大，且只有极少数组织能够负担。 GPT o1: 模型准确率随训练和测试时间的Scaling Law 新 Scaling Law 的意义 GPT o1 体现出的训练和测试时间的 Scaling Law 令人印象深刻，我个人也对这种新方法抱有很大期待。判断 AI 是否真正具备智能，关键在于它能否学习并超越人类的思维模式。而显然，人类的学习并不完全依赖传统 Scaling Law 中堆叠数据和算力的方式。聪明人往往无需反复被灌输大量知识，就能掌握抽象概念和复杂理论。而当前主流 LLM 的短板正是这一点：尽管在信息归纳、标准化代码生成、创作等简单任务上表现优异，但在理解高度抽象知识和复杂推理能力上仍显不足。 Kimi 团队的创新方法 Kimi 团队的一大亮点在于摒弃了传统训练中常用的价值网络（value network）。在复杂推理中，找到正确答案的过程往往比答案本身更为重要。即使得到了正确答案，但如果只是“蒙对”，其价值远不及深入思考的过程——哪怕最终推导出的答案是错误的。因此，团队人为增加了策略优化（policy optimization）中对答案多样性的采样权重，让模型能够探索更多样化的思维路径，而不是局限于单一的正确答案。此外，为了减少模型通过“过度思考”（overthinking）来刷准确率的倾向，Kimi 团队在奖励函数设计中加入了长度惩罚（Length Penalty）机制。简单来说，这种机制鼓励模型提升思考质量，而非通过堆砌回答长度来获得奖励。这一操作看似简单，却展现了显著的效果——深度学习领域中许多突破正是依赖类似的小技巧实现了性能飞跃。 Kimi 团队设计的Length Penalty。注意y_i代表采样得到的多次回答；通过简单设计这里惩罚了正确的短答案，并且给与了错误的长答案一定奖励 Length Penalty 的具体设计在 Length Penalty 的实现中，团队对采样得到的多次回答（yiy_iyi）进行了惩罚：短且正确的答案被略微削弱，而长且错误的答案则获得了一定奖励。这种设计有效避免了传统方法中依赖答案长度来提升评分的弊端。 Partial Rollout 策略与计算优化 Kimi 团队的另一大创新在于 RL 训练中引入了新型的 Partial Rollout 策略。众所周知，大规模 RL 算法以及商业级 LLM 的训练需要庞大的算力，而 Rollout 是一种从 AlphaGo 和 AlphaStar 时代就被广泛应用的近似动态规划策略。在 RL 训练中，Agent 需要不断通过与环境交互获取奖励（reward），从而优化其行为。然而，当环境和任务复杂度提升时，穷尽所有可能动作显然不现实，因此需要更高效的采样策略。 Kimi 团队的 Partial Rollout 策略通过为轨迹（trajectory）设置 token 上限，当一条轨迹达到上限后，其未完成部分被置入 Replay Buffer，等待下一个迭代使用。这种设计避免了少数长轨迹占用大部分计算资源。同时，异步化的 Rollout Workers 允许长短轨迹同时作用于训练过程，进一步提升了 Long CoT 模式下的思考深度。令人期待的未来 Kimi k1.5 的数学、代码以及多模态推理能力在 long-CoT 模式下，与 OpenAI o1 正式版的水平已经非常接近，展现了惊人的潜力。我尤其对报告中展示的 k1.5 模型在多模态（图片 + 文本）领域的表现印象深刻。可以看到，在 long-CoT 模式下，Kimi k1.5 的数学、代码、多模态推理能力三项上，和长思考 SOTA 模型 OpenAI o1 正式版的水平差别不大 Kimi k1.5 的推出，或许标志着人类在探索 LLM 新 Scaling Law 的道路上迈出了重要一步。或许未来，有朝一日，LLM 不仅能像人类一样思考，甚至可能真正超越人类。