Duyihao duyihao.com

34 posts

Duyihao duyihao.com banner
Duyihao duyihao.com

Duyihao duyihao.com

@iduyihao

To be a better man. github: https://t.co/ppPNBR0swh

日本 東京 Katılım Aralık 2015
11 Takip Edilen1 Takipçiler
刘佳怡
刘佳怡@liujiayi1111·
🤔好诱人...
刘佳怡 tweet media刘佳怡 tweet media
中文
56
1
64
33.1K
Duyihao duyihao.com
Duyihao duyihao.com@iduyihao·
如果你经常在浏览器里看长文、教程、文档, 可以试试我做的这个浏览器插件:一览。 打开网页后按一下 `Alt + S`, 它会先把正文提出来,再给你一个结构化总结。 如果还不够,还能继续整理成行动项、术语表、问答卡。 我自己开发时候就很满意的一点设计是, 结果不是看完就没了。 它可以留在本地历史里,后面搜索、收藏、回看都方便; 想认真读的时候,也能直接切到独立阅读页。 它更像一个网页阅读工作台, 不只是一个“一键总结”插件。 (BYOK)模式。 官网: yilan.app GitHub: github.com/mutuyihao/yilan
Duyihao duyihao.com tweet mediaDuyihao duyihao.com tweet mediaDuyihao duyihao.com tweet mediaDuyihao duyihao.com tweet media
中文
0
0
0
132
Duyihao duyihao.com
Duyihao duyihao.com@iduyihao·
本来以为还有灵气复苏,没想到先来的是赛博朋克2077🥲
中文
0
0
0
333
郭宇 guoyu.eth
郭宇 guoyu.eth@turingou·
又开了一个新项目,这可能是我买过最贵的域名?
郭宇 guoyu.eth tweet media
中文
21
2
97
46.6K
Duyihao duyihao.com
Duyihao duyihao.com@iduyihao·
@turingou wow, awesome. 似乎还有很多 agent 不方便,需要借助人力的地方,都可以慢慢提供类似的服务。
中文
0
0
0
479
Duyihao duyihao.com
Duyihao duyihao.com@iduyihao·
@0xmagnolia 好强的手法,真看不出来,其实手法普通一点,牌后边用特殊药水做记号,戴个眼镜,就足够做局普通人了。
中文
0
0
5
5.8K
magnolia
magnolia@0xmagnolia·
@iduyihao 等第一个大暴雷,直接破
日本語
2
0
9
87.8K
magnolia
magnolia@0xmagnolia·
BTC严格遵守四年减半牛市规律,牛市顶点后基本1年半左右见底,这轮熊市估计在明年3月到达38000左右开始底部震荡。(中间至少有两次大机构暴雷) 在2027一整年完成35000~47000约34.29%震荡区间,开始回升,到28年4月20日附近完成第五次BTC减半后还有1年半的牛市。好好活到明年3月(见底后一级开始回暖)
magnolia tweet media
magnolia@0xmagnolia

上轮牛市积累经验 本轮熊市积累本金 下轮牛市积累财富 一定要好好活下去

中文
82
75
430
152.3K
Duyihao duyihao.com retweetledi
两禅寺李当心
两禅寺李当心@0xInv1ctus·
最近,Kimi 团队公布了新的kimi k1.5模型,这也与前段时间 OpenAI 推出的重要研究息息相关:即通过强化学习(RL)方法,在大语言模型(LLM)的训练和推理中,发现了一种新的 Scaling Law。相比于 ChatGPT 横空出世时依赖堆叠算力和海量数据提升智能性的方式,这种新的 Scaling Law 显然更具潜力。毕竟,如今可用的人类语言数据几乎已经被充分挖掘,而构建更大规模的 GPU 集群不仅成本高昂、能源消耗巨大,且只有极少数组织能够负担。 GPT o1: 模型准确率随训练和测试时间的Scaling Law 新 Scaling Law 的意义 GPT o1 体现出的训练和测试时间的 Scaling Law 令人印象深刻,我个人也对这种新方法抱有很大期待。判断 AI 是否真正具备智能,关键在于它能否学习并超越人类的思维模式。而显然,人类的学习并不完全依赖传统 Scaling Law 中堆叠数据和算力的方式。聪明人往往无需反复被灌输大量知识,就能掌握抽象概念和复杂理论。而当前主流 LLM 的短板正是这一点:尽管在信息归纳、标准化代码生成、创作等简单任务上表现优异,但在理解高度抽象知识和复杂推理能力上仍显不足。 Kimi 团队的创新方法 Kimi 团队的一大亮点在于摒弃了传统训练中常用的价值网络(value network)。在复杂推理中,找到正确答案的过程往往比答案本身更为重要。即使得到了正确答案,但如果只是“蒙对”,其价值远不及深入思考的过程——哪怕最终推导出的答案是错误的。因此,团队人为增加了策略优化(policy optimization)中对答案多样性的采样权重,让模型能够探索更多样化的思维路径,而不是局限于单一的正确答案。 此外,为了减少模型通过“过度思考”(overthinking)来刷准确率的倾向,Kimi 团队在奖励函数设计中加入了长度惩罚(Length Penalty)机制。简单来说,这种机制鼓励模型提升思考质量,而非通过堆砌回答长度来获得奖励。这一操作看似简单,却展现了显著的效果——深度学习领域中许多突破正是依赖类似的小技巧实现了性能飞跃。 Kimi 团队设计的Length Penalty。注意y_i代表 采样得到的多次回答;通过简单设计这里惩罚了正确的短答案,并且给与了错误的长答案一定奖励 Length Penalty 的具体设计 在 Length Penalty 的实现中,团队对采样得到的多次回答(yiy_iyi​)进行了惩罚:短且正确的答案被略微削弱,而长且错误的答案则获得了一定奖励。这种设计有效避免了传统方法中依赖答案长度来提升评分的弊端。 Partial Rollout 策略与计算优化 Kimi 团队的另一大创新在于 RL 训练中引入了新型的 Partial Rollout 策略。众所周知,大规模 RL 算法以及商业级 LLM 的训练需要庞大的算力,而 Rollout 是一种从 AlphaGo 和 AlphaStar 时代就被广泛应用的近似动态规划策略。在 RL 训练中,Agent 需要不断通过与环境交互获取奖励(reward),从而优化其行为。然而,当环境和任务复杂度提升时,穷尽所有可能动作显然不现实,因此需要更高效的采样策略。 Kimi 团队的 Partial Rollout 策略通过为轨迹(trajectory)设置 token 上限,当一条轨迹达到上限后,其未完成部分被置入 Replay Buffer,等待下一个迭代使用。这种设计避免了少数长轨迹占用大部分计算资源。同时,异步化的 Rollout Workers 允许长短轨迹同时作用于训练过程,进一步提升了 Long CoT 模式下的思考深度。 令人期待的未来 Kimi k1.5 的数学、代码以及多模态推理能力在 long-CoT 模式下,与 OpenAI o1 正式版的水平已经非常接近,展现了惊人的潜力。我尤其对报告中展示的 k1.5 模型在多模态(图片 + 文本)领域的表现印象深刻。 可以看到,在 long-CoT 模式下,Kimi k1.5 的数学、代码、多模态推理能力三项上,和长思考 SOTA 模型 OpenAI o1 正式版的水平差别不大 Kimi k1.5 的推出,或许标志着人类在探索 LLM 新 Scaling Law 的道路上迈出了重要一步。或许未来,有朝一日,LLM 不仅能像人类一样思考,甚至可能真正超越人类。
两禅寺李当心 tweet media两禅寺李当心 tweet media两禅寺李当心 tweet media
中文
10
9
23
4.8K
Duyihao duyihao.com
Duyihao duyihao.com@iduyihao·
@0xmagnolia 支持阿妹,你现在是我心中的全智贤叻,人长得美,正义感又这么强
中文
0
0
0
54
magnolia
magnolia@0xmagnolia·
倒要
日本語
13
2
22
11.1K
magnolia
magnolia@0xmagnolia·
我手上证据多了去了,我到要看看你们要怎么颠倒黑白。
magnolia tweet mediamagnolia tweet mediamagnolia tweet media
中文
24
22
54
29.8K
magnolia
magnolia@0xmagnolia·
给我推荐几个反指博主
中文
35
1
31
16.8K
magnolia
magnolia@0xmagnolia·
不管什么会议 FOMC NFP 还是CPI 等等。开会前你至少留出四成u,不管经济预测怎么稳中向好,你就全部假设是最差数据。 如果数据是好的,你等数据出来再去补仓你看好的山寨也不迟。利好数据基本都有滞后性。如果是坏数据,立马就给你跌下来了。你是来投资的不是来赌博的。 跌的速度永远比涨的快。
中文
33
11
147
42K