sunforever

884 posts

sunforever

@sunforever18

Inscrit le Mayıs 2020

835 Abonnements25 Abonnés

sunforever retweeté

Phoenix Yin@Phoenixyin13·2d

这是我最重要的信息转发之一。这篇论文的第一作者是我极为钦佩的人，也是我的好朋友，来自@Tsinghua_Uni 姚班顶尖选手Guowei Xu，现在他在@Harvard 进行人工智能大模型的科研工作。 Guowei这篇论文精准击中了目前LLM搜索的两个致命瓶颈： ① 只有最后一步对错的sparse verification ② 所有候选答案都靠自回归生成，永远困在模型自己概率分布的entropy shell里由此，Guowei和他的团队提出BES这个全新的搜索框架，引入Forward Evolution，让大模型像生物演化一样思考，打破大模型原有的概率限制，逼它组合出平时根本写不出来的神仙脑洞。同时进行Backward Decomposition，把大任务拆成一堆一眼就能看出对错的子目标。这样大模型在往前走的时候，每走一步都有及时的Dense Feedback，走偏了立刻能纠正。 BES 在理论上成功证明了演化算子能帮大模型跳出思维定势，而倒推法可以指数级减少模型试错所需的样本量。当目前主流的Post-training提升算法都失效时，BES 依然能带得动并且让模型能力持续输出稳定提升，这无疑是打破了主流算法的天花板，值得许多人关注学习。我认为，Guowei这篇论文给Agent指明了新路。对于现在大火的 AI Agent 任务流、多智能体协同来说，这种一边基因重组思路，一边倒推拆解目标的方式，提供了一套更高效、更不容易跑偏的底层搜索算法。值得一提的是，@Kevin_GuoweiXu 同学不仅在清华姚班极其优秀，他曾经也是2022 年第 52 届国际物理奥林匹克竞赛（IPhO）的世界第一，金牌。他未来会在美国直博，大家可以多多关注follow！

Guowei Xu@Kevin_GuoweiXu

🚀 How should LLMs sample on hard reasoning problems during post-training and inference where direct rollouts rarely produce a correct answer? Best-of-N (e.g., GRPO) and tree search share two limitations: 🔻 Verification signals are sparse 🔻 Candidates stay within the model's own distribution We introduce BES: Bidirectional Evolutionary Search — a search framework that couples forward candidate evolution with backward goal decomposition. ✅ Works for both post-training and inference.

中文

194

978

129.8K

sunforever retweeté

Wei Zhao@zhaoweiasu·19 May

$BEAM 60 mg: true mean M-AAT reached 94% of total AAT, compared with 80% for the MZ genotype. $WVE 400 mg MAD: mean max M-AAT reached 58.7% of total AAT, compared with 64% for the MZ genotype. One set a high bar and beat it. One set a low bar and still could not beat it—even after inflating the data. 🤣

English

2.1K

sunforever retweeté

Dirk Haussecker@RNAiAnalyst·21 May

$WVE the more I'm looking at the AATD data, the more alarmed I grow. It looks to me as if total serum AAT stays the same, if not is lowered following wve-006 treatment. And it now makes sense why Co does not show total serum AAT for entire cohort (they show Z-AAT reduction instead as well as isolated M-AAT levels). $beam $krro If you invest in $WVE, you do it because of INHBE (and platform optionality), but NOT AATD*. *not investment advice

English

3.4K

sunforever@sunforever18·11 May

ZXX

sunforever retweeté

看不懂的SOL@DtDt666·10 May

给兄弟们讲个鬼故事。现在坚持定投标普500和纳指100的这帮美股散户，一半以上，都是2020年疫情后才进场的新人。他们以为自己买的是时间的朋友，但时间这个朋友，有时候也会翻脸。而且他们自己可能还不知道。 --- 故事是这样的。前几天跟朋友吃饭，聊到美股。他说自己从2021年开始定投VOO，每周雷打不动投一笔（却没有留活动资金），到现在收益率挺不错，感觉找到了财富自由的密码。我问他，你知道现在标普500的中位数PE是多少吗。他说，不太清楚，反正指数一直在涨。我说，22倍。他愣了一下，22倍算高吗。我说，不算低。但问题是，这22倍是中位数。如果你看市值加权的整体PE，现在已经干到了接近32倍。你知道这意味着什么吗。他摇摇头。我说，这意味着标普500里的500家公司，根本不是同一个市场。它们活在平行宇宙里。 --- 目前（如图）：极端估值区：PE超过50的，大概塞了40多只股票，占比8%以上。这里面最离谱的几个，Boeing 122倍，Tesla 188倍。对，你没看错，Tesla一百多倍。 Healthpeak大概也在这一档，一百多倍，一个做医疗地产的REITs，愣是搞出了科技股的估值。高估值区，PE 30到50的，Costco 48倍，AMD 41倍，Starbucks 40倍。好市多确实是好生意，但48倍PE意味着啥，意味着你光靠它做生意赚的钱，要48年才能回本。然后是你最熟悉的AI七巨头核心区。Apple 34倍，Amazon 35倍，NVIDIA 41倍，Microsoft 22到24倍。这几个哥们加起来占了标普500快三分之一的权重。它们涨，指数就涨，哪怕剩下400多家公司在跌，指数照样可以创新高。再往下，老登股集中营，PE 10到22的。JPMorgan 14倍，Goldman 16倍，Chevron 15倍，P&G 21倍。传统行业的估值已经被打到地板上，但没人关心。因为散户买的不是个股，是ETF。 ETF一篮子买进去，这些便宜货跟着一起被买，但它们的涨跌根本不影响指数走势。最底下还有价值洼地，PE不到10的，大概也有40只。Ford 7倍，GM 6倍，Verizon 9倍。 6倍PE的通用汽车，不是因为便宜才被低估，是因为市场觉得它可能活不过下一个十年。所以你发现了吗，同一个标普500，里面既有371倍的Tesla，也有7倍的Ford。指数涨不代表你买的东西都值钱，可能只是那几家巨头在拖着所有人跑。 --- 说到这个，就不得不提VOO了。 VOO是Vanguard发行的标普500 ETF，也是现在全球最大的ETF。它的规模变化，基本上就是散户情绪的晴雨表。 2019年底的时候，VOO规模大概1300多亿美元。不算小，但也不算特别夸张。然后2020年来了。 2026年4月18日，VOO成为全球第一只资产规模突破9000亿美元的ETF。进入那天的时候大概8940亿，标普500当天涨超1%，直接把它推过了线。 2026年初1月底的时候，大概8620亿。也就是说，短短两三个月，又涌进去将近400亿。 6年多时间，规模翻了将近7倍。股市确实涨了，VOO从2019年的295美元左右涨到现在630多，价格翻倍。但价格翻倍撑不起规模翻7倍。新钱涌入才是主力。更夸张的是资金流向。2026年至今，VOO已经净流入369亿美元，所有ETF里排名第一。而且这很可能是它连续第三年实现年流入超1000亿美元。分析师预计，按这个速度，2026年底前VOO可能成为全球第一只破1万亿美元的ETF。什么概念。疫情后这波新人，把VOO从2010年代初的冷门玩意儿，直接推成了全球散户的标配。以前买VOO的是些退休老头和机构配置，现在买VOO的是TikTok上刷到"定投致富"视频的二十几岁年轻人。 --- 那问题来了，2020年为什么成了分水岭。三个词。放水，撒钱，闲得慌。 2020年3月，美联储在半个月内连续两次紧急降息，直接把联邦基金利率从1%以上砍到0%到0.25%。同时宣布启动至少7000亿美元的量化宽松，买5000亿国债加2000亿抵押贷款支持证券。到了3月23日，更是直接升级为开放式购买，说要以支持市场平稳运行所需的金额来买，不设上限。零利率加无限印钞，这意味着什么。意味着钱突然变得超级便宜，而且到处都是。但这还不够。美国政府那边，CARES法案直接发钱，一轮又一轮的刺激支票打到每个人账上。 1200美元，600美元，1400美元，多轮轰炸。很多人收到的钱比失业前工资还高。哈佛商学院有篇研究，标题就叫《股市刺激》。他们算了笔账，8140亿美元的刺激资金里，大约有1000亿美元直接流进了股市。 72%的在线券商用户收到了刺激支票，其中一半人计划拿这笔钱去投资。收到前两轮支票后，散户持仓的股票在三周内暴涨15%到24%。刺激资金到账当天，相关股票就出现5%到7%的异常收益。财政刺激直接变成了股市燃料。这在以前从来没有过。以前政府放水，钱先流到银行，再到企业，最后才可能到股市。 2020年这波是直升机撒钱，直接撒到散户手里，散户转头就打开券商APP买股票。而且那时候还有个特殊背景，高通胀一起来，股票、房子、币全飞。钱放在银行里就是贬值，买房门槛太高，币圈太野，股市成了最容易看到暴富幻觉的地方。还有个特别重要的原因，封城把人锁出了炒股的时间。全球居民被关在家里，远程办公，上网课，外出花钱的地方全没了。体育比赛取消，赌场关门，连酒吧都去不了。大家手里攥着刺激支票加省下来的生活费，时间多得发慌。有个特别黑色幽默的细节。CNBC当时报道说，很多年轻人把体育博彩换成了股票交易。反正都是赌，不如赌个还能吹牛的。与此同时，开户门槛被踩到地板上。Robinhood在2020年用户数飙到1300万，很多是二十几三十岁的第一次交易者。fractional shares让10美元就能买苹果、亚马逊。各种券商APP把开户流程压缩到20分钟，比点外卖还快。研究者给这个现象起了个名字，叫无聊市场假说。免费交易加零碎股加疫情闲置加零门槛平台，四重buff叠加，造就了人类历史上最大规模的散户投机潮。 --- 但最恐怖的不是这些。最恐怖的是，现在坚持梭哈VOO、QQQ的那帮人，很多人连PE是什么都不知道。他们相信美股永远涨，相信十年财务自由，相信巴菲特都推荐标普500。但他们不知道的是，巴菲特推荐标普500的时候，它的中位数PE是15倍，不是22倍。巴菲特自己现在手握创纪录的现金，没有在定投。 2020年后进场的这批人，从来没有经历过一次真正的熊市。你知道什么叫真正的熊市吗。不是2022年那种跌了20%又V型反弹的调整。是真正的，持续一两年，指数腰斩，每天开盘就是跌，新闻里全是裁员和破产，你打开账户看到绿色都觉得陌生的那种熊市。这批新人没见过。他们见过的最大回撤，是2022年那几个月，然后市场就创了新高。这让他们形成了一种信念，叫跌了就买，买了就涨。这种信念在牛市里是对的，在熊市里是致命的。 --- 我跟你说个更细思极恐的事。现在标普500的估值结构，其实是极度扭曲的。市值加权的整体PE接近32倍，但等权重的PE只有22倍左右。这10倍的差距，全靠那几家巨头撑着。 2026年有个特别有意思的现象，等权重标普500 ETF，代码RSP，年初至今涨了5%以上，而市值加权的标普500指数几乎没涨。这说明什么，说明市场宽度在改善，资金开始从巨头往外流。但问题是，如果巨头开始跌，而中小企业撑不起来，指数会怎么走。历史上有过类似的时刻。2000年互联网泡沫的时候，思科、微软、英特尔这几家也是占指数权重极高，PE高得离谱。然后泡沫破了，指数跌了将近50%，花了十几年才回到高点。我不是说现在就是2000年。但历史不会简单重复，它会押韵。 --- 回到开头那个朋友。我跟他说完这些，他沉默了一会儿，然后说，那我现在应该停止定投吗。我说，我没法替你做决定。但你要知道自己在做什么。定投本身没问题，问题是你在什么位置、什么估值、什么市场结构下做定投。如果你2020年开始定投，你现在收益率很好看，因为你是从山脚开始爬的。但如果你现在才开始，或者才投了没多久，你可能正在山顶附近开始。不是说山顶不能继续涨，而是说，如果跌下来，你得有心理准备。他说，那如果我现在停，后面继续涨，我不是踏空了吗。我说，踏空不会死人，套牢会。而且你仔细想想，你现在怕踏空的心态，是不是跟2021年那些怕错过比特币的人一模一样。他又沉默了。 --- 其实写这篇文章，不是想唱空美股，也不是想吓唬谁。我只是觉得，现在市场上有一种特别危险的集体幻觉。就是所有人都觉得，只要定投标普500，十年以后就能财务自由。标普500确实是长期定投的好标的，历史数据也支持这一点。但前提是，你在合理的估值开始投，而且中间经历几次完整的牛熊周期，心态不会被震碎。现在的问题是，一大半相信这个信念的人，是在2020年以后才进场的。他们没有经历过完整的周期，他们的信念建立在一段史无前例的牛市和放水基础上。定投没错，标普500也没错，但不知道自己买在什么位置，就有问题了。鬼故事最可怕的地方，不是鬼本身，是你根本不知道鬼就在你身后。规划好自己的资金，且明白在什么位置投入多少钱，才是真谛！

看不懂的SOL@DtDt666

我说了在支付宝买美股基金不丢人。。。但丢人的是，买了半天不知道自己买的是什么建信新兴市场混合一天涨12.43%，兄弟们都吃爽了，押注存储、AI算力、光通信，重仓三星、海力士、英伟达、台积电、康宁。表现很猛。很多兄弟问：但支付宝上关于纳斯达克的基金，名字都差不多，到底有啥区别呢？第一类：市场基准型代表：纳斯达克100ETF联接、纳斯达克100指数。目标只有一个：复制指数表现，不做任何主观判断。跟踪的是纳斯达克100指数，100家最大的非金融公司苹果、微软、英伟达这些科技巨头在里面。星巴克、可口可乐这些消费股也在里面。 ETF联接和指数基金，本质一样，手段不同。 ETF联接是间接投资，先买海外上市的ETF。指数基金更直接，可能直接买成分股。对投资者来说，结果差不多，都是跟着指数涨跌。收费低，透明度高，适合不想操心的。第二类：主动管理型代表：纳斯达克精选股票关键词是精选。基金经理自己挑股票，不跟踪任何指数。看的是自己的研究、判断、眼光。目标是打败市场，比指数涨得更多。可能远超指数，也可能大幅跑输。完全取决于基金经理的能力。收费比被动基金高，因为有人替你操心。适合相信基金经理比自己强的。第三类：策略增强型代表：纳斯达克科技市值加权ETF联接。也是跟踪指数，但不是传统宽基指数。是在纳斯达克100的基础上，再套一层筛选规则。科技两个字意味着，非科技行业的公司被剔除了。星巴克、可口可乐这些消费股，不要了。只留下纯粹的科技企业。更集中，更纯粹，波动也更大。涨的时候比纳指100涨得多。跌的时候也比纳指100跌得狠。适合看好科技赛道、能承受波动的。 ---- 兄弟要明白支付宝上的美股基金，名字都差不多，但底层逻辑完全不同。被动型适合懒人，主动型适合相信基金经理的，策略型适合看好单一赛道的。没有哪种更好，只有哪种更适合你。但前提是，你得先搞清楚自己买的是什么。不然跟闭着眼睛下注，没区别。

中文

184

260

1.4K

631.2K

sunforever retweeté

猫神@maoshen·11 May

这段话网上泛滥，原来出自彪哥之口啊👍😂

中文

575

118.4K

sunforever retweeté

Roland.W@rwayne·10 May

PhD 怎么读这事，浙大大佬直接把答案丢到 GitHub 上了。覆盖入门、找题、做实验、跟导师开会、项目管理、写作、rebuttal、汇报 slides 整套科研生命周期。3D Vision 方向的 getting_started 文件直接能当新人手册，配套挂了 GAMES003 课程的全部 slides 和视频。作者一句话概括，好 PhD 先定一个有重大科学和实践价值的长期目标，再倒推 roadmap。剩下五个章节都是把这句话拆成可以照做的步骤。想少走弯路的 PhD，先去这个仓库蹲一周

中文

163

847

65.5K

sunforever retweeté

AYi@AYi_AInotes·9 May

说实话，Garry Tan 这篇长帖，是我今年看到的最重要的 AI 文章，没有之一。大多数人看完估计只会惊叹：“哇，这个读书工具好厉害。” 但他们其实并没看懂，这不仅仅是一个工具，说是一份 AI 时代个人能力的指数级放大说明书更合适一些。先看那个最震撼的案例： Book Mirror。把一本 162 页的书扔进去，40 分钟后，产出 3 万字的深度脑页。注意，这可不是普通的读书笔记，而是要把作者的每一个观点，都精准映射到他自己的人生里—— 他的家庭历史、YC 工作、治疗笔记、和几百个创始人的对话。相当于这本书的作者专门花了两天时间，只和他一对一深聊，并且只聊和他最相关的那部分。比 $300/小时的治疗师高效 50 倍以上，而且这已经远远超越普通 RAG。普通 RAG 只能检索，

Garry Tan@garrytan

x.com/i/article/2052…

中文

288

1.3K

463.5K

sunforever retweeté

思维怪怪@0xLogicrw·8 May

OpenAI 后训练核心成员翁家翌（Jiayi Weng）以个人名义提出了一种名为「启发式学习」的强化学习新范式，并开源了全部实验代码。他用 Codex（GPT-5.4）反复玩 Atari 打砖块游戏，但 GPT-5.4 自始至终没有被重新训练过。真正在进步的，是 GPT-5.4 写出来的那套游戏策略代码。流程是这样的：GPT-5.4 先写一版打砖块的 Python 策略，跑一局，看录像，找出哪里打丢了球，然后自己改代码再跑。经过几轮迭代，策略代码从 387 分涨到了 864 满分。全程没有任何神经网络被训练，纯靠 AI 反复修改 if-else 规则、调落点预测、加死循环检测。最终那套代码包含球路预测器、卡球检测器、回归测试和实验日志，已经长成了一个完整的软件系统。这和传统强化学习的核心区别在于「学到的东西存在哪」。传统做法把知识压进神经网络参数里，人看不懂，学新任务还容易把旧的覆盖掉（即灾难性遗忘）。翁家翌的做法反过来：知识就是代码，人能读、能改、能加测试锁住，不会因为学新东西就丢了旧本领。除了打砖块满分，他还在 MuJoCo Ant（模拟机器蚂蚁走路）上跑出超 6000 分的深度强化学习级成绩，在 Atari57 全套 57 个游戏上逼近了 PPO 基准。但翁家翌也明确画了边界：纯代码搞不定复杂感知任务，比如用 Python 写 if-else 去认图片。他设想的终局是混合架构：底层用轻量神经网络负责视觉等感知，中层用启发式学习处理实时逻辑和安全规则，顶层由大模型审查日志、改代码，再周期性地用底层积累的高质量数据更新自身。过去手写规则之所以被淘汰，不是因为规则没用，而是人类维护不起。现在 AI 写代码够快够好，这条老路重新走得通了。

Jiayi Weng@Trinkle23897

Codex grew programmatic policies with no neural nets: max score on Breakout, and SOTA-level scores on MuJoCo. Maybe heuristics were not too weak. Maybe they were just too expensive to maintain. Maybe it's the next paradigm. trinkle23897.github.io/learning-beyon…

中文

226

1.5K

342K

sunforever retweeté

Jason Zhu@GoSailGlobal·5 May

Stanford CS336 上，Tatsu 讲了一节 LLM 架构课，把过去 3 年所有主流 LLM 拆开，看它们的共通模板结论挺爆：90% 的架构选择已经收敛，你随便挑一个开源大模型，它跟其他模型在这些维度上几乎一模一样讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」下面是 2026 年开源 LLM 的标准模板你训自己的模型可以直接抄【架构层已经收敛的 7 件事】 1）Layer Norm 挪出残差流（pre-norm）原版 Transformer 把 LN 放在残差里几乎所有现代模型都挪到外面原因：keep your residual stream clean 梯度反传更稳 2）RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙丢掉之后 flops 只省 0.17% 但运行时省到 25% （瓶颈在数据搬运计算反而次要） 3）所有 bias 项全删跟 RMS Norm 一个道理系统层省内存搬运 4）激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系（Gemma / T5）用 GeGLU 区别极小选哪个都行 5）位置编码用 RoPE 2024 年之后基本统一了原理：把每对维度按位置旋转一个角度让 inner product 只依赖相对位置 6）Transformer block 串联（不是并联） GPT-J / Palm 试过并联现在基本被放弃串联的实现优化得太好了并联省的那点系统开销不值得损失表达力 7）Layer norm 可以「撒」哪儿不稳就在哪儿加 LN attention 之前能加之后能加两边都加（double norm）也可以现代模型很多这样做【超参数已经收敛的 5 个数】 1）feedforward 维度 / hidden 维度 - 非 GLU 模型：4 倍 - GLU 模型：8/3 ≈ 2.67 倍（因为 GLU 多一组矩阵要保持总参数量） - Llama 系：3.5 倍 - T5 1.0 试过 64 倍后来 T5 1.1 改回标准别学 2）head 数 × head 维度 ≈ hidden 维度几乎所有模型都遵守 T5 是为数不多的例外 3）模型纵横比（hidden / 层数）≈ 100 太深 pipeline parallel 难做太宽表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4）vocab size 单语模型：30K 左右（早期 GPT-2 那种）多语 / 通用模型：100K-200K（GPT-4 / Llama 3 / Gemma 都在这个范围）现代基本都是后者 5）weight decay 仍然普遍使用但研究发现它在 LLM 里干的事其实是优化器干预让你最终能收敛到更深的最优点跟你想的「防过拟合」没什么关系所以别因为「单 epoch 不会过拟合」就把它关掉【稳定性三个救命 trick】训练大模型最怕中途 loss 突然飙升然后 NaN 全军覆没现代模型用三个 trick 防这件事 1）Z-loss output softmax 的 normalizer 容易爆加一个 (log Z)² 的正则项让 Z 始终接近 1 DCLM / Olmo 都用 2）QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来现在所有大模型都加 3）Logit soft cap（仅 Google 系） attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用但会损失一点点性能慎用【Attention 两个新趋势】 1）GQA（Grouped Query Attention）几乎统一原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失推理成本砍掉 80% 现在所有要做生产部署的大模型没有不用 GQA 的 2）局部 + 全局 attention 交替处理长上下文的新方式 Cohere Command A 起头现在 Llama 4 / Gemma 4 / Olmo 3 全在用比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳比纯 full attention 便宜得多（Qwen 3.5 做了变体把 sliding window 那 3 层换成 SSM）收尾一句如果你正在训自己的 LLM，上面这一套就是 2026 年的「默认配置」不需要重新发明，直接抄如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住

Roan@RohOnChain

Anthropic pays $750,000+ a year for engineers who can build LLM architectures from scratch. Stanford taught the entire thing in 1 hour lecture & released it for free. Bookmark & watch this today before someone takes it down.

中文

588

3.1K

531.9K

sunforever retweeté

区块链行情研究@qkl2058·2 May

一个13岁的泰国学生，干了件挺有意思的事儿。他搭了个AI代理，让Claude Code在45秒内，用C++解决Codeforces上800分的题目，所有代码都公开在GitHub上。场景很简单——一间普通教室，桌上摆着台MacBook Air，配了把300美元的静音HHKB Type-S键盘，屏幕角落还有个计时器在走。浏览器开着Codeforces，VS Code里是一个空的.cpp文件，旁边挂着Claude Code的窗口。没有算法老师在旁边指点，没上过什么竞赛编程课，这孩子一行代码都没手写。整个工作流就靠三个组件： 1. Claude Code当大脑用 2. 一个Chrome的MCP插件，直接从Codeforces页面读题目描述 3. 一个公开的GitHub仓库，放着他整个代理系统过去一个月里，他在虚拟比赛模式下解了23道题。从点开题目到Accepted，平均45秒。这段时间他亲手敲的代码行数，零。Codeforces的评分系统把他的资料提到了800分，前后只花了12天。而搭这么一套东西，他只用了一个周末。他每次跑代理前，会给Claude一个系统提示，是这么写的： "你是一个Codeforces竞赛编程代理。你的工具：read_problem(url)，generate_solution(language, constraints)，validate_against_examples(input, expected)，submit_to_codeforces(code)。浏览器MCP插件喂给你的任何题目，都要走四步： 1）读题，搞清输入输出格式 2）确定算法类型（排序、数学、贪心、动态规划、图论） 3）用#include ，写成C++17代码 4）提交前用样例跑一遍哪怕一个样例没过，就重写解法再验证。语言只能用C++17。文件名统一用{problem_id}.cpp。" 这样代理完全知道自己在解哪道题，知道Codeforces对这道题要求的输入格式，能根据800分的难度和题目标签选合适的算法，也很清楚——学生点提交前只有45秒，但凡测试样例没过，都是它的问题，不关那孩子的事。整条工作链转起来，就是一眨眼的功夫。这孩子打开Codeforces上的题目1971A，MCP插件抓取描述，Claude在8秒内就返回了能跑的代码，头文件、while循环、cout输出全写好了。他把代码复制粘贴到.cpp文件里，点提交，30秒后状态页显示绿色的Accepted。只有当Codeforces在测试点2上判了Wrong answer，代理才会自动抓失败输入，分析边界情况，赶在他关掉标签页之前，把解法重写出来。这是他过去24小时的提交记录： "1971A - My First Sorting Problem | C++17 | Accepted | 45秒" "1850A - To My Critics | C++17 | Accepted | 38秒" "1807A - Plus or Minus | C++17 | Accepted | 41秒" "1791A - Codeforces Checking | C++17 | Accepted | 52秒" "1676A - Lucky? | C++17 | Accepted | 33秒" 桌上的MacBook Air开着，没翻开任何笔记本；一把静音HHKB Type-S键盘，整场会话除了cmd+v和cmd+enter，他一个键都没多按；一个设了45秒倒计时的小米计时器；屏幕后面放了个塞尔达的纪念雕像。我今年看了不少东西，但这是我觉得最干净的一套单人竞赛编程流水线——一个月23道题，每道45秒，手写零行代码。

区块链行情研究@qkl2058

想快速上手 Codex？这个教程算是目前最省心的一份了。从头到尾三十八分钟，零基础直接跟，手把手带你把这套工具用明白。多版本怎么装、语音对话、从 GitHub 上拉项目、插件配置、MCP 对接、自动化测试，还有搭建工作流，这些实操环节全都有。全程用的都是最新版本，纯中文讲解，讲得通俗，不绕弯子，新手也能一遍看懂、上手就用。

中文

440

3.3K

880.4K

sunforever retweeté

huangserva@servasyy_ai·1 May

这个也太屌了！这个中国开发者在飞机上用 MacBook 本地跑 Llama 70B，整整 11 小时没有网络，处理了完整的客户项目。他坐在跨大西洋航班的靠窗位置，设备是 MacBook Pro M4，64GB 内存。机上 WiFi 要价 25 美元，他拒绝了。没有云端 API，没有连接 Anthropic 或 OpenAI 的服务器，完全没有互联网。只有一台本地运行的 Llama 3.3 70B（bf16）和他自己写的编排脚本。模型通过 llama.cpp 运行。生成速度 71 tokens/秒，上下文约 60,000 tokens，内存占用 48.6 GiB / 64 GiB，起飞时电池剩余 3 小时 21 分钟。起飞前他给编排器写了这样的系统提示： "你是一个运行在单台 MacBook 上的离线编排器。没有网络。你唯一的资源是 /Users/dev/work 下的本地文件、localhost:8080 的 Llama 70B 推理服务，以及 3 小时 21 分钟的电池预算。处理 /Users/dev/work/queue.jsonl 中的任务队列（每行一个客户任务）。对每个任务：起草 → 运行本地评估 → 保存产物到 /Users/dev/work/done/。每 12 个任务保存一次上下文检查点，以便更换电池后恢复。仅在队列为空或电池低于 5% 时停止。" 所以这个系统完全清楚自己运行在什么资源上。它知道自己未来 11 小时没有外部连接。它知道自己的内存和电池都是有限的。它知道在飞机降落之前不会有人类介入。系统跑在一个循环里。从队列取任务，推理，保存产物，写检查点。一个接一个。当电池低于 5% 时，编排器自动暂停，等待笔记本切换到备用充电宝，然后从最后一个检查点恢复。这是系统在飞行中的日志： "saved context checkpoint 8 of 12 (pos_min = 488, pos_max = 50118, size = 62.813 MiB)" "restored context checkpoint (pos_min = 488, pos_max = 50118)" "prompt processing progress: n_tokens = 50 / 60818" "task 37016 done | tps = 71 s tokens text → /Users/dev/work/done/proposal_westside.md" 窗外是云层、蓝天，没有 WiFi。托盘上是一台 MacBook，一个打开的终端，两个屏幕，一个 localhost 推理服务。这是过去一年里我见过的最漂亮的离线 AI 工作流： 11 小时飞行，WiFi 费用 0 美元，所有客户队列在降落前全部清空。这个故事的核心不是技术多牛（llama.cpp 跑 70B 现在很常规），而是一个完整的离线自主工作流，编排器理解自己的资源约束，自动管理电池和检查点，没人干预干了 11 小时。这种"self-aware computing"的感觉确实挺酷的！

Blaze@browomo

This Chinese developer launched Llama 70B locally on a MacBook on a plane and for a full 11 hours without internet ran client projects. He was sitting by the window on a transatlantic flight with a MacBook Pro M4 with 64 GB of memory. WiFi on board cost $25 for the flight. He declined. No cloud API, no connection to Anthropic or OpenAI servers, no internet at all. Just a local Llama 3.3 70B on bf16 and his own orchestrator script. The model runs through llama.cpp. Generation speed, 71 tokens per second. Context around 60,000 tokens. Memory usage, 48.6 GiB out of 64. Battery at takeoff, 3 hours 21 minutes. And he gave the orchestrator this system prompt before takeoff: "You are an offline orchestrator running on a single MacBook. There is no network. The only resources you have are local files in /Users/dev/work, the Llama 70B inference server at localhost:8080, and a battery budget of 3 hours 21 minutes. Process the queue at /Users/dev/work/queue.jsonl (one client task per line). For each task: draft → run local evals → save artefact to /Users/dev/work/done/. Save context checkpoints every 12 tasks so you can resume after a battery swap. Stop only on empty queue or when battery drops below 5%." So the system knows exactly what resources it is running on. It knows it has no connection to the outside world for the next 11 hours. It knows it has finite memory and a finite battery. It knows the human will not intervene until the plane lands. The system runs in 1 loop. Takes a task from the queue, runs it through inference, saves the artifact, writes a checkpoint. Task after task, just like that. And only when the battery drops below 5% does the orchestrator automatically pause, waits for the laptop to switch to the backup power bank, and continues from the last checkpoint. Here is what the system actually writes in his log during the flight: "saved context checkpoint 8 of 12 (pos_min = 488, pos_max = 50118, size = 62.813 MiB)" "restored context checkpoint (pos_min = 488, pos_max = 50118)" "prompt processing progress: n_tokens = 50 / 60 818" "task 37016 done | tps = 71 s tokens text → /Users/dev/work/done/proposal_westside.md" Outside the window, clouds, blue sky, and no WiFi. On the tray, 1 MacBook, an open terminal on 2 screens, and an inference server on localhost. From what I have observed, this is the cleanest offline AI workflow I have seen in the past year: 11 hours of flight, $0 for WiFi, and the entire client queue closed before landing.

中文

121

242

1.5K

523.7K

sunforever retweeté

AI Will@FinanceYF5·2 May

Science Blog 新文章：Anthropic给 Claude 出了 99 道真实生物数据分析问题，并把它的表现与专家小组进行了对比。其中有 23 道题连专家都被难住了。他们最新的模型解决了其中约 30%，并且也解决了其余大多数问题。

中文

3.4K

sunforever retweeté

歸藏(guizang.ai)@op7418·1 May

吴恩达新课，26 年的 AI 提示已经和 23 年有很大的不同所以他开了一门的新的提示工程课程

Andrew Ng@AndrewYNg

How we prompt AI is very different in 2026 than 2022 when ChatGPT came out. I'm teaching a new course, AI Prompting for Everyone, to help you become an AI power user — whatever your current skill level. It covers skills that apply across ChatGPT, Gemini, Claude, and other AI tools. How to use deep research mode for well-researched reports on complex questions. How to give AI the right context, including more documents and images than most people realize you can provide. When to ask AI to think hard for several minutes on important decisions like what car to buy, what to study, or what job to take. And how to use AI to generate images, analyze data, and build simple games and websites. I also cover intuitions about how these models work under the hood, so you know when to trust an answer and when not to. Along the way, you'll see flying squirrels, a creativity test, some of my old family photos, and fireworks. Join me at deeplearning.ai/courses/ai-pro…

中文

330

75.2K

sunforever retweeté

Huan@Huanusa·2 May

这套Claude Code教程讲得太细了新手完全能听懂并且直接落地！静下心看完这一套完整教程，你就能真正用AI搭建工作流、实现自动化、处理复杂任务。在国内这种质量的课，收费398、598元估计还有一大堆人抢着买…… 现在免费就能学到！适合想用AI提升效率、搭建自己专属Agent、自动化日常工作的朋友。看完直接上手，少走很多弯路。

Huan@Huanusa

史上最全！8个免费视频下载工具，基本覆盖主流平台！ 🔥 以后刷到好视频，直接保存再也不用愁了，无广告、不追踪、纯工具属性拉满： 1️⃣ 抖音/小红书视频图片：savetik.co 2️⃣ 推特视频：x2twitter.com/zh-cn 3️⃣ YouTube 下载：v6.www-y2mate.com 4️⃣ YouTube 字幕提取：downsub.com 5️⃣ 多平台通用神器：cobalt.tools 6️⃣ 国内聚合下载狗：xiazaitool.com 7️⃣ 1000+站点支持：snapany.com（有Chrome插件，网页自动嗅探） 8️⃣ YouTube/Twitter/FB等：9xbuddy.com（粘贴链接即下，零门槛）这些工具覆盖YouTube、Twitter、TikTok、Instagram、Reddit、SoundCloud等几十个平台，基本一网打尽。快收藏！以后留素材、存视频、提取字幕都方便多了。

中文

114

789

3.1K

361.7K

sunforever retweeté

GitHubDaily@GitHub_Daily·2 May

搞医学研究的朋友应该深有体会，从文献检索、方案设计到数据分析、论文写作。每个环节都想借助 AI 提效，但普通 AI 缺乏严谨的医学逻辑，用起来总觉得不太靠谱。最近看到 AIPOCH Medical Research Skills 这个项目，提供了 500 多个专为医学研究设计的 AI 智能体技能库。它把医学研究拆成证据洞察、方案设计、数据分析、学术写作四大模块。每个技能都内嵌了专业的医学研究逻辑，比如文献真实性约束、研究类型识别等。 GitHub：github.com/aipoch/medical… 技能之间可以自由组合，从单任务执行到多步骤流水线都能搭建。还提供一套质量评估框架，会在技能上线前进行全面的质量审核，确保输出的可靠性。如果你正在用 AI 辅助医学研究，这个技能库值得试试，目前还在持续更新中。

中文

9.9K

sunforever retweeté

Jason Zhu@GoSailGlobal·2 May

x.com/i/article/2050…

ZXX

176

210.7K

sunforever retweeté

Jason Zhu@GoSailGlobal·2 May

吴恩达 2026 年新课《AI Prompting for Everyone》21 节看完，提炼最值得抄的 6 条： 1️⃣ 新手和高手差 5-10 倍产出，差在 4 个维度：问题难度、上下文、是否引导、写作流程 2️⃣ 信息获取分 3 层：pretrained / web search / deep research 复杂任务用 deep research 比手刷网页快几十倍 3️⃣ Context 窗口能塞 75 万字（≈ 哈利波特前 4-5 本）换话题就开新对话防污染 4️⃣ 忘掉 "Let's think step by step"，现在直接说 think hard 或 ultrathink 模型自己知道展开多少推理 5️⃣ ChatGPT 同意你的频率比不同意高 10 倍反 sycophancy 4 招：中性提问 / 给评分卡 / 别埋偏见 / 列双方案 6️⃣ AI slop 4 大特征：滥用破折号、delve/nuanced、三人组排比、空洞 not X but Y 写作走渐进式大纲（出大纲 → bullet → 正文），不要让 AI 直接写正文完整课程免费：learn.deeplearning.ai/courses/ai-pro…

Jason Zhu@GoSailGlobal

x.com/i/article/2050…

中文

337

253K

sunforever retweeté

Gene Investing w/Anthony 🧬@GeneInvesting·2 May

This was surprising to me… And I haven’t noticed anyone bring this up yet… $NTLA “Almost none” to me signals that possibly only the 1 patient with a secondary condition was continuing to carry on-demand therapy. The doctor pushed back after this clip by saying doctors will continue advising patients to carry on-demand just in case (which I agree with, at least for the next few years). But crazy eye opening that Ph. 1/2 patients are not even carrying on-demand anymore 🤯

English

3.1K

sunforever retweeté

Oliver Venture@_OliverVenture·2 May

$NTLA - "Tincture of Time" — hypervigilance when an HAE patient drops their prophylactic med is expected! They're trained to use on-demand at the first twinge and in a trial a twinge counts as an attack — super subjective! But...once a patient knows they've received what amounts to be largely a functional cure — they're more likely to ride out a twinge. The relevant attack rate isn't the time before that realization, but after! I'm not sure why we have to pretend otherwise. - Irreversibility is a feature, not a bug. - Patients can still use on-demand solutions in the case of a rare breakthrough attack. The value prop is the permanent abandonment of the incredibly expensive prophylactic therapy they previously relied on (and its associated burdens).

Gene Investing w/Anthony 🧬@GeneInvesting

There is a reason Wedbush is in my Top 3 for worst biotech analysts of all time.. $NTLA I’ll say this one more time: NO HAE PATIENT GIVES A SHIT AT WHAT THE BLINDED PERIOD SHOWS “We continue to view the inability to discontinue dosing… a commercial limitation…” WTF 🤬 ZERO patients went back to their prophylactic medication once allowed to after Week 28 and safety was essentially perfect. The month of Week 36 saw 32 patients experience a total of 1 attack. Baseline values would’ve expected ~112 attacks per month (a 99.1% decrease in attacks). Does Wedbush understand how to look at data? Or do they just use AI to sift through surface level information 🤷🏻‍♂️ “Nierengarten kept his neutral rating and 12 price target on Intellia stock.”

English

2.1K

Découvrir

@Tsinghua_Uni @Harvard @Kevin_GuoweiXu @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates