yeshu

844 posts

yeshu

@yeshu_in_future

🚶Always be curious about new things.

Katılım Kasım 2015

365 Takip Edilen480 Takipçiler

yeshu@yeshu_in_future·3d

@thomsonYang_147 最好的 token 能做的事情和质量已经远远超出前几年的想象了

中文

Thomson@thomsonYang_147·5d

以前都说是 AI 提高生产力，区块链改变生产关系 AI 对于生产关系的改变，可能被低估了这种冲击让人感觉一个全新的世界即将到来给人的兴奋感就像当初的比特币

Thomson@thomsonYang_147

最近对于 ai 的认识不断更新，花了点时间把一些工作流程用 AI 重构了一遍。最核心的转变是：AI 工具 => AI 主导 + AI 自迭代现在 AI 已经接管了团队的所有东西。包括代码、服务器、数据库、交易策略、甚至公司规划、人员信息、合同等关系上我们已经变成 AI 的辅助，为它提供更好的信息和工具

中文

590

yeshu@yeshu_in_future·26 Oca

@fkysly 人脑很容易过载，而且很难并行

中文

369

马天翼@fkysly·26 Oca

感觉 AI 没有解放双手，AI 反而让我更累了

中文

10.6K

yeshu retweetledi

Boris Cherny@bcherny·2 Oca

I'm Boris and I created Claude Code. Lots of people have asked how I use Claude Code, so I wanted to show off my setup a bit. My setup might be surprisingly vanilla! Claude Code works great out of the box, so I personally don't customize it much. There is no one correct way to use Claude Code: we intentionally build it in a way that you can use it, customize it, and hack it however you like. Each person on the Claude Code team uses it very differently. So, here goes.

English

1.3K

54.5K

8.1M

yeshu@yeshu_in_future·31 Ara

一个普通人充满变化的 2025 年。 yeshu.cloud/posts/annual-s…

中文

yeshu@yeshu_in_future·18 Kas

尝试了一下灵光，排版效果、响应速度、图表增量加载+可交互体验很好，加上可以想象的背靠蚂蚁的语料积累，在金融问答上是目前接触到综合体验最好的AI 产品了。如果将来能支持更长时间的深度研究任务就好了

中文

340

yeshu retweetledi

Andrej Karpathy@karpathy·21 Eki

I quite like the new DeepSeek-OCR paper. It's a good OCR model (maybe a bit worse than dots), and yes data collection etc., but anyway it doesn't matter. The more interesting part for me (esp as a computer vision at heart who is temporarily masquerading as a natural language person) is whether pixels are better inputs to LLMs than text. Whether text tokens are wasteful and just terrible, at the input. Maybe it makes more sense that all inputs to LLMs should only ever be images. Even if you happen to have pure text input, maybe you'd prefer to render it and then feed that in: - more information compression (see paper) => shorter context windows, more efficiency - significantly more general information stream => not just text, but e.g. bold text, colored text, arbitrary images. - input can now be processed with bidirectional attention easily and as default, not autoregressive attention - a lot more powerful. - delete the tokenizer (at the input)!! I already ranted about how much I dislike the tokenizer. Tokenizers are ugly, separate, not end-to-end stage. It "imports" all the ugliness of Unicode, byte encodings, it inherits a lot of historical baggage, security/jailbreak risk (e.g. continuation bytes). It makes two characters that look identical to the eye look as two completely different tokens internally in the network. A smiling emoji looks like a weird token, not an... actual smiling face, pixels and all, and all the transfer learning that brings along. The tokenizer must go. OCR is just one of many useful vision -> text tasks. And text -> text tasks can be made to be vision ->text tasks. Not vice versa. So many the User message is images, but the decoder (the Assistant response) remains text. It's a lot less obvious how to output pixels realistically... or if you'd want to. Now I have to also fight the urge to side quest an image-input-only version of nanochat...

vLLM@vllm_project

🚀 DeepSeek-OCR — the new frontier of OCR from @deepseek_ai , exploring optical context compression for LLMs, is running blazingly fast on vLLM ⚡ (~2500 tokens/s on A100-40G) — powered by vllm==0.8.5 for day-0 model support. 🧠 Compresses visual contexts up to 20× while keeping 97% OCR accuracy at <10×. 📄 Outperforms GOT-OCR2.0 & MinerU2.0 on OmniDocBench using fewer vision tokens. 🤝 The vLLM team is working with DeepSeek to bring official DeepSeek-OCR support into the next vLLM release — making multimodal inference even faster and easier to scale. 🔗 github.com/deepseek-ai/De… #vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning

English

560

1.6K

13.3K

3.3M

yeshu@yeshu_in_future·2 Eki

@thomsonYang_147 少了个 3🤣

中文

139

Thomson@thomsonYang_147·2 Eki

招募智能合约开发（实习生也招）链上套利团队岗位职责: 1. 负责 Web3 Dex、跨链桥对接，并提供对外开源服务（github） 2. 参与对链上交易数据解析，以及离线数据分析 4. 参与公链 rpc 节点搭建任职要求： 1. 熟悉使用 Solidity、Node.js、Ethersjs、Foundry 等语言和框架 2. 熟悉公链技术生态，熟悉常见 DeFi 协议（dex、lend、bridge） 3. 具备良好的学习能力和自驱力。有写博客习惯或参与 github 项目加分 4. 熟练使用 AI 工具和英语读写加分邮箱: thomsonyang147@gmail.com

中文

1.5K

yeshu@yeshu_in_future·10 Ağu

看来团队对隐私数据的敏感度挺低的。点对点分享的数据，变成在互联网上公开可见，产品方和用户方的预期是不一致的，权限范围界定不够清晰。当然，这个场景可能不需要像我们之前做协同文档的时候那么苛刻。但至少在分享的时候，可以加个提示，不是吗？

沉浸式翻译@immersivetran

@GnuDoyng 非常感谢您关注沉浸式翻译，关于您说的隐私问题，已经有谷歌seo专家做了分析，如果您有时间的话，可以看一下这个链接：x.com/gefei55/status…

中文

215

yeshu@yeshu_in_future·13 Haz

@thomsonYang_147 +1

Thomson@thomsonYang_147·11 Haz

币安 Alpha 我也毕业了 🤣 之前资金费率套利，有个 1w u 的白嫖机制，知道得早，但是没有朋友的执行力（他搞了大几百个子账号） Alpha 这个执行力拉起来了，但是窗口期太短。学到了点经验下次再接再厉。总会有机会是属于我的

中文

439

yeshu@yeshu_in_future·3 Haz

@thomsonYang_147 我就俩号，手动刷一刷

中文

Thomson@thomsonYang_147·2 Haz

自己也要刷 alpha，有个工具方便点。对接交易过程遇到的坑远比想象的多。也学到了不少东西最近要到期的交易竞赛，merl 明天截止，现在上榜金额 11 万，预计明天结束的时候要 15 万上榜。奖励大概 110u。用工具刷，成本控制在万5以内，成本 75u 单号能赚个 30u，猪脚饭

Thomson@thomsonYang_147

banzhuan.plus 搞了个 alpha 代币自动卖出刷量的工具。欢迎大家试用一下。目前支持特性 1. 卖出 alpha 后自动卖出 2. 平均磨损万 4。包含池子手续费、用户 gas 费。预计两天后会进一步降低到万 3 以内 3. 60% 交易 0 区块，30%交易+1区块完成。使用了 blockrazor 商业服务，全球多节点部署

中文

771

yeshu@yeshu_in_future·24 Şub

云南是个好地方，下次还去 yeshu.cloud/posts/newslett…

中文

203

yeshu@yeshu_in_future·6 Şub

早上被老板电话叫醒瞬间进入工作状态😭回京就感觉自己班味儿上身了。不过发现了一笔年前的意外之财，开心

中文

242

yeshu@yeshu_in_future·31 Oca

第一章：数据尸体

中文

yeshu@yeshu_in_future·31 Oca

写作小白和 deepseek 创作万字悬疑短篇我负责世界观，deepseek R1 帮我完善细节并搭建章节大纲，协力完成了小说的第一章。 markdown 转图片导出使用的自研小工具。

中文

447

yeshu retweetledi

fin@fi56622380·27 Oca

看了下DeepSeek论文，做了点笔记和思考 DeepSeek降低训练成本会不会让算力需求下降？看历史就知道了，GPT4级别token价格在一年半之内降低了100~1000倍，也没有类似的担忧(如图) AI算力通缩是必然现象，长线旋律就是十年加速六个数量级：软件/算法加速三个数量级，硬件加速三个数量级 ------------------------------ 先从DeepSeek R1论文本身说起 Deepseek本身并没有像chatgpt o1那样做test time scaling获得更强推理能力，属于post-training后训练范畴，看起来和chatgpt o1不是一个路子(o1是推理的时候专门扩大“思考步骤”或“搜索过程"再挑出最优，推理时耗费比o4高几个数量级)，只不过在benchmark/推理水平上达到了相同的水平所以从推理token价格来说，deepseek和o1比降低了27倍也是合理的。 DeepSeek-R1 是在 “DeepSeek-V3-Base” 这个预训练好的模型上进行 RL强化学习，reward机制是基于规则的奖励(rule-based reward system)，而不是普遍使用的过程奖励process neural reward model或者靠纯结果outcome 规则奖励分两个部分： • 准确性奖励（Accuracy Reward）：对于有确定答案的问题，评估模型生成的答案是否正确。 • 格式奖励（Format Reward）：确保模型在回答中遵循指定格式，比如说推理过程最终答案可能是因为对推理过程有规则奖励，也“涌现”出了生成推理过程的“顿悟时刻（Aha Moment），模型自己生成的CoT过程越来越长，还学会了反思(reflection)，和自我纠错和exploration探索举动，这都是提高推理能力的普遍过程 DeepSeek-R1主要贡献是证明 LLM 可以在无监督数据的情况下，通过强化学习RL提高推理能力通过这个“规则奖励”以及GRPO，不需要大量人工编写/标注复杂的 CoT 数据来提高推理能力，直接把模型推理能力提高到o1水平，同时成本还很低 ----------------------- 为什么这个RL提升推理能力的方法以前没人试过呢？其实两年前就试过了(伯克利)，但当时只有LLAMA第一代模型能力不足，GSM8K跑分都非常低，推理和数学能力太低。那个时候LLAMA2-HF效果好得多，因为在预训练语料里已经有一些CoT的文本，所以后来的RL可以直接利用并强化这些“人类式思考”的片段，而早期模型往往生成的推理过程非常混乱。另外早期基准（GSM8K等）太简单，模型可能能“轻松”地蒙中答案、或者通过一些相对简单的做法就拿到高分。当任务足够难，模型只有先探索/反思/纠错，才能更稳定地拿到正确解答，RL才会往这个方向去“逼”模型学会更复杂的思维过程 ----------------------- 还有一个scalable的问题很重要，DeepSeek-R1的低成本训练方法如果继续加大模型规模、增加算力，用相同或类似的 RL 训练流程，能不能进一步提升性能？理论上看起来是可以的，R1论文里也说需要更大规模的RL和更大的base model来推进frontier(如图)。从这一段来看，说DeepSeek-R1是从o1蒸馏而来也是不对的如果DeepSeek-R1的低成本训练方法能够scalable，那么说明这是广义上scaling law的另一个进步 -- 一个新的S型曲线来维持scaling law的延续(on track) --------------------------------- 再来说说DeepSeek对算力的影响这一轮算力军备竞赛的起点和动机是，scaling law带来的性能提升没有看到天花板(confirmed by Mark)，所以大家才会疯狂的投入，这是和以前都不一样的地方所以关键问题不在于deepseek用十分之一的算力取得了相同的结果，而是Deepseek的方法能不能scalable，给scaling law续命，这才是决定性因素只要scaling law还能继续，在AI上的capex就只会继续增加就像摩尔定律一样，只要摩尔定律继续延续，芯片的市场会增大，在芯片制程上的研发成本就会持续增加 Deepseek降低成本训练方法可以scaling，可以看作是一个新的S型曲线，让AI界的摩尔定律延续：随着规模的增大，模型性还能变得更好类比到芯片里，如果芯片里突然有一项开源技术，让所有芯片的单位面积上容纳的gate数量原地翻倍，会有人担心台积电订单减半吗？不会如果发生这种情况，最开心的就是所有的fabless芯片设计厂商，Intel/AMD/qualcomm马上就能设计出新一代性能翻倍的芯片，那消费电子的换机潮岂不是要疯狂消费电子的OEM也会开心，手机和电脑换代得卖疯了。还是那句话，AI算力属性本来就是指数型通缩的，长线来看就是十年加速六个数量级，软件/算法加速三个数量级，硬件加速三个数量级软件/算法的加速意思是用更少的资源去实现相同的效果(正如DeepSeek R1)，硬件的加速包括半导体工艺提升，架构提升，以及带宽/互联和规模提升带来芯片的算力加速(算力提升) 现在训练一个GPT4级别的成本，和两年前比起来，恐怕还不到十分之一会有各种新的方法去延续这个AI算力指数级加速，正如引文里说的那样，每一种方法都是一个新的S曲线，很多个技术曲线的scaling law前赴后继的组成了一道一道S型技术曲线，累积叠加维持指数级增长的幻象性能提高的同时成本的指数型降低，带来的是AI应用门槛的指数级降低，一定会让整个生态更加繁荣，诞生出更多需求我们只需要看，最近有没有新方法维持十年加速六个数量级的进展？如果没有，那才是需要担心AI停滞的时候

fin@fi56622380

大模型Scaling law撞墙，基本从年初PHD们吐槽到了现在大佬们公开谈论作为半导体从业者，这集看了太多遍不能更熟悉了芯片行业scaling law统称摩尔定律，各路媒体在十五年前就开始悲观的展望摩尔定律消亡有一个反直觉，或者说主流媒体这几年并不报道的是，制程摩尔定律，竟然比二十年前更快了摩尔定律的本质，是很多个技术曲线的scaling law前赴后继的组成了一道一道S型技术曲线，累积叠加造成的幻象：芯片每单位面积能容纳的gate数量指数型增长实际上现在的所谓4nm/N3E制程节点早就成了数字游戏，电路gate的实际尺寸仍然是20nm，只不过gate密度是等效3nm 这就和AI目前的情况一样，LLM的pretraining阶段的大力出奇迹，只是目前阶段投入回报比极佳（最佳）scale up的路线每个技术曲线的scaling law都是有寿命的，不存在一招鲜吃遍天的情况 AI的LLM的pretraining的撞墙，在AI领域发展长河上，和芯片制程里的众多革命性S型技术曲线一样(比如double patterning，EUV)，是一项亮眼的，值得反复在教课书上称颂的里程碑式技术曲线正如摩尔定律早已经不是侠义的摩尔定律，而是广义的摩尔定律一样比如在计算机架构上，Domain specific architecture能玩的花样也越来越多，俨然成了新一道S曲线的快速增长期如果看前几年的hotchip论文集，很明显，摩尔定律不仅没有停滞，反而在加速，仿佛回到了十几二十年前架构的百家争鸣的新黄金时代看多了半导体的摩尔定律历史，再看LLM pretraining阶段scaling law撞墙，在更大尺度上的AI发展看起来，不会是什么阻碍 AI的发展，仍然会维持每十年软硬件加速六个数量级的指数发展作为背景板，会有各种广义的加速路线来维持这个指数型发展中间没有S型技术曲线的真空期，确实会延缓一些速度，比如2012~2017年的摩尔定律。但即便如此，前一代的技术红利商业化还能吃很久很久，即便是supervised learning，现在仍然是在已经很惊人的体量上保持着夸张的增速呢

中文

507

1.9K

658.4K

yeshu@yeshu_in_future·28 Oca

@tualatrix 西溪园区旁边就是

中文

194

图拉鼎@tualatrix·28 Oca

杭州还差一条阿里巴巴路。

中文

7.6K

yeshu@yeshu_in_future·28 Oca

@fkysly 哈哈哈阿里不还能半年呢

日本語

171

马天翼@fkysly·28 Oca

在字节，3个月不能起到关键效果，已经要担心下次绩效还能不能留下了，别说长期了

Orange AI@oran_ge

看到有人说 DeepSeek 和字节的 research culture 比较像。。。要笑掉大牙了梁文锋能做出来的东西，张一鸣砸钱也未必能做出来。这两家公司唯一比较像的就是不需要融资，没有短期压力。但是字节团队那么多，也没做出来R1，这是很说明问题的。字节没有资金压力，但是字节团队是有短期OKR压力的。这也是为什么字节要成立 Seed Edge 研究计划。就是要布局长远，防止陷入局部最优。什么是局部最优呢？就是豆包可以花100倍的人力，把豆包的各种场景的写作都用SFT优化到很好。 R1直接启动深度思考，达成中文写作断档第一。还有当时准备各种数据在 GPT 3.5 微调，等 GPT4 出来就直接无用功了。技术的降维打击是非常无情的，只是不会经常发生罢了。

中文

3.9K

yeshu@yeshu_in_future·28 Oca

昨晚美股开盘做了几个操作： 1. 短期做多 VIX 2. 远期做多币股 3. 短期做空 NVDA vega 4. 平了几张卖的Call 本周交易目标提前达成，安心过年。大家新年快乐🎉

中文

160

yeshu@yeshu_in_future·27 Oca

感谢大家又一年的陪伴。新的一年我正在搭建更稳定的内容输出系统，争取多多输出，能给大家带来更多启发。 mp.weixin.qq.com/s/1ZN6d-UVwbs-…

中文

yeshu@yeshu_in_future·23 Oca

花了将近一天的时间排查一个线上问题，抽丝剥茧各种尝试以后，最后发现在 Safari 浏览器下面 IME 输入触发的 keydown 事件比 change 事件晚，顺序和规范不一致。虽然过程很痛苦，但问题终于解决的时候，是真的很快乐😌

中文

113

Keşfet

@thomsonYang_147 @fkysly @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA