yeshu

844 posts

yeshu banner
yeshu

yeshu

@yeshu_in_future

🚶Always be curious about new things.

Katılım Kasım 2015
365 Takip Edilen480 Takipçiler
yeshu
yeshu@yeshu_in_future·
@thomsonYang_147 最好的 token 能做的事情和质量已经远远超出前几年的想象了
中文
1
0
0
14
yeshu
yeshu@yeshu_in_future·
@fkysly 人脑很容易过载,而且很难并行
中文
0
0
0
369
马天翼
马天翼@fkysly·
感觉 AI 没有解放双手,AI 反而让我更累了
中文
16
2
26
10.6K
yeshu retweetledi
Boris Cherny
Boris Cherny@bcherny·
I'm Boris and I created Claude Code. Lots of people have asked how I use Claude Code, so I wanted to show off my setup a bit. My setup might be surprisingly vanilla! Claude Code works great out of the box, so I personally don't customize it much. There is no one correct way to use Claude Code: we intentionally build it in a way that you can use it, customize it, and hack it however you like. Each person on the Claude Code team uses it very differently. So, here goes.
English
1.3K
7K
54.5K
8.1M
yeshu
yeshu@yeshu_in_future·
尝试了一下灵光,排版效果、响应速度、图表增量加载+可交互体验很好,加上可以想象的背靠蚂蚁的语料积累,在金融问答上是目前接触到综合体验最好的AI 产品了。 如果将来能支持更长时间的深度研究任务就好了
yeshu tweet mediayeshu tweet mediayeshu tweet mediayeshu tweet media
中文
0
0
1
340
yeshu retweetledi
Andrej Karpathy
Andrej Karpathy@karpathy·
I quite like the new DeepSeek-OCR paper. It's a good OCR model (maybe a bit worse than dots), and yes data collection etc., but anyway it doesn't matter. The more interesting part for me (esp as a computer vision at heart who is temporarily masquerading as a natural language person) is whether pixels are better inputs to LLMs than text. Whether text tokens are wasteful and just terrible, at the input. Maybe it makes more sense that all inputs to LLMs should only ever be images. Even if you happen to have pure text input, maybe you'd prefer to render it and then feed that in: - more information compression (see paper) => shorter context windows, more efficiency - significantly more general information stream => not just text, but e.g. bold text, colored text, arbitrary images. - input can now be processed with bidirectional attention easily and as default, not autoregressive attention - a lot more powerful. - delete the tokenizer (at the input)!! I already ranted about how much I dislike the tokenizer. Tokenizers are ugly, separate, not end-to-end stage. It "imports" all the ugliness of Unicode, byte encodings, it inherits a lot of historical baggage, security/jailbreak risk (e.g. continuation bytes). It makes two characters that look identical to the eye look as two completely different tokens internally in the network. A smiling emoji looks like a weird token, not an... actual smiling face, pixels and all, and all the transfer learning that brings along. The tokenizer must go. OCR is just one of many useful vision -> text tasks. And text -> text tasks can be made to be vision ->text tasks. Not vice versa. So many the User message is images, but the decoder (the Assistant response) remains text. It's a lot less obvious how to output pixels realistically... or if you'd want to. Now I have to also fight the urge to side quest an image-input-only version of nanochat...
vLLM@vllm_project

🚀 DeepSeek-OCR — the new frontier of OCR from @deepseek_ai , exploring optical context compression for LLMs, is running blazingly fast on vLLM ⚡ (~2500 tokens/s on A100-40G) — powered by vllm==0.8.5 for day-0 model support. 🧠 Compresses visual contexts up to 20× while keeping 97% OCR accuracy at <10×. 📄 Outperforms GOT-OCR2.0 & MinerU2.0 on OmniDocBench using fewer vision tokens. 🤝 The vLLM team is working with DeepSeek to bring official DeepSeek-OCR support into the next vLLM release — making multimodal inference even faster and easier to scale. 🔗 github.com/deepseek-ai/De… #vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning

English
560
1.6K
13.3K
3.3M
Thomson
Thomson@thomsonYang_147·
招募智能合约开发(实习生也招) 链上套利团队 岗位职责: 1. 负责 Web3 Dex、跨链桥对接,并提供对外开源服务(github) 2. 参与对链上交易数据解析,以及离线数据分析 4. 参与公链 rpc 节点搭建 任职要求: 1. 熟悉使用 Solidity、Node.js、Ethersjs、Foundry 等语言和框架 2. 熟悉公链技术生态,熟悉常见 DeFi 协议(dex、lend、bridge) 3. 具备良好的学习能力和自驱力。有写博客习惯或参与 github 项目加分 4. 熟练使用 AI 工具和英语读写加分 邮箱: thomsonyang147@gmail.com
中文
1
0
6
1.5K
yeshu
yeshu@yeshu_in_future·
看来团队对隐私数据的敏感度挺低的。 点对点分享的数据,变成在互联网上公开可见,产品方和用户方的预期是不一致的,权限范围界定不够清晰。 当然,这个场景可能不需要像我们之前做协同文档的时候那么苛刻。 但至少在分享的时候,可以加个提示,不是吗?
沉浸式翻译@immersivetran

@GnuDoyng 非常感谢您关注沉浸式翻译,关于您说的隐私问题,已经有谷歌seo专家做了分析,如果您有时间的话,可以看一下这个链接:x.com/gefei55/status…

中文
0
0
0
215
Thomson
Thomson@thomsonYang_147·
币安 Alpha 我也毕业了 🤣 之前资金费率套利,有个 1w u 的白嫖机制,知道得早,但是没有朋友的执行力(他搞了大几百个子账号) Alpha 这个执行力拉起来了,但是窗口期太短。学到了点经验 下次再接再厉。总会有机会是属于我的
中文
1
0
3
439
Thomson
Thomson@thomsonYang_147·
自己也要刷 alpha,有个工具方便点。对接交易过程遇到的坑远比想象的多。也学到了不少东西 最近要到期的交易竞赛,merl 明天截止,现在上榜金额 11 万,预计明天结束的时候要 15 万上榜。奖励大概 110u。用工具刷,成本控制在万5以内,成本 75u 单号能赚个 30u,猪脚饭
Thomson tweet media
Thomson@thomsonYang_147

banzhuan.plus 搞了个 alpha 代币自动卖出刷量的工具。欢迎大家试用一下。目前支持特性 1. 卖出 alpha 后自动卖出 2. 平均磨损万 4。包含池子手续费、用户 gas 费。预计两天后会进一步降低到万 3 以内 3. 60% 交易 0 区块,30%交易+1区块完成。使用了 blockrazor 商业服务,全球多节点部署

中文
1
0
1
771
yeshu
yeshu@yeshu_in_future·
早上被老板电话叫醒瞬间进入工作状态😭回京就感觉自己班味儿上身了。 不过发现了一笔年前的意外之财,开心
yeshu tweet media
中文
0
0
0
242
yeshu
yeshu@yeshu_in_future·
第一章:数据尸体
yeshu tweet mediayeshu tweet mediayeshu tweet mediayeshu tweet media
中文
0
0
1
98
yeshu
yeshu@yeshu_in_future·
写作小白和 deepseek 创作万字悬疑短篇 我负责世界观,deepseek R1 帮我完善细节并搭建章节大纲,协力完成了小说的第一章。 markdown 转图片导出使用的自研小工具。
yeshu tweet media
中文
1
0
1
447
yeshu retweetledi
fin
fin@fi56622380·
看了下DeepSeek论文,做了点笔记和思考 DeepSeek降低训练成本会不会让算力需求下降?看历史就知道了,GPT4级别token价格在一年半之内降低了100~1000倍,也没有类似的担忧(如图) AI算力通缩是必然现象,长线旋律就是十年加速六个数量级:软件/算法加速三个数量级,硬件加速三个数量级 ------------------------------ 先从DeepSeek R1论文本身说起 Deepseek本身并没有像chatgpt o1那样做test time scaling获得更强推理能力,属于post-training后训练范畴,看起来和chatgpt o1不是一个路子(o1是推理的时候专门扩大“思考步骤”或“搜索过程"再挑出最优,推理时耗费比o4高几个数量级),只不过在benchmark/推理水平上达到了相同的水平 所以从推理token价格来说,deepseek和o1比降低了27倍也是合理的。 DeepSeek-R1 是在 “DeepSeek-V3-Base” 这个预训练好的模型上进行 RL强化学习,reward机制是基于规则的奖励(rule-based reward system),而不是普遍使用的过程奖励process neural reward model或者靠纯结果outcome 规则奖励分两个部分: • 准确性奖励(Accuracy Reward): 对于有确定答案的问题,评估模型生成的答案是否正确。 • 格式奖励(Format Reward): 确保模型在回答中遵循指定格式,比如说 推理过程 最终答案 可能是因为对推理过程有规则奖励,也“涌现”出了生成推理过程的“顿悟时刻(Aha Moment),模型自己生成的CoT过程越来越长,还学会了反思(reflection),和自我纠错和exploration探索举动,这都是提高推理能力的普遍过程 DeepSeek-R1主要贡献是证明 LLM 可以在无监督数据的情况下,通过强化学习RL提高推理能力 通过这个“规则奖励”以及GRPO,不需要大量人工编写/标注复杂的 CoT 数据来提高推理能力,直接把模型推理能力提高到o1水平,同时成本还很低 ----------------------- 为什么这个RL提升推理能力的方法以前没人试过呢? 其实两年前就试过了(伯克利),但当时只有LLAMA第一代模型能力不足,GSM8K跑分都非常低,推理和数学能力太低。那个时候LLAMA2-HF效果好得多,因为在预训练语料里已经有一些CoT的文本,所以后来的RL可以直接利用并强化这些“人类式思考”的片段,而早期模型往往生成的推理过程非常混乱。 另外早期基准(GSM8K等)太简单,模型可能能“轻松”地蒙中答案、或者通过一些相对简单的做法就拿到高分。 当任务足够难,模型只有先探索/反思/纠错,才能更稳定地拿到正确解答,RL才会往这个方向去“逼”模型学会更复杂的思维过程 ----------------------- 还有一个scalable的问题很重要,DeepSeek-R1的低成本训练方法如果继续加大模型规模、增加算力,用相同或类似的 RL 训练流程,能不能进一步提升性能? 理论上看起来是可以的,R1论文里也说需要更大规模的RL和更大的base model来推进frontier(如图)。从这一段来看,说DeepSeek-R1是从o1蒸馏而来也是不对的 如果DeepSeek-R1的低成本训练方法能够scalable,那么说明这是广义上scaling law的另一个进步 -- 一个新的S型曲线来维持scaling law的延续(on track) --------------------------------- 再来说说DeepSeek对算力的影响 这一轮算力军备竞赛的起点和动机是,scaling law带来的性能提升没有看到天花板(confirmed by Mark),所以大家才会疯狂的投入,这是和以前都不一样的地方 所以关键问题不在于deepseek用十分之一的算力取得了相同的结果,而是Deepseek的方法能不能scalable,给scaling law续命,这才是决定性因素 只要scaling law还能继续,在AI上的capex就只会继续增加 就像摩尔定律一样,只要摩尔定律继续延续,芯片的市场会增大,在芯片制程上的研发成本就会持续增加 Deepseek降低成本训练方法可以scaling,可以看作是一个新的S型曲线,让AI界的摩尔定律延续:随着规模的增大,模型性还能变得更好 类比到芯片里,如果芯片里突然有一项开源技术,让所有芯片的单位面积上容纳的gate数量原地翻倍,会有人担心台积电订单减半吗? 不会 如果发生这种情况,最开心的就是所有的fabless芯片设计厂商,Intel/AMD/qualcomm马上就能设计出新一代性能翻倍的芯片,那消费电子的换机潮岂不是要疯狂 消费电子的OEM也会开心,手机和电脑换代得卖疯了。 还是那句话,AI算力属性本来就是指数型通缩的,长线来看就是十年加速六个数量级,软件/算法加速三个数量级,硬件加速三个数量级 软件/算法的加速意思是用更少的资源去实现相同的效果(正如DeepSeek R1),硬件的加速包括半导体工艺提升,架构提升,以及带宽/互联和规模提升带来芯片的算力加速(算力提升) 现在训练一个GPT4级别的成本,和两年前比起来,恐怕还不到十分之一 会有各种新的方法去延续这个AI算力指数级加速,正如引文里说的那样,每一种方法都是一个新的S曲线,很多个技术曲线的scaling law前赴后继的组成了一道一道S型技术曲线,累积叠加维持指数级增长的幻象 性能提高的同时成本的指数型降低,带来的是AI应用门槛的指数级降低,一定会让整个生态更加繁荣,诞生出更多需求 我们只需要看,最近有没有新方法维持十年加速六个数量级的进展?如果没有,那才是需要担心AI停滞的时候
fin tweet mediafin tweet mediafin tweet mediafin tweet media
fin@fi56622380

大模型Scaling law撞墙,基本从年初PHD们吐槽到了现在大佬们公开谈论 作为半导体从业者,这集看了太多遍不能更熟悉了 芯片行业scaling law统称摩尔定律,各路媒体在十五年前就开始悲观的展望摩尔定律消亡 有一个反直觉,或者说主流媒体这几年并不报道的是,制程摩尔定律,竟然比二十年前更快了 摩尔定律的本质,是很多个技术曲线的scaling law前赴后继的组成了一道一道S型技术曲线,累积叠加造成的幻象:芯片每单位面积能容纳的gate数量指数型增长 实际上现在的所谓4nm/N3E制程节点早就成了数字游戏,电路gate的实际尺寸仍然是20nm,只不过gate密度是等效3nm 这就和AI目前的情况一样,LLM的pretraining阶段的大力出奇迹,只是目前阶段投入回报比极佳(最佳)scale up的路线 每个技术曲线的scaling law都是有寿命的,不存在一招鲜吃遍天的情况 AI的LLM的pretraining的撞墙,在AI领域发展长河上,和芯片制程里的众多革命性S型技术曲线一样(比如double patterning,EUV),是一项亮眼的,值得反复在教课书上称颂的里程碑式技术曲线 正如摩尔定律早已经不是侠义的摩尔定律,而是广义的摩尔定律一样 比如在计算机架构上,Domain specific architecture能玩的花样也越来越多,俨然成了新一道S曲线的快速增长期 如果看前几年的hotchip论文集,很明显,摩尔定律不仅没有停滞,反而在加速,仿佛回到了十几二十年前架构的百家争鸣的新黄金时代 看多了半导体的摩尔定律历史,再看LLM pretraining阶段scaling law撞墙,在更大尺度上的AI发展看起来,不会是什么阻碍 AI的发展,仍然会维持每十年软硬件加速六个数量级的指数发展作为背景板,会有各种广义的加速路线来维持这个指数型发展 中间没有S型技术曲线的真空期,确实会延缓一些速度,比如2012~2017年的摩尔定律。但即便如此,前一代的技术红利商业化还能吃很久很久,即便是supervised learning,现在仍然是在已经很惊人的体量上保持着夸张的增速呢

中文
73
507
1.9K
658.4K
yeshu
yeshu@yeshu_in_future·
@tualatrix 西溪园区旁边就是
中文
0
0
0
194
图拉鼎
图拉鼎@tualatrix·
杭州还差一条阿里巴巴路。
图拉鼎 tweet media
中文
9
0
17
7.6K
yeshu
yeshu@yeshu_in_future·
@fkysly 哈哈哈阿里不还能半年呢
日本語
0
0
0
171
yeshu
yeshu@yeshu_in_future·
昨晚美股开盘做了几个操作: 1. 短期做多 VIX 2. 远期做多币股 3. 短期做空 NVDA vega 4. 平了几张卖的Call 本周交易目标提前达成,安心过年。 大家新年快乐🎉
中文
0
0
0
160
yeshu
yeshu@yeshu_in_future·
感谢大家又一年的陪伴。 新的一年我正在搭建更稳定的内容输出系统,争取多多输出,能给大家带来更多启发。 mp.weixin.qq.com/s/1ZN6d-UVwbs-…
中文
0
0
1
94
yeshu
yeshu@yeshu_in_future·
花了将近一天的时间排查一个线上问题,抽丝剥茧各种尝试以后,最后发现在 Safari 浏览器下面 IME 输入触发的 keydown 事件比 change 事件晚,顺序和规范不一致。 虽然过程很痛苦,但问题终于解决的时候,是真的很快乐😌
中文
0
0
2
113