yeshu
844 posts

yeshu
@yeshu_in_future
🚶Always be curious about new things.

最近对于 ai 的认识不断更新,花了点时间把一些工作流程用 AI 重构了一遍。 最核心的转变是:AI 工具 => AI 主导 + AI 自迭代 现在 AI 已经接管了团队的所有东西。包括代码、服务器、数据库、交易策略、甚至公司规划、人员信息、合同等 关系上我们已经变成 AI 的辅助,为它提供更好的信息和工具


🚀 DeepSeek-OCR — the new frontier of OCR from @deepseek_ai , exploring optical context compression for LLMs, is running blazingly fast on vLLM ⚡ (~2500 tokens/s on A100-40G) — powered by vllm==0.8.5 for day-0 model support. 🧠 Compresses visual contexts up to 20× while keeping 97% OCR accuracy at <10×. 📄 Outperforms GOT-OCR2.0 & MinerU2.0 on OmniDocBench using fewer vision tokens. 🤝 The vLLM team is working with DeepSeek to bring official DeepSeek-OCR support into the next vLLM release — making multimodal inference even faster and easier to scale. 🔗 github.com/deepseek-ai/De… #vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning


@GnuDoyng 非常感谢您关注沉浸式翻译,关于您说的隐私问题,已经有谷歌seo专家做了分析,如果您有时间的话,可以看一下这个链接:x.com/gefei55/status…


banzhuan.plus 搞了个 alpha 代币自动卖出刷量的工具。欢迎大家试用一下。目前支持特性 1. 卖出 alpha 后自动卖出 2. 平均磨损万 4。包含池子手续费、用户 gas 费。预计两天后会进一步降低到万 3 以内 3. 60% 交易 0 区块,30%交易+1区块完成。使用了 blockrazor 商业服务,全球多节点部署





大模型Scaling law撞墙,基本从年初PHD们吐槽到了现在大佬们公开谈论 作为半导体从业者,这集看了太多遍不能更熟悉了 芯片行业scaling law统称摩尔定律,各路媒体在十五年前就开始悲观的展望摩尔定律消亡 有一个反直觉,或者说主流媒体这几年并不报道的是,制程摩尔定律,竟然比二十年前更快了 摩尔定律的本质,是很多个技术曲线的scaling law前赴后继的组成了一道一道S型技术曲线,累积叠加造成的幻象:芯片每单位面积能容纳的gate数量指数型增长 实际上现在的所谓4nm/N3E制程节点早就成了数字游戏,电路gate的实际尺寸仍然是20nm,只不过gate密度是等效3nm 这就和AI目前的情况一样,LLM的pretraining阶段的大力出奇迹,只是目前阶段投入回报比极佳(最佳)scale up的路线 每个技术曲线的scaling law都是有寿命的,不存在一招鲜吃遍天的情况 AI的LLM的pretraining的撞墙,在AI领域发展长河上,和芯片制程里的众多革命性S型技术曲线一样(比如double patterning,EUV),是一项亮眼的,值得反复在教课书上称颂的里程碑式技术曲线 正如摩尔定律早已经不是侠义的摩尔定律,而是广义的摩尔定律一样 比如在计算机架构上,Domain specific architecture能玩的花样也越来越多,俨然成了新一道S曲线的快速增长期 如果看前几年的hotchip论文集,很明显,摩尔定律不仅没有停滞,反而在加速,仿佛回到了十几二十年前架构的百家争鸣的新黄金时代 看多了半导体的摩尔定律历史,再看LLM pretraining阶段scaling law撞墙,在更大尺度上的AI发展看起来,不会是什么阻碍 AI的发展,仍然会维持每十年软硬件加速六个数量级的指数发展作为背景板,会有各种广义的加速路线来维持这个指数型发展 中间没有S型技术曲线的真空期,确实会延缓一些速度,比如2012~2017年的摩尔定律。但即便如此,前一代的技术红利商业化还能吃很久很久,即便是supervised learning,现在仍然是在已经很惊人的体量上保持着夸张的增速呢

看到有人说 DeepSeek 和 字节的 research culture 比较像。。。 要笑掉大牙了 梁文锋能做出来的东西,张一鸣砸钱也未必能做出来。 这两家公司唯一比较像的就是不需要融资,没有短期压力。 但是字节团队那么多,也没做出来R1,这是很说明问题的。 字节没有资金压力,但是字节团队是有短期OKR压力的。 这也是为什么字节要成立 Seed Edge 研究计划。 就是要布局长远,防止陷入局部最优。 什么是局部最优呢? 就是豆包可以花100倍的人力,把豆包的各种场景的写作都用SFT优化到很好。 R1直接启动深度思考,达成中文写作断档第一。 还有当时准备各种数据在 GPT 3.5 微调,等 GPT4 出来就直接无用功了。 技术的降维打击是非常无情的,只是不会经常发生罢了。












