IanZ

663 posts

IanZ banner
IanZ

IanZ

@ZanIReverse

Crypto & SaaS & AI / Digitization of the world

Katılım Kasım 2013
1.3K Takip Edilen385 Takipçiler
IanZ retweetledi
OGAWA, Tadashi
OGAWA, Tadashi@ogawa_tter·
=> "Non-adjacent Connection of High-Bandwidth Memory Chiplets, I/O Chiplets, and Compute Chiplets through Embedded Logic Bridges", OpenAI OpCo, Patent Appl: Apr 2, 2026 (Filed: Oct 2024) patentscope2.wipo.int/search/en/deta… HBM Buffer Bridge Die, Apple (P: Mar 2024) x.com/ogawa_tter/sta…
OGAWA, Tadashi tweet mediaOGAWA, Tadashi tweet mediaOGAWA, Tadashi tweet mediaOGAWA, Tadashi tweet media
OGAWA, Tadashi@ogawa_tter

"High Bandwidth Memory Buffer Bridge Die in Routing Substrate", Apple, Appl (P: Mar 2024) patents.google.com/patent/US20250… Scalable System on a Chip, Mar 2024 (P: Aug 2021) x.com/ogawa_tter/sta… <= Optics-Based Distributed Unified Memory System, (P: Sep 2023) x.com/ogawa_tter/sta…

English
1
1
2
893
IanZ retweetledi
IanZ retweetledi
宝玉
宝玉@dotey·
Boris(Claude Code 创始人)解释为什么 Claude Code 不用 RAG 向量检索代码: 在开发 Claude Code 的早期版本时,我们曾尝试过 RAG 搭配本地向量数据库的方案。 但很快我们就发现,Agent 使用关键字搜索在实际应用中的表现通常要出色得多。 这种方案不仅实现起来更加简洁,而且还完美避开了 RAG 模式下那些令人头疼的“老毛病”:比如数据安全性、隐私泄露风险、信息滞后以及系统可靠性等问题。
Boris Cherny@bcherny

@EthanLipnik 👋 Early versions of Claude Code used RAG + a local vector db, but we found pretty quickly that agentic search generally works better. It is also simpler and doesn’t have the same issues around security, privacy, staleness, and reliability.

中文
28
41
329
142.4K
IanZ retweetledi
Boris Cherny
Boris Cherny@bcherny·
I'm Boris and I created Claude Code. I wanted to quickly share a few tips for using Claude Code, sourced directly from the Claude Code team. The way the team uses Claude is different than how I use it. Remember: there is no one right way to use Claude Code -- everyones' setup is different. You should experiment to see what works for you!
English
925
5.9K
50.9K
9.2M
IanZ retweetledi
meng shao
meng shao@shao__meng·
Boris Cherny 的 Claude Code 十个使用技巧 1. 并行工作流 核心建议:同时运行 3-5 个 git worktree,每个运行独立的 Claude 会话。 为什么重要:这被团队称为"最大的生产力解锁"。通过并行处理多个任务,开发者可以在等待一个 Claude 会话完成时,切换到另一个任务继续工作。 实践细节: · 有人设置 shell 别名(za, zb, zc)实现一键切换 · 有人专门设立"分析专用"worktree,只用于读日志和运行 BigQuery · 这个需求重要到团队成员 @amorriscode 专门在 Claude Desktop 中内置了原生支持 2. Plan Mode 优先 核心建议:复杂任务先进入 plan mode,把精力投入到计划阶段,让 Claude 能够一次性完成实现。 高级用法: · 让一个 Claude 写计划,再启动第二个 Claude 以 Staff Engineer 身份审核 · 任务出问题时立即切回 plan mode 重新规划,不要硬推 · 验证步骤也要显式告诉 Claude 进入 plan mode 深层含义:这揭示了一个反直觉的事实——与 AI 协作时,前期规划的投入产出比远高于后期修补。 3. 持续维护 CLAUDE. md 核心建议:每次纠正 Claude 后,都要求它更新 CLAUDE. md 规则文件,形成自我学习闭环。 关键洞察:"Claude is eerily good at writing rules for itself"。 进阶实践: · 持续精简和迭代规则,直到错误率可测量地下降 · 有人让 Claude 为每个任务/项目维护 notes 目录,每次 PR 后更新,然后将 CLAUDE.md 指向它 4. 构建可复用的 Skills 和 Commands 核心建议:创建自定义技能并提交到 git,跨项目复用。 团队实践案例: · 自动化法则:一天做两次以上的事,就做成 skill 或 command · /techdebt 命令:每次会话结束时运行,查找并消除重复代码 · 上下文聚合命令:同步 7 天的 Slack、GDrive、Asana、GitHub 到一个上下文 · Analytics Engineer 风格的 Agent:编写 dbt 模型、代码审查、在 dev 环境测试 5. 自动化 Bug 修复流程 核心建议:让 Claude 自己修复大多数 bug,减少人工介入。 具体方法: · 启用 Slack MCP,直接粘贴 bug 讨论帖,说"fix"即可 · 对 CI 失败直接说"Go fix the failing CI tests",不要微观管理具体步骤 · 让 Claude 分析 Docker logs 来排查分布式系统问题——"surprisingly capable" 6. 提升 Prompting 技巧 这是信息量最大的一条,包含三个层次: a. 让 Claude 成为你的审核者 · "Grill me on these changes and don't make a PR until I pass your test" · "Prove to me this works"——让 Claude diff 主分支和特性分支的行为差异 b. 推动更优解在得到一般性修复后说: · "Knowing everything you know now, scrap this and implement the elegant solution" · 这利用了 Claude 在对话过程中积累的上下文理解 c. 减少歧义 · 交接工作前写详细 spec,越具体输出越好 7. 终端与环境配置 工具推荐: · Ghostty 终端:团队成员喜爱其同步渲染、24-bit 色彩和完整 Unicode 支持 · /statusline 定制状态栏,始终显示 context usage 和当前 git branch · 终端标签页颜色编码和命名(配合 tmux),一个标签页对应一个任务/worktree 被低估的技巧:语音输入 · 说话速度是打字的 3 倍 · 结果是 prompts 变得更详细 · macOS 上双击 fn 键即可激活 8. 子智能体的使用 三种用法: · 在请求后附加"use subagents",让 Claude 投入更多算力 · 将独立任务分配给 subagents,保持主 agent 的上下文窗口干净聚焦 · 通过 hook 将权限请求路由到 Opus 4.5,让它扫描攻击并自动批准安全操作 深层意义:这是一种"agent 编排"思维——主 agent 负责协调,子 agent 负责具体执行。 9. 数据分析场景 核心实践:让 Claude Code 使用 bq CLI 直接拉取和分析指标。 实际效果:Boris 本人已超过 6 个月没写过一行 SQL。 通用性:适用于任何有 CLI、MCP 或 API 的数据库。 10. 学习辅助 - 四种学习方法: · 在 /config 中启用"Explanatory"或"Learning"输出风格,让 Claude 解释改动背后的原因 · 让 Claude 生成可视化 HTML 演示来解释不熟悉的代码 · 让 Claude 画 ASCII 图来解释新协议和代码库 · 构建间隔重复学习 skill:你解释理解,Claude 追问填补空白,存储结果
meng shao tweet media
Boris Cherny@bcherny

I'm Boris and I created Claude Code. I wanted to quickly share a few tips for using Claude Code, sourced directly from the Claude Code team. The way the team uses Claude is different than how I use it. Remember: there is no one right way to use Claude Code -- everyones' setup is different. You should experiment to see what works for you!

中文
6
94
384
57.6K
IanZ retweetledi
Alex Prompter
Alex Prompter@alex_prompter·
the best 20 accounts to follow in AI: @karpathy = LLMs king @steipete = built openclaw @gregisenberg = startup ideas king @rileybrown = vibecode king @corbin_braun = cursor king @jackfriks = solo apps king @levelsio = solo startups king @marclou = solo startups king @EXM7777 = AI ops + systems king @eptwts = AI money twitter king @godofprompt = prompt king @vasuman = AI agents king @AmirMushich= AI ads king @0xROAS = AI UGCs king @egeberkina = AI images king @MengTo= AI landing pages king @rryssf = automations king @kloss_xyz = systems architecture king @emollick = AI science king @Hesamation = AI/ML king follow them all and learn.
English
320
1.4K
8.9K
1.1M
IanZ retweetledi
Jen Zhu
Jen Zhu@jenzhuscott·
So, if - . Google has better flagship model . Qwen, Kimi, DeepSeek have better open-source models w wider adoption, free & cheap API . Anthropic winning enterprise . xAI is better on longer context reasoning w real time access to X How will OpenAI get $100bn revenue by 2027??
Jen Zhu tweet media
Artificial Analysis@ArtificialAnlys

Gemini 3 Pro is the new leader in AI. Google has the leading language model for the first time, with Gemini 3 Pro debuting +3 points above GPT-5.1 in our Artificial Analysis Intelligence Index @GoogleDeepMind gave us pre-release access to Gemini 3 Pro Preview. The model outperforms all other models in Artificial Analysis Intelligence Index. It demonstrates strength across the board, coming in first in 5 of the 10 evaluations that make up Intelligence Index. Despite these intelligence gains, Gemini 3 Pro Preview shows improved token efficiency from Gemini 2.5 Pro, using significantly fewer tokens on the Intelligence Index than other leading models such as Kimi K2 Thinking and Grok 4. However, given its premium pricing ($2/$12 per million input/output tokens for <200K context), Gemini 3 Pro is among the most expensive models to run our Intelligence Index evaluations. Key takeaways: 📖 Leading intelligence: Gemini 3 Pro Preview is the leading model in 5 of 10 evals in the Artificial Analysis Intelligence Index, including GPQA Diamond, MMLU-Pro, HLE, LiveCodeBench and SciCode. Its score of 37% on Humanity’s Last Exam is particularly impressive, improving on the previous best model by more than 10 percentage points. It also is leading in AA-Omniscience, Artificial Analysis’ new knowledge and hallucination evaluation, coming first in both Omniscience Index (our lead metric that takes off points for incorrect answers) and Omniscience Accuracy (percentage correct). Given that factual recall correlates closely with model size, this may point to Gemini 3 Pro being a much larger model than its competitors 💻 Advanced coding and agentic capabilities: Gemini 3 Pro Preview leads two of the three coding evaluations in the Artificial Analysis Intelligence Index, including an impressive 56% in SciCode, an improvement of over 10 percentage points from the previous highest score. It is also strong in agentic contexts, achieving the second highest score in Terminal-Bench Hard and Tau2-Bench Telecom 🖼️ Multimodal capabilities: Gemini 3 Pro Preview is a multi-modal model, with the ability to take text, images, video and audio as input. It scores the highest of any model on MMMU-Pro, a benchmark that tests reasoning abilities with image inputs. Google now occupies the first, third and fourth position in our MMMU-Pro leaderboard (with GPT-5.1 taking out second place just last week) 💲Premium Pricing: To measure cost, we report Cost to Run the Artificial Analysis Intelligence Index, which combines input and output token prices with token efficiency to reflect true usage cost. Despite the improvement in token efficiency from Gemini 2.5 Pro, Gemini 3 Pro Preview costs more to run. Its higher token pricing of $2/$12 USD per million input/output tokens (≤200k token context) results in a 12% increase in the cost to run the Artificial Analysis Intelligence Index compared to its predecessor, and the model is among the most expensive to run on our Intelligence Index. Google also continues to price long context workloads higher than lower context workloads, charging $4/$18 per million input/output tokens for ≥200k token context. ⚡ Speed: Gemini 3 Pro Preview has comparable speeds to Gemini 2.5 Pro, with 128 output tokens per second. This places it ahead of other frontier models including GPT-5.1 (high), Kimi K2 Thinking and Grok 4. This is potentially supported by Google’s first-party TPU accelerators Other details: Gemini 3 Pro Preview has a 1 million token context window, and includes support for tool calling, structured outputs, and JSON mode See below for further analysis

English
25
14
103
14.4K
IanZ retweetledi
Chris
Chris@chatgpt21·
GPT-5.1 (Thinking High) is about 300 times cheaper per task than o3-preview (Low) while scoring only a few points lower on ARC-AGI-1. 1 year later intelligence has gotten 300 times cheaper. This is why I can’t stand people who say “wahh the models too expensive” it will become cheaper.
Chris tweet mediaChris tweet media
English
155
266
2.5K
1.5M
IanZ retweetledi
Andrej Karpathy
Andrej Karpathy@karpathy·
My most amusing interaction was where the model (I think I was given some earlier version with a stale system prompt) refused to believe me that it is 2025 and kept inventing reasons why I must be trying to trick it or playing some elaborate joke on it. I kept giving it images and articles from "the future" and it kept insisting it was all fake. It accused me of using generative AI to defeat its challenges and argued why real wikipedia entries were actually generated and what the "dead giveaways" are. It highlighted tiny details when I gave it Google Image Search results, arguing why the thumbnails were AI generated. I then realized later that I forgot to turn on the "Google Search" tool. Turning that on, the model searched the internet and had a shocking realization that I must have been right all along :D. It's in these unintended moments where you are clearly off the hiking trails and somewhere in the generalization jungle that you can best get a sense of model smell.
Andrej Karpathy tweet media
English
212
324
5.3K
1M
IanZ retweetledi
Tw93
Tw93@HiTw93·
Google Finance 出了一个 AI 化的 beta 版本,可以把你关注的股票录入进去,然后可以基于这些内容去问东西,思路挺好的,可以试试,甚至帮你找到一些需要的新闻来看,帮助你更好的判断。 google.com/finance/beta
Tw93 tweet media
中文
12
230
931
129.7K
IanZ retweetledi
Sea
Sea@Sea_Bitcoin·
Solana 基金会主席 @calilyliu 今天在清华五道口学院演讲,台下听众主要是企业家、VC 投资人等。 @CryptonianXY 在现场拍了一些 slides,我看主要是在介绍传统金融体系的痛点 (贵、高门槛、低效) 🆚 区块链的高效。 稳定币、货币市场、私募基金、RWAs 等是 Solana 主要瞄准的市场。此外,Solana 还在为链上 IPO 做技术 / 合规方面的准备。
Sea tweet mediaSea tweet mediaSea tweet mediaSea tweet media
中文
24
31
218
47.8K
IanZ retweetledi
Elon Musk
Elon Musk@elonmusk·
What could possibly go wrong? 😳
Elon Musk tweet media
English
5.2K
16.4K
116.6K
13.5M
IanZ retweetledi
宝玉
宝玉@dotey·
AI 大神Andrej Karpathy 对 DeepSeek 那篇 DeepSeek-OCR 的论文评价很高,你可能以为他会说:“哇,这个OCR模型真厉害,识别率又提升了!” 但他没有。 相反,他几乎是挥了挥手说:“它是个不错的OCR模型,但这不重要。” 真正让他兴奋的,是这篇论文引出的一个更具颠覆性的想法:我们是不是从一开始就喂错“语料”给AI了? Karpathy的核心观点是:也许,大型语言模型(LLM)的输入端,根本就不应该是“文本”(Text),而应该永远是“像素”(Pixels)。 这个想法听起来有点绕。我们明明有纯文本,为什么非要先把它“渲染”成一张图片,再喂给AI去看呢? Karpathy给出的理由是这样的: 1. 首先,这是个效率问题。 我们现在用“文本”喂AI,是通过一个叫“Tokenizer”(分词器)的东西,把句子切成一个个“词元”(Token)。比如“Hello, world!”可能被切成 ["Hello", ",", " world", "!"]。 问题是,这种方式可能很“浪费”。 而DeepSeek-OCR这篇论文无意中提供了一个佐证:它证明了,AI可以只用100个“视觉词元”(Vision Tokens),就高精度地“解压缩”出包含1000个“文本词元”的原文内容。 这就像,你给AI的不是一长串啰嗦的文字,而是一小块高密度的“信息压缩饼干”(图片)。AI“吃”下去(处理)的上下文窗口更短,效率自然更高。 2. 信息更“保真”,不再丢失细节 想象一下,你让AI帮你阅读一个网页。 现在的“文本”输入方式,就像是你通过电话把网页内容念给AI听。所有加粗、颜色、字体大小、排版布局……这些视觉信息全都丢失了。 而“像素”输入方式,就像是你直接截了一张图发给AI。 哪个信息更全?不言而喻。 Karpathy认为,像素是一个“信息流更广”的输入方式。它不仅能处理纯文本,还能自然地理解文本的样式(粗体、颜色),甚至页面上任意的图表和图像。 3. 绕开AI 分词器 前面两点只是铺垫,Karpathy真正的“怨念”在于:他想彻底干掉“分词器”(Tokenizer)。 他直言不讳地“炮轰”: > “我必须再说一次我有多讨厌分词器。分词器是丑陋的、分离的、非端到端的。它‘进口’了所有Unicode编码、字节编码的丑陋之处,继承了大量历史包袱,还带来了安全/越狱风险……它必须被淘汰。” 为什么他这么恨分词器? 分词器就像是AI的“嘴替”和“眼替”,它强行介入在“原始文本”和“AI大脑”之间。这个“中间商”不仅笨拙,而且会扭曲信息。 Karpathy举了个绝妙的例子:一个笑脸表情符号“😀”。 - 通过“分词器”,AI看到的不是一张“笑脸”,而是一个奇特的内部代码,比如 [tok482]。AI无法利用它在看图时学到的关于“人脸”和“微笑”的知识(迁移学习)来理解这个符号。 - 但如果输入的是一张包含“😀”的图片,AI的“视觉”部分会立刻认出:哦,这是一张微笑的脸。 哪个更符合直觉?哪个更智能? 像素输入,让AI得以“眼见为实”。 4. 重新定义AI的“输入”与“输出” Karpathy的设想是,未来的AI模型,其“输入端”(用户提问)应该只接收图像(像素),而“输出端”(AI回答)则可以保持为文本。 为什么?因为“看懂一张图”(视觉到文本)的任务,远比“画出一张逼真的图”(文本到视觉)要容易得多,也实用得多。 这种“输入用眼(像素),输出用嘴(文本)”的架构,也天然契合了AI处理信息的两种模式: - 输入(Encoding):像人一样,一口气看完整个页面(图片),全盘理解(即双向注意力)。 - 输出(Decoding):像人一样,一个词一个词地往外说(即自回归)。 所以,DeepSeek-OCR这篇论文的真正价值,不在于它提供了一个多好的OCR工具,而在于它充当了一次“概念验证”(Proof-of-Concept)。 它用实验数据证明了:用“看图”的方式来“读书”,是完全可行的,而且可能效率更高。 这不仅仅是“文本到文本”(Text-to-Text)任务变成了“视觉到文本”(Vision-to-Text)任务,它暗示了一个更根本的转变——AI的主要信息入口,正在从“语言”转向“视觉”。 难怪 Karpathy 最后会说,他现在“手很痒”,很想去搞一个“纯图像输入”的聊天机器人了。这个小小的OCR研究,可能真的撬动了一个大大的未来。
宝玉 tweet media
Andrej Karpathy@karpathy

I quite like the new DeepSeek-OCR paper. It's a good OCR model (maybe a bit worse than dots), and yes data collection etc., but anyway it doesn't matter. The more interesting part for me (esp as a computer vision at heart who is temporarily masquerading as a natural language person) is whether pixels are better inputs to LLMs than text. Whether text tokens are wasteful and just terrible, at the input. Maybe it makes more sense that all inputs to LLMs should only ever be images. Even if you happen to have pure text input, maybe you'd prefer to render it and then feed that in: - more information compression (see paper) => shorter context windows, more efficiency - significantly more general information stream => not just text, but e.g. bold text, colored text, arbitrary images. - input can now be processed with bidirectional attention easily and as default, not autoregressive attention - a lot more powerful. - delete the tokenizer (at the input)!! I already ranted about how much I dislike the tokenizer. Tokenizers are ugly, separate, not end-to-end stage. It "imports" all the ugliness of Unicode, byte encodings, it inherits a lot of historical baggage, security/jailbreak risk (e.g. continuation bytes). It makes two characters that look identical to the eye look as two completely different tokens internally in the network. A smiling emoji looks like a weird token, not an... actual smiling face, pixels and all, and all the transfer learning that brings along. The tokenizer must go. OCR is just one of many useful vision -> text tasks. And text -> text tasks can be made to be vision ->text tasks. Not vice versa. So many the User message is images, but the decoder (the Assistant response) remains text. It's a lot less obvious how to output pixels realistically... or if you'd want to. Now I have to also fight the urge to side quest an image-input-only version of nanochat...

中文
68
153
719
263K
IanZ retweetledi
Robin
Robin@xdNiBoR·
No other social media platform allows two of the world's most important CEOs to directly interact with your posts. This is crazy...
Robin tweet media
English
96
88
1.5K
3.6M
IanZ retweetledi
Orange AI
Orange AI@oran_ge·
刚看完Andrej Karpathy这期暴论频出的播客: - 今年不是"智能体元年",我们身处"智能体的十年" - 现在的强化学习就像"通过吸管吸取监督" - LLM悖论:完美记忆 + 泛化能力差 - 人类糟糕的记忆是特性,不是bug - 当你记不住细节时,大脑被迫进入抽象模式,看到"森林"而不只是"树木"。 - 儿童:记忆最差,创造力最强(还没"过拟合"到社会规范) - 我们需要的AI只需要认知核心。剥离记忆,保留算法。 也许我们需要的不是更大的模型,而是更会遗忘的模型? - AI 不会立即取代人类,而会逐步提高工作占比,最终完成 99% 的工作,剩下1%无法取代。 - 以前的教育是为了找到工作,Post-AGI时代教育将像健身房一样,为了乐趣和个人充实。 播客开头,AK先重新校准了我们对 AI 的期望。 今年不是"智能体元年",我们身处"智能体的十年",区别在于,一切没那么快,虽然也没那么慢。 他说,现在强化学习就像"通过吸管吸取监督" ,模型尝试几百种方法,最后只得到一个"对错"信号,然后把这个信号广播给成功路径的每一步,包括那些纯属运气的错误步骤。 你瞎猜猜中了答案,然后把猜的过程也当成"正确方法"强化,这能学好吗? AK还提到一个更荒诞的例子:有个数学模型突然开始得满分,看起来"解决了数学"。但仔细检查发现,模型输出的是"da da da da da"这样的完全胡言乱语,却骗过了LLM评判者。这就是用LLM做评判的问题——它们会被对抗样本攻击,因为这些乱码是它们从没在训练中见过的"样本外"内容。 更深层的问题是:人类读书时在做什么? AK说:"我们读的书其实是prompts,让我做合成数据生成用的。" 我们读书时不是被动接收信息,而是在内心进行复杂的对话。新只是与已知知识调和,产生新理解,形成个人化的认知图谱。 但LLM呢?只是在预测下一个token,缺乏这种"内心对话"机制。 人类还有个神奇的"睡眠阶段"。白天我们建立起事件的上下文窗口,睡觉时发生蒸馏过程,将信息整合到大脑权重中。 LLM缺乏这种等效机制,每次启动都是零上下文的白纸。 AK发现了一个根本悖论: LLM悖论:完美记忆 + 泛化能力差 人类悖论:糟糕记忆 + 强学习能力 为什么?因为遗忘强迫我们抽象。 这里AK还有个精妙的类比:模型的预训练权重就像"一年前读过某本书的模糊回忆",而上下文窗口信息则像"工作记忆"——直接可访问。这解释了为什么in-context learning感觉更"智能":在预训练过程中,像 Llama 3 这样的模型将 1.5 万亿个标记压缩到它的权重中,每个标记仅存储约 0.07 比特的信息。相比之下,上下文学习的信息吸收速度要高 3500 万倍。 当你记不住细节时,大脑被迫提取general patterns(通用模式),看到"森林"而不只是"树木"。 而LLM被海量训练数据的完美记忆"分散注意力",反而阻碍了真正的抽象理解。 我们仔细会议人类的学习过程。读过的书大部分细节都忘了,但核心思想和方法论却越来越清晰。 原来这不是记忆力差,这是智能啊。 更震撼的类比:儿童 vs 成人 vs LLM 儿童:记忆最差,创造力最强(还没"过拟合"到社会规范) 成人:记忆中等,创造力中等(已经"坍塌"了部分) LLM:记忆完美,创造力最低(被训练数据"过拟合") AK提到Erik Hoel的研究:梦境可能就是大脑的anti-overfitting机制。连睡觉都是为了避免过拟合,引入随机性防止思维僵化。 这解释了为什么当前AI在"合成数据训练"上会失败。你让GPT对同一本书思考10次,会发现回答几乎一样。这就是"静默坍塌"。 模型的输出分布极其狭窄,AK开玩笑说"它实际上只有3个笑话"。在这种低熵数据上训练只会强化模型的偏见,让它变得更糟。 而且人类其实也经历类似的"坍塌"过程,儿童富有创造力是因为还没"过拟合"到社会规范,会说出令人震惊的话。但成年后我们也"坍塌"了,重复相同的思想,学习率下降,创造力递减。 梦境也可能是大脑的anti-overfitting机制,通过引入随机性防止思维僵化。 所以他提出了一个激进想法:我们需要认知核心。剥离记忆,保留算法。 让AI像"有方法论但没有百科全书的哲学家",强制它查找而非回忆,专注于思考的meta-skills。 他预测未来20年内,高效的认知核心可能只需要10亿参数,而不是现在动辄千亿参数的模型。 大部分参数都在处理互联网上的"垃圾和胡扯",如果优化训练数据质量,分离认知组件,就能实现极大压缩。 当前foundation model的路径是否根本错了? 也许我们需要的不是更大的模型,而是更会遗忘的模型? 重新理解AI的发展路径 早期深度强化学习专注游戏(如Atari)其实是走错了方向。真正目标应该是创造能在现实世界执行知识工作的智能体,不是游戏高手。 他回忆自己在OpenAI的早期项目,用键盘鼠标操作网页的智能体,目标是执行知识工作。但项目"太早了",智能体缺乏必要的"表示能力",会因稀疏奖励卡住。缺失的关键是强大的预训练模型。今天类似的计算机使用智能体之所以成功,正是因为建立在LLM之上,你需要先有LLM获得强大表示,再构建有效智能体。 他的另一个深刻观察:AI不是独立技术类别,而是自动化连续体的一部分。从编译器、代码编辑器到搜索引擎,再到现在的LLM,我们一直在"抽象阶梯"上向上攀登,让机器处理更多底层细节。 这解释了为什么AI经济影响主要集中在编程领域,代码本身就是文本,有成熟基础设施(IDE、版本控制),LLM可以无缝接入。相比之下,制作幻灯片这种视觉任务就困难得多,因为没有infrastructure让AI显示"diff"或跟踪变化。 但AK也泼了冷水:当前AI编程模型还没准备好真正自动化编程。他亲身体验发现,对于独特的智力密集项目,模型会失败——它们有认知缺陷,误解自定义代码,因为总是默认使用在线常见模式。他感慨"行业跳跃太大,试图假装这很神奇,但其实是垃圾"。 "九进军"的苦涩现实 从Tesla自动驾驶5年经验,AK深知从90%工作的demo到99.9%可靠产品的"九进军"有多艰难。每提升一个九,都需要massive effort。他提到自动驾驶演示从1986年就存在,2014年他在Waymo车上体验了完美驾驶,以为技术很接近完成。但现实是demo到产品的巨大鸿沟,在高风险领域尤其如此。 在Tesla的五年里,他们可能只推进了两三个"九",还有更多要走。这种现实主义让他对AGI时间线保持谨慎:这是"智能体的十年",不是"智能体之年"。 当前模型就像"有完美记忆的小孩"或"学者儿童"——能通过博士级测试,却认知上还有严重缺陷:缺乏持续学习、多模态能力、有效使用计算机的能力,以及大脑中海马体、杏仁核等关键组件的类似物。 未来的工作模式:自主滑块 AK预测不会出现"瞬间工作替代",而是"自主滑块"模式:AI处理80%常规任务,人类监督AI团队并管理最复杂的20%。有趣的是,当AI自动化99%工作时,处理最后1%的人类反而会变得极其有价值,成为整个系统的瓶颈,他们的薪资也会提高。 教育的范式转换 AK对教育未来的洞察:Pre-AGI时代教育是功利性的(为了工作),Post-AGI时代教育将像健身房一样,为了乐趣和个人充实。 他还分享了一个教学技巧:先展示痛点,再给解决方案。通过展示简单方法的局限性来激发学习动机,这样学习者会深刻理解为什么需要复杂解决方案。 最后,要真正掌握知识,就要试着向别人解释。解释的过程会迫使你面对理解中的空白,这又回到了他的核心观点: 限制和困难往往是学习的催化剂。 这 recall 了之前的观点,真正的技术突破往往需要重新思考基础假设。 也许AGI的关键不是让机器记住更多,而是学会智能地遗忘。
Orange AI tweet media
中文
28
192
862
213.1K
IanZ retweetledi
vLLM
vLLM@vllm_project·
🚀 DeepSeek-OCR — the new frontier of OCR from @deepseek_ai , exploring optical context compression for LLMs, is running blazingly fast on vLLM ⚡ (~2500 tokens/s on A100-40G) — powered by vllm==0.8.5 for day-0 model support. 🧠 Compresses visual contexts up to 20× while keeping 97% OCR accuracy at <10×. 📄 Outperforms GOT-OCR2.0 & MinerU2.0 on OmniDocBench using fewer vision tokens. 🤝 The vLLM team is working with DeepSeek to bring official DeepSeek-OCR support into the next vLLM release — making multimodal inference even faster and easier to scale. 🔗 github.com/deepseek-ai/De… #vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning
vLLM tweet mediavLLM tweet mediavLLM tweet media
English
53
366
2.6K
1.5M
IanZ retweetledi
CZ 🔶 BNB
CZ 🔶 BNB@cz_binance·
Saw this a lot in my feed. DeepSeek out performing the rest in AI trading. How does this work? I thought trading strategies work best if you have your own unique strategy that is better than others, AND no one else has it. Otherwise, you are just buying and selling at the same time as others. A counter argument could be made that enough people use the same AI, then its buying power will push price up by itself, and vice versa. 🤔 There will probably be a lot of people researching AI for trading after this. Expect more trading volumes.
Lao Bai@Wuhuoqiu

今儿应该是被这个刷屏了 - @the_nof1 目前Deepseek遥遥领先! 讲真这比去年Goat/Ai16Z时代的AI Meme给人的“感知感”强太多了,AI X Crypto 终于找到了正确的打开方式?😂 而且你进去看人家每个策略都是有止盈止损点位或者条件的(比如图中Deepseek的ETH 10倍多策略),我一向不提倡玩合约,但你真要玩,也跟人家AI学习下,设置好止盈止损条件再开单不是? 目前几个AI普遍多头为主,好奇过两天市场要是跌一波这些AI的表现会如何……这已经不光是AI之间的PK,也是AI跟咱们这些人类Trader之间的PK(你难道心里不憋着一口气要跑赢他们?)。如果时间线拉长,发现咱们绝大多数人P不过AI,币圈以后的发展方向会不会Cex和Dex上只剩一堆AI策略在P,人类P小将日渐凋零?AI现在连炒币这个“工作”都要从人类这里抢走么?!😱

English
1.6K
517
4.1K
1.9M