电波曲奇

144 posts

电波曲奇 banner
电波曲奇

电波曲奇

@aicookie_tech

小红书 电波曲奇 技术分享,但是讲人话 锐评最新的AI trending topic 整天捣鼓Agent的两个技术人 📮合作:[email protected]

Katılım Şubat 2025
99 Takip Edilen287 Takipçiler
电波曲奇
电波曲奇@aicookie_tech·
这几年大家都在追捧一件事:做AI产品。不管是AI搜索、AI助手还是各种Agent。但我一直觉得还有一个同样重要甚至被低估的方向:对已有产品做AI化。 道理其实很简单。一个是做App早就是存量市场了,你做一个AI产品,竞争对手不是另一个AI产品,而是小红书、淘宝这些已经占据用户时间的巨头,抢注意力太难了。二是你从零做一个AI新物种,DAU能跑到多少?几十万?几百万?AI融入的程度还是很低。但如果是淘宝这种量级的产品被AI重塑,影响的是数亿人的使用习惯。做AI产品是从0到1,产品AI化是从1亿到下一个1亿。 杠杆效应完全不在一个量级。 突然聊这个,因为昨天看到了淘天金码奖团队赛命题《AI原生淘宝》,让你重新想象:如果今天从头发明淘宝,它应该是什么形态?这就是"产品AI化"的终极命题。 简单介绍一下背景。这个比赛的前身是2014年的淘宝技术金编码奖,早年就是个代码评优比赛,但这几年已经完全变成AI时代的技术文化赛事了,比看代码有意思多了,咱们也都能看懂。今年吸引了1000多名技术员工报名,最短司龄才3个月(也就是刚入职就冲进来参赛了,小伙子有拼劲) 那这1000多个工程师拿到"重新发明淘宝"这个命题,会怎么做?我本来以为大家会疯狂堆AI能力,就像很多团队目前在业务场景里做的那样,比如更智能的搜索、更精准的推荐、更强的多模态理解之类的。但看完方案我发现,当大家真正拥有从头重构的自由时,思考的不是"怎么让AI更强",而是"人和商品之间的关系到底应该是什么样的"。 冠军团队"达拉然"(对,就是魔兽世界的达拉然)把整个购物体验拆开重组,核心设计理念是:所有关键决策都是一次滑动:左滑拒绝,右滑接受。 对,你没看错,像Tinder一样买东西。让你在有限信息下快速做出直觉判断。 其他团队的脑洞也很有意思:有团队想把淘宝变成一只专属性格的"电子宠物",有团队做奇迹暖暖式的养成系AI淘宝,甚至带有情感养成和成就系统。还有团队做的是4只有记忆、有判断力的购物搭子精灵,越用越懂你。所以你会发现,这帮工程师在想AI的时候,脑子里想的不只是"更快""更准",他们想的是"更懂我""更像一个活的东西"。 其实从这个比赛能看出淘天内部的AI氛围确实挺浓的,内部的AI投入是多维度且自上而下的。往技术底层看,过去5年淘天在ICLR、ICML、NeurIPS这些国际顶会上发了300多篇论文,往应用落地层看,面向商家的"生意管家"已经升级成电商首个Agent工作台,1个AI店长带6个AI员工帮商家经营,双11期间生成了500万条经营策略,帮商家平均省了30%工作量。甚至连实习生都能拿到和正式员工一样的Token额度和AI工具权限,购买外部AI开发工具还能报销(让我去!!!) 回到开头我们讲的:AI时代,可能不只要关注最新的AI产品,主力产品的AI化,同样是一条充满想象力的路。淘天金码奖某种程度上就是这个逻辑的缩影,不是另起炉灶做一个AI电商,而是让1000多个工程师去思考:淘宝这个已经服务了数亿人的产品,在AI时代应该被重新发明成什么样子。 这个问题的答案还在路上,但光是看这些参赛方案里涌现出的想象力,你会发现,任何一个你以为已经定型的产品,在AI面前都还远没到终局。
电波曲奇 tweet media电波曲奇 tweet media
中文
0
0
0
93
电波曲奇
电波曲奇@aicookie_tech·
节前曲奇就跟大家聊过,混元3 Preview这次画风变了:不打榜,不卷分数,好好紧盯落地场景,但当时评论区质疑声一片,大致还是不相信腾讯会在AI领域有很大的转变。 好,现在数据替我说话了。 截至5月11号,Hy3 Preview在OpenRouter周榜上稳坐第一,并且高达2.68T tokens的周用量,占整个平台12%的流量。对的,一个腾讯的模型,在一个海外开发者为主的路由平台上,吃掉了八分之一的流量,并且收费后依然没有看到猛烈下降的趋势,看这个样式还要在榜一数周。 "曲奇你又在尬吹,不就是因为免费吗?某米登顶不也是因为免费!" 来,我帮你们查过了。Hy3 Preview free版的到期提示是5月8号,我看榜的时候已经是5月11号了,免费结束整整三天,它依然是第一,并且在5月11号的日榜上Hy3 Preview的收费版也登顶第一了。如果只是薅完羊毛就跑的流量模型,三天前就该断崖式下跌了对吧?没有,这说明用户跑通了工作流之后,压根没打算换模型。 而在使用场景的分布,大部分都落在了主流Agent和Coding的场景上: -Hermes Agent:5.82B tokens -OpenClaw:1.44B tokens -Kilo Code:1.12B tokens 这已经不是那种用户随便聊两句,或者"帮我写个周报"的chat流量,这是大量的开发者把混元3 Preview塞进自动化工作流里当LLM引擎来用。说实话,混元之前的版本完全不会出现这种现象,以前谁搞agent会第一时间想到腾讯的模型? 而且价格上:混元3 Preview的输入$0.066/百万tokens,输出$0.26/百万tokens。DeepSeek V4 Flash呢?加权均价输入$0.073,输出$0.281,几乎是同一档位的价格,但是在这个价格区间驱动Agent上,混元3 Preview的效能甚至好于DeepSeek V4 Flash一截! 混元这次到底做对了什么?我总结就三点: 第一,不打榜了,把精力从刷分转向了agentic workflow的实际优化,OpenRouter官方描述里直接写的就是"面向agent工作流和生产场景",定位清晰 第二,价格诚意够, 跟DeepSeek V4 Flash几乎平价,开发者没有成本顾虑。 第三,踩中了/紧随Agent风口, 2026年上半年整个行业都在往agent方向冲,混元3 Preview恰好在这个节点拿出了一个agent场景下真正可用的模型! 说实话曲奇关注国产大模型这么久,混元3 Preview这次是我见到的第一次在海外开发者社区里靠实际用量站稳脚跟,不是靠发论文,不是靠刷排行榜截图发推,也不是靠,而是开发者真的把它塞进了自己的agent里跑起来了。 这才叫翻身,不是翻给媒体和热搜看的,是翻给用户看的。
电波曲奇 tweet media电波曲奇 tweet media电波曲奇 tweet media
中文
0
1
1
271
电波曲奇
电波曲奇@aicookie_tech·
前阵子我测 qwen3.5-omni 的时候,顺手给自己搓了一个 Mac 上的语音输入法demo版,因为对于一个每天都跟Agent打交道的我来说,快速的、有大量内容输入的场景是刚需。一个复杂的任务描述,用嘴说然后让模型来理解,要比你冥思苦想kuku打字憋半天要强多了! 这件事让我越来越确信一个判断:语音输入一定是未来的核心交互趋势。 打字这个事情,本质上太依赖人类的后天训练了,你得学拼音、学键位、练肌肉记忆,才能真正做到"想什么打什么",但说话不用。说话是人类最自然的输出方式,中间不该有这么重的转译成本。 所以这几年我一直在关注这个赛道的产品。之前用过 Typeless,体验确实不错,但是它的订阅我之前就吐槽过,对于一个输入法品类的产品,一个月20刀还是太贵了。我自己也尝试用开源模型搓 Demo,核心功能能跑通,但很多细节的打磨一个人完成太累了。 现在我急需一个免费的、好用的、不影响我Mac原生输入法的产品,也恰恰好今天千问App电脑端自带的语音输入法发布了,切中了我的所有需求,而且免费。 第一个是语音输入的"净化"能力。 它能自动去掉"那个""额""嗯"这些语气词,同时对内容做纠错和格式化整理。这个听起来简单,但真正做过的人知道,光是这部分的模型调优就够折腾很久的。它不只是做 ASR 转写然后删几个词,而是基于上下文去理解你到底在说什么,然后重新组织成干净的书面表达。 第二个是我最喜欢的:口误实时纠正,这个能力之前一直是Typess主打,非常上瘾。比如你说"帮我订一个五点...不对好像是六点的会议室",它不会傻乎乎地把"五点不对六点"全打出来,而是直接理解你的意思,输出"会议定在下午六点"。就这一个功能,就能让语音输入的可用性直接上一个台阶,因为人说话就是会改口的,能处理改口的输入法才是真正懂人话的输入法。 但如果只有以上这些,它也就是个还不错的语音输入工具而已。真正让它和那些纯输入法产品拉开差距的是它支持在语音输入的同时,可以直接调用千问的全部ai能力。 比如你正在写文档,想插入一个数据,直接说"帮我查一下英伟达2025的年的股价涨幅",它就给你查了然后插进去。浏览英文论文看不懂一段话,划选之后说"帮我翻译一下",翻译直接出来。不用切窗口,不用复制粘贴,不用打开浏览器,嘴一张就完事了。 搜索、翻译、解释、总结,全都是语音一句话的事。 更进一步的是,它还能感知屏幕上的内容。别忘了千问还有一个很强的全模态基座。这次真正超出我预期的,是它能感知屏幕上的内容,然后根据上下文执行指令。举个最实际的例子:你收到一封客户的小语种(比如西班牙文)邮件,不用自己组织,对着麦克风用中文说一下大概意思,它直接在输入框里生成格式规范的西班牙文回复。在微信群里有客户突然@你,你说"帮我生成一段高情商回复",它读完对话上下文,直接给你写好。这已经不是输入法了,这是一个能看懂你屏幕的 AI 助手,只不过入口恰好是语音。 简单总结一下:市面上做 AI 语音输入的产品不少,但要么收费不低,要么只解决了"语音转文字"这一层。千问这次做的事情是,把语音输入、语义理解、屏幕感知和AI 能力调用全串在一起,然后免费塞进了自己的 App 里,作为一个产品的完成度是到位的,感兴趣的朋友可以自己去试试,尝试一下口喷驱动Agent的快乐!
中文
0
0
1
247
电波曲奇
电波曲奇@aicookie_tech·
周末在家躺着,突然想起来一件事,上次和朋友去泰国就在讨论,要不要我们做个自己的Splitwise。 Splitwise 的痛点其实不是功能不够,而是体验不够。一个是海外app的ui太硬了,UI 硬、广告多,买 Pro 去广告吧,一年出去玩就那么两三次,为了一个低频需求开会员,总觉得亏。更关键的是,旅行的回忆都跟账单高度绑定:第一天吃的那碗船面、晚餐里大得离谱的虾。除了发朋友圈时精挑细选的几张图,我们还想留住那些没修过的、真实的现场。 所以我想做一个小程序,就叫MemoSplit。功能不复杂:在Splitwise的基础上,能给账单分类(演唱会、吃饭、奶茶..),每笔账单能挂一张照片,一次活动结束后能看到完整的花销图鉴。既是账本,也是旅行手账。最重要的是,没有广告。 正好最近在玩腾讯的WorkBuddy,想着做微信小程序嘛,用腾讯自家的agent开发腾讯自家的生态,肯定是有主场优势的。顺带也测测看刚发布的混元Hy3 Preview。 先给大家看看成果,一下午不到搞出来的,我还挺满意的。首页管理不同的活动,点进去有时间线和网格两种视图,能专注账单也能专注回忆。每笔消费带着照片和分类标签,分类页还能看到交通占了多少、吃饭占了多少,结算页直接告诉你谁该转给谁多少钱。翻着泰国之旅的账单,看着那些食物照片,突然觉得这钱花得还挺值的,这班也又有动力了。 再说说过程。WorkBuddy上来先跟我聊了好几轮需求,分类怎么设计、结算逻辑怎么算、照片怎么跟账单关联。聊完之后它就开始干活了,我就直接去睡午觉了。醒来发现,做完了。整个项目结构清清楚楚,按它给的步骤导入微信开发者工具,直接就能预览。31个工具调用,37条过程消息,跑了大概一两个小时。 周末干活最理想的状态就是不干活嘛,交给agent然后昏睡,这个体验确实到位。长时间、复杂任务不掉链子,WorkBuddy和Hy3 Preview在这块协作得挺好。 当然,预览出来之后就进入了漫长的调整期(最痛苦的时候。。)颜色不对、间距太大、按钮没反应,无尽的调整。Hy3 Preview的响应速度是不错,改单个问题很利索,但如果我一口气报三四个bug,它有时候会丢一两个,得再提醒一遍。前端的视觉还原也要多磨几轮,大概2-3轮才能改到位。公平地说,这不全是模型的问题,我自己前端就是半吊子,描述bug的方式可能也不够精确。而且跟其他模型合作基本也是这个节奏,不过确实感觉glm5.1在定点修bug上手感更准一些,经常1-2轮就搞定了,Hy3可能要多磨一会儿。 抛开体感上的小摩擦,拉远了看Hy3 Preview本身,我觉得还是个挺大的进步。这两天正好看到很多媒体的报道,有些细节挺触动我的。Hy3不是在上一代基础上修修补补,是推倒重来。内部的说法是"把房子拆了重盖",原有的训练框架没沿用,Agent系统几乎从零搭建,1月底才正式启动预训练,三个月就发布了,而行业通常要六个月起步。 新模型谈不上顶级模型,毕竟还只是一个不到300B的Preview版。发布时机也确实尴尬,前面GPT 5.5后面DeepSeek V4,Hy3夹在中间,热度少了不少。但看OpenRouter上的数据,今天token调用量悄悄爬到了第五,热度是一回事,真用起来的人还是在用的(当然限免也是个原因,本地跑agent费token的同学可以去薅一波) 对了,MemoSplit现在还没上线,第一次做小程序,被审核流程卡住了。。功能上我自己也还想再调调,感兴趣的朋友可以先蹲一波,等搞定了再来更新
电波曲奇 tweet media电波曲奇 tweet media电波曲奇 tweet media电波曲奇 tweet media
中文
0
0
1
157
电波曲奇
电波曲奇@aicookie_tech·
根据教育部的数据,全国普通话普及率大概在80%出头,听起来不低,但这个数字在农村老年群体中直接腰斩。65岁以上的农村老人中,能熟练使用普通话交流的可能只有三四成。中国有将近3亿60岁以上的老人,你算算,有多大一个群体,日常沟通就靠方言。 这意味着现在市面上几乎所有的AI产品、智能家居、智能音箱,对老年群体来说约等于不存在。 讲个我自己家里的事。我外公外婆退休了住在村里,退休金也不少,但老人家一辈子节俭惯了又爱贪便宜,特别爱报那种三四百块的旅游团,去一次被坑一次。什么玉器城"免费参观"、保健品"专家讲座"、土特产"工厂直销",每次回来大包小包全是智商税。我们家人说了无数次,"你们报名之前问问AI有没有坑啊""买东西之前拍个照让AI帮你看看值不值这个价"。我们做小辈的在外面上班,没法时刻盯着,总想着能让技术帮点忙吧。 结果每次都是同一句话怼回来:"打字不会打,语音它又听不懂我说的话。。" 你看,问题根本不在老人不愿意用科技,而是科技压根没打算服务他们。 今天看到阿里发了新语音模型Fun-ASR 1.5,还打出“方言工业级可用”这个定位的时候,说真的,我是有点被触动的。老年人的需求,终于是被人看见了。 先看Fun-ASR做了什么:覆盖七大汉语方言体系,官话、吴、粤、闽、客、赣、湘,加上20多种地方口音,其中5种方言识别准确率超过90%,15种超过80%。我拉着家里人实测了一下,湖北方言确实能扛住,识别结果比我预期好不少。 但参数不是重点,重点是它把一整片原本被锁死的场景撬开了。 比如"适老化"智能家居。现在市面上所谓的"适老化"智能家居,大部分还停留在"把字号调大"的水平。但核心问题从来不是字号,是交互方式。 老年人最自然的交互就是说话,而且是说方言。他们腿脚不方便、记性不好、眼睛看不清,这些恰恰是语音交互最能解决的问题,但之前全卡在"听不懂"这一步。如果智能音箱能听懂四川话的"把灯关了"、听懂湖南话的"开个空调",那智能家居才算真正走进了老年人的生活。 再往下想:乡镇卫生院的医疗问诊,老人用方言描述症状,AI能记录能辅助;政务服务热线,老人打电话不用再费劲憋普通话。这些场景的需求一直都在,只是一直没有技术兜底。 回到我外公外婆的故事。如果有一天我外婆能用方言对着手机说"我看到一个旅游团,398块钱去桂林五天四夜,你帮我看看靠不靠谱",“这个5000块,说对心脏好,值得买吗?”AI能听懂、能回答、能提醒风险。这得帮多少老年人避坑?能给多少在外面打工、没法时刻盯着的子女省心? 其实方言只是真实语言世界的一个切面。现实中人说话从来都不"纯净",方言是,多语种混说也是。Fun-ASR 1.5另一个让我眼前一亮的能力,就是30种语言的Code-Switching,一段话里多种语言混着说,不需要提前设置语种标签,模型自己识别切换。 这功能可能只有外企牛马有体会。。你以为我们开会说的是中文?不是。英文?有时候也不是。我们说的是混合语言,随便感受下日常画风:"这个project的timeline有点tight,我们需要align一下各个team的priority,然后尽快把proposal finalize掉,不然下周的review肯定来不及。" 我知道很装,但工作环境确实就这样😂 不过中英混说的场景多,有些asr也能覆盖。但你再想想中国香港职场的英粤普三语混切、日企德企在华分部的中日中德混说、出海企业跟海外团队天然的多语种沟通。这个需求面比"外企打工人"要大得多。对做会议纪要产品和出海客服系统的团队来说,如果能一个模型打天下,不用为每个语种切换不同的识别引擎,是能实打实降本的。 最后多说一句。我一直觉得,技术最动人的时刻,不是跑分第一的时候,是让一个原本被排除在外的人,终于能用上的时候。 我外公外婆可能永远不会知道什么是Fun-ASR,什么是CER,什么是端到端大模型。但如果有一天,我外婆能对着手机用方言说"帮我查一下这个旅游团靠不靠谱",然后真的得到一个有用的回答,那这个技术就值了。
中文
0
0
0
192
电波曲奇
电波曲奇@aicookie_tech·
跟很多人一样,我真正关注具身智能是从去年春晚宇树群舞开始的。之后人形机器人越来越猛,跑步、翻跟头、关节丝滑。大语言模型这边也在狂飙,LLM什么都能聊,Agent帮你订机票写报告。 手脚够灵活了,语言也掌握得够好了,按理说离科幻片里的Eva就差临门一脚。 去年,硅谷的NEO带着这个期待上市了。OpenAI亲投,顶级LLM,机械素质高到操作员戴VR头盔远程遥控它叠衣服、装洗碗机都没问题。但华尔街日报实测:每项任务全程需要操作员后台遥控,从冰箱拿瓶水花了一分多钟。 脑子是最聪明的脑子,身体也都做得到,凑一块就不行。为什么? 很多人会想:现在AI Agent不是挺强的吗?"帮我订张机票"说一句就行。机器人为什么不能像LLM理解"收拾桌子"一样,拆成"拿杯子→放水槽→擦桌面",每步调个function? 这是最大的误区。 send_email()调1万次逻辑一模一样。但"拿起杯子"根本不存在标准API。 杯子玻璃的还是陶瓷的?装了多少水?把手朝哪边?手指该用多大力?太大碎了,太小滑了。而且一切在毫秒级不断变化。这不是函数调用,这是连续的、实时的、自适应的物理控制问题。 用咱们自己打比方:LLM是前额叶,负责思考规划;机械关节是肌肉骨骼。但人能拿杯子、骑车、叠衣服,还要靠运动协调和精细控制。就像小孩学骑车,你讲100遍平衡原理也没用,该摔还是摔,得靠身体一遍遍试错练出运动直觉。 但现在的机器人,恰恰缺的就是这个。 这个问题全行业都看到了,但一直到前两天,自变量机器人“一个家庭成员的诞生”发布会,以及会上发布的具身智能模型 WALL-B,才让我第一次看到这个问题的正面回答。 这家公司之前可能很多人没听过,但背景不弱:字节、美团、小米战投先后押注,最新一轮由小米战投领投,今年年初公司估值已经过百亿。 发布会上,自变量机器人发布了新一代具身智能基础模型WALL-B,表示要填上"大脑"和"四肢"之间的鸿沟。他们的核心思路是不要再把视觉、语言、动作当三个模块拼积木了,扔进同一个网络里一起训练。 自变量管这叫"世界统一模型架构"(WUM)。自变量CTO王昊打了个比方:以前具身智能行业主流的VLA架构,就像CPU和GPU各干各的,数据搬来搬去损耗严重。视觉模块明明看到了"装着半杯咖啡、把手朝左的马克杯",传到动作模块就只剩"前方有个东西"。而WALL-B类似苹果M1芯片的统一内存架构,让视觉、触觉、语言、动作、物理预测原生在一个网络里,不搬运,无损耗。 这么说可能还是有点抽象。再换个更直觉的比方:传统VLA像跨国公司协作,一个中国人说了一段话,先翻成英文给美国人,美国人理解后再翻成日文给日本人执行。每翻一层就丢一层意思,最后日本人执行出来的跟中国人原本想表达的,可能已经面目全非。WALL-B的做法是:让这三个人从小一起长大,天生就说同一种语言,压根不需要翻译。 具体带来三个关键变化: 第一,它不只是"认出"杯子,而是"理解"杯子。 把手朝向、水量多少、材质轻重。这些信息不再在模块间传话时丢失。它还有所谓的"原生本体感",不用照镜子就知道自己手臂伸多长、能够到哪里。 第二,它具备了"物理直觉"。 人不需要谁教就知道桌边的盘子会掉下来,因为我们天生理解重力。WALL-B通过统一架构学习了这些物理规律,能预测没见过的场景。如果这个能力是真的,它就有了零样本泛化的可能。不用每种新杯子都从头教一遍。 第三,它被设计成能从失败中自己学习。 现在的机器人普遍"玻璃心",失败一次就停机等工程师来重新训练。WALL-B的设计是像小孩学走路一样,摔了自己爬起来调整再试,成功经验直接内化进模型。 但说实话,架构层面的故事我听太多了。真正让我觉得这家公司想明白了的,是他们对数据的态度。自变量内部把训练数据分两类:糖水数据和牛奶数据。 糖水数据就是实验室数据。环境干净、灯光完美、桌面标准、没猫没孩,一切变量可控。量大便宜好看,但训练出的模型就像在泳池里学游泳,进了真实环境这片"大海",就呛水。牛奶数据是真实家庭的脏乱差数据。100个家庭100种杯子、1万种摆放方式,猫随时跳上桌,地毯和地板摩擦力完全不同。采集成本高、量少、混乱,但这是唯一能让模型获得真正鲁棒性的东西。 这个判断其实和Yann LeCun的观点高度吻合。LeCun一直在说,当前LLM靠scaling文本数据已经接近瓶颈,互联网文本基本快用完了,未来的关键战场在世界模型,而高质量的、带动作标签的真实世界数据才是核心瓶颈和竞争壁垒。自变量做了件很笨但可能很对的事:团队实打实进了超过100个志愿者家庭采集数据。一旦飞轮转起来:机器人进入家庭→产生数据→模型进化→能力更强→进入更多家庭。这个先发优势会越滚越大,后来者想追,反而得先解决"去哪找这么多真实家庭让你进门"这个非技术问题。 发布会最后,创始人王潜给了个deadline:5月25日,搭载WALL-B的新一代机器人首批入驻真实家庭。 他也很实诚,说了现阶段还是"婴儿期",复杂任务仍需后台远程协助,边看边干边学。 我对这种坦诚反而有好感。具身智能这条赛道上,吹的人太多,敢说自己是婴儿的太少。在中国做具身智能的公司里,自变量是我看到的第一个好好思考这件事、不装、还敢给deadline的。
电波曲奇 tweet media
中文
0
0
0
300
电波曲奇
电波曲奇@aicookie_tech·
今天下午到现在基本什么都没干,就在疯狂用ChatGPT出图。了解AI圈的朋友应该猜到为什么了 GPT-Image-2,我被灰度到了。 前前后后跑了20多张图。先说结论:这次GPT-Image-2把AI生图的信息密度和真实性被拉到了一个离谱的水平。 什么意思呢?以前我们评价一个生图模型厉害,标准是"画面好看、文字没拼错"。但gpt-image-2可以让它一次性生成一张人物关系图、一整页游戏攻略全图鉴、一套品牌联名提案(主视觉、包装、户外广告、传播方案全塞在一张图里),甚至一张航天主题海报上标注二十八星宿的名字位置,它都能排得明明白白。这已经不是"生成一张图"了,这是"生成一个版面"。 信息密度够了,质感呢?我拿世界名画试了一组,效果是意外收获。 蒙娜丽莎喝喜茶、戴珍珠耳环的少女端着老虎堂、维米尔那幅《倒牛奶的女仆》变成了倒旺仔牛奶、莫奈的睡莲池里漂着三得利乌龙茶瓶子。品牌文字全对,油画笔触和质感完美保留,融合感比我预期自然太多了。 说真的那张旺仔牛奶我笑了很久。维米尔要是活着,大概会去找旺旺谈代言费。 但真正让我有点坐不住的,是它结合真实世界场景的能力。 我让它模拟了一些社交媒体截图:名人发推特、微信朋友圈、抖音直播间画面。说实话,UI仿真度高到有点吓人了。特别是我做了一张"梁文峰发布DeepSeek V4"的模拟截图,发给同事的时候,对方秒回了一句"今晚又要加班测评写文了???"他真信了。我赶紧解释这是AI生成的,对面:"。。。。""赔钱给我!!!" 一个AI生成的假截图,居然骗过了一个天天跟AI打交道的人。 最后聊聊OpenAI的节奏,因为这波确实没猜到。 前段时间他们刚砍了Sora 2,算力资源全线回撤,外界普遍解读是"为了上市,把资源集中到最火的coding赛道",毕竟GPT 5.4的工程能力确实上了大分,coding也是Q1最热门的话题,逻辑上完全说得通。结果人家在这儿藏了波大的。 视频生成那边战略性撤退,图像生成这边直接甩出一个断档级产品。sam,你还是有一手 今天这20张图测下来,我的判断是:AI生图的竞争已经在"能不能用语言直接交付设计需求"的维度。 GPT-Image-2交出的答卷是:能。 至于它会带来什么新的问题,你看看我同事被那张DeepSeek V4截图吓到的样子就知道了。
电波曲奇 tweet media电波曲奇 tweet media电波曲奇 tweet media电波曲奇 tweet media
中文
2
0
1
1.9K
电波曲奇
电波曲奇@aicookie_tech·
这个4月,国产大模型是真的卷疯了,作为用户我只能说,继续卷,我们爱看。 这才4月过了大半,国产全能大模型接连发布,一个比一个猛。月初GLM5.1刚让人眼前一亮,Kimi2.6和MiniMax-M2.7紧接着跟上,听说混元T3和DeepSeek V4也快来了。结果今天阿里悄悄丢出了Qwen3.6-Max-Preview,在权威三方评测平台Artificial Analysis上,一把超过GLM5.1、MiniMax-M2.7,直接登顶最佳国产模型。 具体看这个Qwen3.6-Max-Preview,主要在三个方向上了大分:智能体编程、世界知识、指令遵循。尤其编程这块,SWE-bench Pro、Terminal-Bench 2.0等六项主流编程基准全部拿下最佳,属于那种不是单项突出、而是全面碾压型选手。知识和指令遵循的评测也刷了新高,说白了就是更聪明、更听话、更能干活。 但千问最有意思的一直不是分数,而是不同尺寸,不同场景模型的生态连招。前有Qwen3.6-Plus登顶OpenRouter日榜周榜趋势榜三冠,开源的Qwen3.6-35B-A3B登顶HuggingFace全球开源榜,现在Max预览版又拿下Artificial Analysis最佳国产模型。三个模型产品,三个平台,三个第一。不管你是开发者、企业用户还是普通玩家,千问3.6系列模型基本都给你安排上。 想体验的可以去Qwen Studio免费试,开发者也可以走阿里云百炼拿API。
电波曲奇 tweet media
中文
0
0
2
1.2K
电波曲奇
电波曲奇@aicookie_tech·
OpenRouter的匿名模型盲盒,又上新了。 熟悉这个套路的朋友应该还记得:之前Pony Alpha被智谱GLM5认领;再后来Hunter Alpha和Healer Alpha被小米认领,分别是MiMo-V2-Pro 和 MiMo-V2-Omni。一个比一个猛,GLM5是744B参数的全能选手,MiMo-V2-Pro更是直接卷到了1T,全都是“我很大、我很强、我全都要”的思路。 但前几天匿名上线的Elephant Alpha,居然只有100B。 响应速度平均1.23秒,和GPT-5.4 Mini几乎一样快,看着是个 flash 路线的模型。按照前几次的规律,大概率又是中国团队的作品,但这次卷的是:Token Efficiency,用更少的 token 把活干完。 说实话,我一开始是有点不以为然的。。我自己是Claude 4.6 Opus重度用户(我相信大部分看到这篇文章的朋友们也是)对不起,我就是懒,不想事无巨细的动脑子,什么事都甩给最强的模型在我的工作场景里是最省事的。Opus 贵是贵,但一把梭的快感真的很爽。 但最近跟AI startup的朋友聊天,被打了一下脸。他们告诉我,公司内部开发中用得最多的,是flash级别的模型。我当时就:???你们不怕它傻吗? 他说,我们有一整套自己的workflow,flash模型在里面跑得又快又稳,“大”模型反而因为太慢、太贵、输出太啰嗦,性价比不高。 这个认知冲击挺大的。因为个人用户和小团队用户的需求逻辑完全不一样。 个人用户要的是"一次对话解决问题",所以越聪明越好;但小团队搭的是自动化工作流,一个任务可能要模型跑几十上百次,这时候速度、一致性、token成本是最重要的。大厂有钱可以暴力堆算力不在乎,反而是这些小体量团队,逼着自己找到了更高效的路径。 Elephant Alpha 的出现,某种程度上就是在回应这个趋势。 效果上,我拉了一下AI BENCHY的数据,我挑了四个体量相近的模型横向对比:Elephant、Qwen3.5-122B-A10B、gpt-oss-120b、GPT-5.4 Min,几个关键发现: 一致性9.6,第一。 这个指标对跑workflow或者接入业务的人来说可能是最值钱的。搭了一套流程,最怕的就是模型"时灵时不灵"。 输出token最少。 Elephant输出2,573个token,而gpt-oss-120s是44,652 个,差了 17 倍。但两边的综合分数几乎一样(5.2 vs 5.2)。所以gpt-oss-120b 用了17倍的废话量,达到了同样的效果。。放到agent场景或者多agent里,每一跳都多吐17倍的context,token费用像滚雪球一样往上翻 响应速度1.23秒,和GPT-5.4 Mini的1.17秒基本持平,比Qwen3.5-122B(3.69s)和 gpt-oss-120b(11.96s)快了一个量级。在agent多步调用的场景里,每一步省零点几秒,整条链路下来差距就是分钟级的。 再看实测。我选了一个非常简单的场景方便大家快速感知差异,代码生成的case行数和质量很难平衡评估,所以这里用了一个fc+总结的case“4月15日收盘NVIDIA的股价”,看看效率和准确性怎么样? GPT-5.4 Mini在 Bloomberg 页面上看到了 Market Closed 但拿不到具体数字,gpt-oss-120b 直接道歉说没找到。 而Elephant和Qwen都准确返回了 198.87 美元,100B的Elephant稳稳答了上来,并且还是更简短、直接的方式。用更少的字把事情说清楚,同时还跑得快,这就是Elephant的优势。 当然,得说不足。Elephant 的综合评分5.2,只能算中规中矩,遇到那种需要死磕推理能力的硬题,它大概率还是会输给更大更专精的模型。它不来抢"最聪明"这个 title 的,这恰恰是有意思的地方。 和行业主流的"更大、更贵、更聪明"不一样,Elephant Alpha代表的是:极致的token效率。上线两天就冲到OpenRouter趋势榜第2、token用量日增近500%,说明市场确实是需要的。 这是一个不同的优化方向。就像我那个做 startup 的朋友说的,最好的模型不是最聪明的那个,是最适合你场景的那个。最近应该就有官方认领。按之前的规律,我赌五毛又是中国团队。到时候见分晓
电波曲奇 tweet media电波曲奇 tweet media电波曲奇 tweet media电波曲奇 tweet media
中文
0
0
1
340
电波曲奇
电波曲奇@aicookie_tech·
SBTI爆火之后,我几个朋友跟我说:"这一看就是vibe coding做的,这么粗糙就火了啊?"。小红书上还有个爆火的帖子"sbti的第一想法是,这vibe coding写简历上春招不是狠狠拿offer吗?" 大家的注意力全在"怎么做"上。但我的感受完全相反。 2026年了,用AI编程做个小产品完全游刃有余。 Claude code, cursor,或者完全没技术背景的人用秒哒这类无代码平台,你用嘴说一句话就能生成一个完整应用。S做个大型需要长期运维的平台另说,但搞个自己的小工具、小应用、小副业,技术真的不是门槛了。 所以理论上:2026年,谁都能做产品,谁都能搞副业,谁都能OPC。 但多数人还在原地观望。为什么?因为没有想法。 当执行成本趋近于零,真正卡住你的就变成了:你对行业的理解、对用户痛点的嗅觉、对趋势的判断,甚至包括能不能把一个模糊的想法清晰地描述出来,让agent替你执行。这些东西,不是刷十篇公众号、收藏200个prompt模板能解决的。 你可能觉得刷刷信息流、看看行业报告就能找到灵感。曲奇最开始做内容的时候也这么想。但后来去了几次线下论坛和展会之后发现完全不一样。最高效让我冒出新点子的场景,几乎都是跟人面对面聊出来的。 跟不同背景的人聊上几句,总会有那种"啊?原来这个场景还能这么做?原来这行业的人是这么想的?"的瞬间。有些灵感后来真的变成了我在做的项目、我写的笔记。 说这些是因为,5月13-14号,百度Create 2026来了。看完议程我觉得,这大概是上半年最该去的一场AI大会。讲几个原因: 第一,今年技术+落地两会合一,信息密度翻倍了 百度把Create AI开发者大会和云智大会合二为一了。以前Create偏技术和开发者,云智偏企业和产业落地,两拨人各聊各的。今年直接打通,意味着你在同一场大会上,既能看到最前沿的技术发布和demo,又能看到各行业真金白银砸出来的落地案例。从灵感到变现的完整链路,一次参会都能感受到。对于正在找方向的人来说,这种碰撞效率是纯线上交流比不了的。 第二,主题叫“万物一体”,智能体要全面铺开了? 我猜这个"体"大概率就是Agent。去年是agent元年,今年年初已经明显可见地再次爆发。而且百度自己也一直在布局:DuClaw打通了小度硬件和百度地图,一条语音指令就能走完日程查询+天气路况+出行规划的全链路;伐谋Agent 2.0刚登顶MLE-Bench榜首;再加上秒哒、文心助手、数字人…… 第三,也是最吸引我的,它专门设了"超级个体主论坛" 这在国内AI大会里几乎是头一次。正面回应一个所有人都在想的问题:普通人到底怎么用AI赚钱? OPC怎么从概念变成现实?1个人+N个AI智能体能不能真的等于一家公司?终于有一场大会愿意把这个事情拿到台面上认真聊了,怎么变现这件事,我觉得真的值得听一听 从去年开始真正的稀缺资源不是AI工具,人人手握,家家都有,"知道该做什么"的那个灵光一闪更稀缺。 而那个灵光,大概率不会在你刷第201个教程的时候出现,它更可能在你走出去、跟真实的人聊完之后蹦出来。 5月13号,北京见。
电波曲奇 tweet media
中文
0
0
1
347
电波曲奇
电波曲奇@aicookie_tech·
说个抽象的事。 最近刷X,发现一堆抽象贴:一帮老外,在非常认真地讨论怎么注册微信、怎么绑支付宝、怎么通过中文图形验证码。 到也不是签证开发后来旅游,纯粹是因为他们想买一个中国公司的编程订阅服务:智谱GLM Coding Plan。 笑死,两三年前,这个画面是反过来的。中国开发者为了用上ChatGPT,买海外手机号注册、借信用卡付款;甚至最近也是,我们还在各种平台分享、讨论"怎么不被Claude封号"的生存指南。一直以来,我们是追着别人跑的人。 今天,攻略帖的方向调转了180度。老外在问:"Do I need a Chinese ID?"、"Can I use a foreign credit card?"。X上甚至已经出现了专门帮外国人代购GLM的"中间商",有人直接发推说可以帮买赚差价。 国内🐟就更不用说了,"代抢GLM Coding Plan"已经跟演唱会门票抢购并列,成为2026年最离谱的的黄牛新赛道。 国内这边有多疯,我是有切身体会的 GLM Coding Plan每天上午10点放量,9点59分页面还能打开,10点整直接过载白屏,10点01分刷进去,售罄。从最便宜的Lite到最贵的Max,全线秒空。 我一开始老老实实手动抢,连着好几天颗粒无收,抢演唱会练习来的手速完全没用上。。。于是我决定:让GLM帮我写了个抢GLM的机器人。每天9:58自动启动,10点整准时请求,用魔法打败魔法。上次发了这事之后,还有人私信我🐟账号想买这个coding plan……大哥,我真不干这行。 一个AI编程订阅服务,居然能催生出黄牛经济和抢购脚本,你放在两年前跟任何人说,没人会信。而且两个月过去了,热度不但没降,反而随着GLM-5.1的发布又往上窜了一截。 海外为什么跨着时区来抢? GLM-5.1发布之后,Coding Plan海外版调了价,三档分别是$18、$72、$160/月。这个定价放在国际市场上不算离谱,跟Claude、Cursor一个梯队。都来买主要还是是模型能力实打实追上来了,SWE-bench Pro 58.4,超过了GPT-5.4和Claude Opus 4.6。大家用过之后也都发现真好用啊。 但架不住有人发现:中国版更便宜。 于是老外们开始互相安利、分享怎么绕到中国版网站上去下单,怎么搞定中文界面,怎么支付。还有用户发帖炫耀说"还好我去年就买了GLM Max年度会员";甚至有人推荐定闹钟,跨时区蹲守北京时间早上10点,跟国内用户一起抢。画面感拉满了。 但价差只是表面原因。真正让这帮人愿意折腾的,是模型本身够硬。 如果GLM只是"便宜",顶多吸引一波羊毛党。可现实是,海外开发者社区里已经有人把它评为"quality and price都最佳"的选择,所以引发了疯抢。 这就引出了一个我觉得很关键的点:好的模型、好的产品是有定价权的。苹果是最经典的例子,全行业都在卷性价比,它逆势提价,销量反而更稳。智谱这次是一样的道理:别人都在打价格战往死里卷,它反手提价,结果销量不降反爆。 涨价还能卖爆,在任何行业里都只意味着一件事:你的产品从"可选项"变成了"刚需"。 这个逻辑在iPhone身上验证过,在Claude身上验证过,今天它在GLM身上同样成立。 说实话,我写这篇的时候心态挺复杂的。 一方面,作为一个多年的AI从业者+个人开发者,看到中国的模型终于杀到了全球开发者"追着买"的位置,确实有种扬眉吐气的感觉。另一方面,我又清醒地知道,技术竞争是动态博弈,今天的领先不等于明天的优势,OpenAI和Anthropic也没闲着。 但至少此时此刻,有一个事实是确凿无疑的:从2022到2026,四年时间,我们终于看到了一个时刻,全球开发者开始为一个中国AI模型定闹钟、学中文、研究支付宝。中国AI从追随者变成了被追随的对象。
电波曲奇 tweet media电波曲奇 tweet media电波曲奇 tweet media电波曲奇 tweet media
中文
0
0
0
763
电波曲奇
电波曲奇@aicookie_tech·
不知道有多少人跟我一样,上学的时候不爱记笔记,工作之后也没自己的知识沉淀体系,全靠自己的脑子硬记,并且每次看笔记自律博主,都会莫名的焦虑。 这不是因为我们懒,是因为传统的知识管理方式,本质上是在要求你做一件违反人性的事:手动整理、手动归类、手动维护交叉引用、手动保持信息更新。人类会放弃维护 wiki,不是因为没有需求,是因为维护成本的增长速度永远快过你从中获得的价值。 但今天这个问题有解了。 今天曲奇分享一个我这两天搞出来的拼好库:Kimi 2.6-Code-Preview + Karpathy 的 LLM Knowledge Bases 理念 + 一泽老师的 Web Access Skill,三块积木拼在一起,搭出一个真正能跑起来的、基于飞书的个人互联网知识库。你不用记笔记,不用手动整理,甚至不用自己去各个网站上翻信息,一套工作Agent全帮你干了。 一、先说引擎:为什么是 Kimi 2.6 我又拿到 Kimi 的最新模型了哈哈哈(没错又是我),但这次不仅是为了尝鲜,是因为 Kimi 2.6 的几个更新,刚好精准命中了"用 Agent 跑知识库"这个场景的核心需求。 第一,泛化性明显变强了: 跨框架、跨版本的适配能力提升很大,不管你丢给它什么技术栈的任务,它不会动不动就用过时写法把自己卡死。 第二,决策效率肉眼可见地提升了: 同样的任务,步数平均少了 35% 左右,少走弯路不只是省时间,更重要的是省 token(省了money) 第三,长程任务能力显著提升:构建知识库是一个连续的、多步骤的工程:抓取内容→理解结构→创建文档→维护索引→更新交叉引用,这条链路里任何一环断了都前功尽弃。Kimi 2.6 在这类任务中的需求遵循和自我纠错能力比之前好太多了 但最关键的是第四点:对飞书 API 的调用稳定性和成功率大幅提升: 这一点直接决定了我后面要讲的整套方案能不能跑通,之前用其他模型调飞书的 API,经常出现参数传错、权限没处理好、文档创建失败之类的问题,debug 的时间比写 prompt 的时间还长。Kimi 2.6 在这块的表现明显更鲁棒了,它能深入阅读飞书CLI找到正确的调用方式,而不是猜一个大概然后让你帮它擦屁股,基本上新的Kimi 2.6-Code-Preview能有GPT5.4九成的功力,但是Tokens消耗量能降到1/5左右,的确是多快好省了! 所以 Kimi 2.6 就是这套知识库系统的核心引擎,是驱动整个知识库轮转的那颗心脏。 二、框架:从 Karpathy 的 LLM Wiki 到飞书版 接下来说框架,最近 Karpathy火遍全网的LLM Knowledge Bases。核心理念一句话概括:不要让 LLM 每次都从原始文档里重新"发现"知识,而是让它增量式地构建和维护一个持久化的 wiki。 你每加一个新来源,LLM 不是简单地索引它等着以后检索,而是真的读懂它,把关键信息整合进已有的知识体系 Karpathy 的方案是让知识真正沉淀成一个不断复利增长的资产, 你的每一次提问、每一次探索,都会被 LLM 归档回 wiki,让下一次查询变得更好,这个 wiki 是活的。 但Karpathy 原方案里用的是 Obsidian + 本地 Markdown 文件 + Git,整体架构分三层:Raw sources(原始来源)→ Wiki(LLM 维护的结构化知识库)→ Schema(告诉 LLM 怎么维护的规范文件),配合 Obsidian 的双向链接和图谱视图,效果很好。 但我用了几天之后发现了一个问题:这套方案太Local了。 Obsidian 的所有东西都绑在你的电脑上,你换台设备就没法看,想分享给别人得导出文件,协作更是别想,而且说实话,大部分普通人的知识管理需求没有复杂到需要一个完整的本地 Obsidian Vault,我们更需要的是随时可用、可分享、可协作、云端同步的方案。 所以我做了一件事:把整个 LLM Wiki 的架构迁移到了飞书上 具体来说,我对 Karpathy 的原始 Prompt 做了调整(Prompt见评论区),将存储方式、读取方式、版本控制、操作数据库的方式都转移到了飞书上 这里要特别夸一下飞书的 CLI 工具(lark-CLI),真的非常好用,强烈建议大家试试,装好之后 我坐在那看 Agent 在飞书里一个个创建文档、维护索引、建立交叉引用的时候,有一种"这才是知识管理该有的样子"的感觉。 三、最后一块拼图:Web Access 但到这里还差一个关键环节,信息从哪来? Karpathy 的原方案里主要靠手动用 Obsidian Web CLIpper 剪藏网页,或者把本地文件丢进 raw 目录,这对于学术场景够用,但对于我们想要抓取微博、B站、虎嗅、国外网站这些活生生的互联网内容来说,远远不够。 这些平台,大部分都有限制,你用普通的 fetch 或者搜索引擎根本拿不到有效内容,而这时候就该请出一泽老师(也是我的好朋友)开发的 Web Access Skill 了。 Web Access 是一个通用的 Agent 联网 Skill,装上之后你的 Agent 基本上就解锁了完全体联网能力,它的核心设计思路很有意思:不是为每个网站写一套抓取规则,而是给 Agent 一套"怎么思考联网任务"的策略哲学 + 完备的工具集,让 Agent 自己判断该用搜索引擎、静态读取还是打开浏览器操作 (具体安装和使用的话,大家搜一下Web Access 就好了,一键安装没有难度!) Kimi2.6+飞书CLI+Web Access:信息获取 → 知识整理 → 持久化沉淀,整条链路就这么通了。 四、实战:用这套方案构建 Anthropic Learn 知识库 说了这么多,上一个真实 Case。 我拿 Anthropic Learn(Anthropic 的官方学习门户)做了个实验:让 Agent 自动抓取里面的所有课程、文档、指南内容,然后在飞书上构建一个完整的个人知识库。 整个流程是这样的:Agent 通过 Web Access 打开 Anthropic Learn 的页面,抓取课程列表和各板块内容,然后在 Kimi 2.6 的驱动下,调用 lark-CLI 在我的飞书知识库里创建了一整套结构化文档:最终收录了 17 门课程、80+ 外部链接、4 大分类,页面之间通过飞书的链接实现点击跳转,完整的交叉引用一应俱全。 关键是:在 Kimi 2.6 的驱动下,这整个过程完美的一把通过, 没有中途断掉让我手动修、没有创建文档失败需要重试、没有把知识库结构搞乱需要我去收拾残局,它就是稳稳地一步步完成了从信息抓取到知识库构建的全流程。 这就是我说 Kimi 2.6 对飞书 API 支持度"鲁棒"的意思,Kimi2.6能在一个复杂的长链任务中,持续、稳定、正确地调用几十次飞书 API,还不翻车。 现在这个知识库是活的,我可以随时让 Agent 去抓取新的 Anthropic 博客和文档来更新相关页面,可以针对某个主题(比如 MCP 或 Prompt Engineering)做深挖创建独立的概念页,也可以定期让 Agent 跑一遍"健康检查",找断链、查过时内容、补缺失引用! 我的知识在复利增长,而我几乎不用动手。 五、写在最后 回到开头的话题:为什么我们不爱记笔记? 因为记笔记这件事的本质矛盾在于:产出知识是有趣的,但维护知识是无聊的。 人类会放弃维护 wiki,是因为更新交叉引用、保持摘要同步、标注信息矛盾这些事太枯燥了,但 LLM 不会觉得枯燥,它可以在一次操作里更新 15 个文档的交叉引用而面不改色。 Kimi 2.6 在这套方案里扮演了一个不知疲倦的知识管家, 它的泛化性让它能应对各种来源格式,它的决策效率让整个流程不拖泥带水,它的长程任务能力让复杂的知识库构建全速跑通,它对飞书 API 的深度理解让整条工具链真正可靠。 再加上 Web Access 补齐了互联网信息获取这块,Karpathy 的 LLM Wiki 理念提供了知识架构的灵魂,这三块积木拼在一起,你终于可以拥有一个不需要自己动手维护的、会自己生长的个人知识库了。 你只需要做你最擅长的事:好奇,提问,然后让 Agent 去回答你。
电波曲奇 tweet media电波曲奇 tweet media电波曲奇 tweet media
中文
0
0
1
713
电波曲奇
电波曲奇@aicookie_tech·
刷到一张图,亦庄街头一只机器狗正在路测,没有遥控器,自己还能避开路障。定睛一看,机器狗身上贴着“小飞机”图标,原来是高德的。做地图的,怎么跑去做机器人了? 刚看到媒体文章说,高德将发布机器狗产品,这也是阿里巴巴首款具身机器人。 其实今年1月,就有消息传出高德悄悄成立了“具身业务部”,专门做具身智能。当时我还没太在意,毕竟大厂新部门也不算少见。但这次看起来,高德是认真的。最近他们还发布了两个VLA方向的成果:ABot-NO主要做机器人导航,ABot-MO专注机器人操控,还一起拿下了10个SOTA。 一个管导航,一个管操控。能自己在街上走的机器狗,刚好也离不开这两项能力。看得出来,这条技术线他们应该铺了有一阵子了。 至于具体要干嘛,现在还不好下结论,但有一点挺确定:这个故事大概率还会继续,而且应该不会等太久。
电波曲奇 tweet media电波曲奇 tweet media
中文
0
0
0
245
电波曲奇
电波曲奇@aicookie_tech·
上篇关于 Hassabis 那期访谈的文章发出来之后,十几万播放、过万赞藏,后台和评论区最多的一个问题是:还有没有推荐的 Hassabis 访谈? 有,还不止一个。 过去半年我陆续看了他 6 个比较深度的对谈和播客,从WIRED到Bloomberg、Fortune到VC播客,采访者从硅谷老牌科技记者到欧洲顶级投资人,风格完全不同。但我发现一件事。这个人不管在什么场合,跟谁聊,聊什么话题,底层逻辑完全一致:我想用AI看清宇宙的本质。 这种一致性很少见,甚至没有。现在AI圈大部分人的叙事是跟着场合变的:面对投资人聊商业化,面对媒体聊愿景,面对技术社区聊突破。Hassabis却永远只有一个叙事,我想象中的、能最大化帮助到人类的AI和它的未来 这篇是一个合集:6个访谈,按时间顺序,每个挑我觉得最值得知道的Hassabis的观点和原话。你可以挑感兴趣的单独看,也可以像我一样按顺序刷完,你会看到一个诺贝尔奖得主作为LLM研究员的思维底层是怎么运转的。 1️⃣最短但最适合入门的一期 -Demis Hassabis On The Future of Work in the Age of AI 来自WIRED "The Big Interview" 系列 。采访者是Steven Levy,硅谷最老牌的科技记者之一。只有20分钟,但信息密度非常高。如果你只能看一个短的,看这个。 这期的核心问题是所有人都在问的那个:AI会不会让所有人失业? Hassabis 的回答比大多数人诚实:他没说“不会”,但认为变革更可能是渐进的,因为物理世界会天然拖慢冲击的传导速度。你可以一夜之间写出更好的代码,但你没法一夜之间改造所有工厂和基础设施。 不过这期最让我记住的,是他关于"什么工作不该交给 AI"的判断。他说护理、陪伴这些需要人类共情的工作,不是 AI 做不了,而是不该做。 "I don't think you'd want a robot to do that. There's something about the human empathy aspect of that, and the care." 以及最后那句让我很触动的话: "It would be immoral not to have that, if that's within our grasp." 如果治愈疾病的能力就在我们手边,却因为种种顾虑不去追求,那是不道德的。 这个信念他从很早以前说到25年,从来没变过。最新一期访谈里那句"如果由我做主,AI 会在实验室多待几年",也是一样的道理。 看这期你能收获的: 对"AI 与就业"这个问题一个比较冷静、比较诚实的框架,以及Hassabis的道德直觉,AI的最佳用途是改善健康,这不是选择,是责任。 2️⃣最接近"Hassabis 内心世界"的一期 - The future of intelligence | Demis Hassabis (Co-founder and CEO of DeepMind) 来自deepmind官方,没有商业采访的框架限制,他聊得非常深:从从幻觉到智能的定义,AGI到世界模型,再到意识与可计算性。 他说语言模型比大家预期的编码了更多世界知识,但空间推理、物理因果、那些"只能体验无法言传"的东西,还远远不够。世界模型是他更大的执念,通过虚拟世界来理解真实世界的运行规律。 但最让我记住的是他聊到人生核心问题时说的: "I think that's the central question of my life — ever since I found out about Turing and Turing machines." 图灵机的极限在哪里?什么是可计算的?人脑是不是某种图灵机? 这是他一辈子在想的事。他做 AlphaGo,做 AlphaFold,做 Gemini,都是在用不同的方式逼近这个问题的答案。说他是"浪漫主义科学家",看完这期你就不觉得这是夸张了。这个人做AI的动力根本不是商业,是哲学层面的好奇心。 看这期你能收获的: 理解Hassabis的思维源头。为什么他做的每个决策都指向同一个方向,因为他的底层驱动力从来没变过。 3️⃣最"真实"的一期 - Hassabis on an AI Shift Bigger Than Industrial Age 来自Bloomberg,这个场景决定了提问角度偏商业和地缘,但Hassabis还是把话题往他关心的方向拉。这篇信息量很大,之前有专门讲过,感兴趣的可以翻翻主页“DeepMindCEO达沃斯谈话:10个从未公开的判断”,每一条都不能错过。这里就提3个我觉得最重要的 第一,西方怎么看中国 AI。 他比大多数西方AI领袖都坦诚:他直接认可中国AI公司的能力,说字节跟前沿大概差半年左右。但他真正关注的问题更尖锐:追赶和创新是两回事,中国的AI公司能不能在前沿之外再往前走一步? 第二,Transformer能不能单独走到 AGI。过去一年 Scaling 是不是到头了争议很大。Hassabis态度更谨慎,说这是科学问题,要用实验验证,不是靠直觉和信仰。他的估计是50/50: "These will be a component, a massively important component of the final system. The only question in my mind is — is it the only component?" 第三,AI 时代的生存建议:学习如何学习。 "Learning to learn is the most important thing." 看这期你能收获的: 一个最接近"卸下包装"的 Hassabis,疲惫、诚实、对中国 AI 的真实看法、以及对AGI路径最审慎的技术判断。 4️⃣最"CEO"的一期 - Can Google’s New AI Solve Everything? | Titans and Disruptors 来自Fortune 的"Titans and Disruptors of Industry"系列,典型的商业领袖人物志。这期能看到Hassabis作为管理者的一面。 这期他聊了很多 DeepMind 和 Google Brain 合并的内幕、Gemini 的产品策略。但最有意思的不是这些,而是他对领导力的理解: "Just consistently deliver good, rational decisions, minimal drama. It's amazing how much that compounds over time." 持续做出理性决策、减少戏剧性。领导力的本质是复利。这句话不太像AI行业的人会说的,这个行业崇拜的是快速、激进、all-in,很少有人把"少出戏剧性"当作一种能力。但他说的是对的,尤其对管理者来说,持续不犯大错比偶尔天才决策更稀缺。 关于个人成长,他推崇日语里的"改善"(Kaizen),持续自我改进,永远处于学习模式。又跟上一期的"learning to learn"呼应上了。这个人的思维确实是自洽的,访谈也都是走心的。 然后在访谈最后,Fortune 的记者问他对未来的展望,最后一句最Hassabis,也是我很喜欢他的原因之一: "Travel the stars and explore the galaxy. That's what I think our destiny is going to be." 别人聊 AI 聊到下个季度财报,他聊到星际旅行。 看这期你能收获的: Hassabis 的管理哲学和领导力观点。如果你是管理者或者创业者,"理性决策的复利"这个框架他怎么理解,值得看看。 5️⃣我个人最推荐的一期 - The Hardest Problem AI Ever Solved, with Google DeepMind CEO 上一篇文章写的就是这期,十几万观看的那篇。不重复展开了,但还是要说,如果六个里面只能选一个,选这个。 Cleo Abram 的采访风格特别适合 Hassabis:不急着追问商业问题,给足空间让他讲故事。于是你看到了 AlphaFold 的完整故事,从最初的设想,到真的把两亿个蛋白质结构全算出来,再到那个决定:全部免费公开给全世界。 以及那句我上篇文章重点写过的: "If I had my way, I would have spent more time in the lab doing more AlphaFolds." 如果由我做主,我会让 AI 在实验室里多待几年,多做几个 AlphaFold。这句话的潜台词是:他被现实拉去做了太多他觉得不那么重要的事。这句话的分量,看完上一篇文章的人应该都懂。 看这期你能收获的: 我认为的关于"AI 到底能为世界做什么"的最好的回答 6️⃣技术判断密度最高的一期 - Demis Hassabis: Why AGI is Bigger than the Industrial Revolution & Where Are The Bottlenecks in AI Harry Stebbings 是欧洲最知名的 VC 播客主持人,几千期节目积累下来,提问节奏快、信息密度高、不给你绕弯子的空间。这期适合对AI 发展方向和技术趋势有兴趣的人。Hassabis 给了几个很硬的判断: 第一,算力不只是训练规模,更是做实验的工作台。新算法必须在足够大的规模上验证才有意义。 "The cloud is our workbench, basically." 第二,下一阶段的竞争不是谁规模更大,而是谁能发明新算法。旧方法被榨干之后,真正的差距在创新。 "Those labs that have the capability to invent new algorithmic ideas are going to start having a bigger advantage." 第三,"AI短期过热,长期被低估”。今天的AI确实有泡沫,但十年尺度上,大多数人仍然严重低估了它的革命性。 "Literally today, things are a bit overhyped in AI. But I still think it's very underappreciated how revolutionary this is going to be in the time scale of about 10 years." 最后他聊到想留下什么: "I would like my legacy to be remembered for advancing science and building technologies that bring incredible benefits into the world — like curing terrible diseases." 别人聊legacy聊的是市值和行业地位,他聊的还是治愈疾病。你应该已经不意外了。 看这期你能收获的: 对 AI 行业接下来几年竞争逻辑很清晰的一个判断框架:算力是工作台,算法创新是护城河,AI短期有泡沫但长期被低估 六个访谈,六个不同的采访者,从科技记者到商业主编到 VC 播客,每个人带着不同的框架来提问,但 Hassabis 的回答始终指向同一个方向。 我要用 AI 理解这个宇宙是怎么运转的,然后用这个理解去治病、去探索、去回答那些最大的问题。 他身上最有意思的不是某一个观点,而是一种张力。 他是浪漫主义的,在 AI 圈疯狂卷LLM、卷benchmark、卷下一轮融资的时候,这个人在想蛋白质折叠、核聚变、室温超导、宇宙的本质。他是极少数在认真想"AI 到底能为这个世界做什么"而不是"AI 能为我的公司做什么"的人。 但他同时也是现实主义的,他管着 Google 最核心的 AI 部门,每周干一百个小时,被竞争裹着往前跑。他想让 AI 多待在实验室,但现实不允许。他想慢慢来做更多 AlphaFold,但整个行业在催他做产品。 你能感觉到,他内心有一个非常清晰的"应该",和一个被现实推着走的"不得不"。这种张力本身就让他的每次发言都比其他人多一层东西。这也是为什么这六个访谈,每个看完都让我想继续往下看。 如果你也想在AI市场的噪音里听到一点真话,去看看Hassabis。任选一个开始都行。
电波曲奇 tweet media
中文
0
0
1
364