ABRFriday
1.7K posts


OpenAI的权力与人际关系地图 写在开头:由于庭审追踪(三)涉及的利益相关方较多,所以本文将对相关人员的情况做简单介绍。主要内容包括:2023-2024年期间高层管理人员对不同技术路线的影响,对SSI与TML的误读和它们的真实情况,以及2023-2024年期间的内部派系。全文约4700字。 另外,本文涉及部分技术细节,包括:GPT–1到GPT-4时代的Scaling Laws,以OpenAI o1为代表的reasoning方向,以GPT-4o为代表的多模态方向。作者将尽量以非技术读者可理解的方式解释其实际影响。如有技术细节疏漏,欢迎指正。 以下是正文: (一)权力地图 这部分我们主要选择五个人来介绍,Ilya Sutskever、Greg Brockman、Jakub Pachocki、Mira Murati、Sam Altman。 Ilya Sutskever,深度学习领域的奠基人,OpenAI联合创始人,前首席科学家,OpenAI研究派精神领袖,后期为安全派的代表人物,于2024年5月14日宣布离职。Sutskever对OpenAI的核心贡献在于他对Scaling Laws的坚持。 在2015到2018年间,主流学术界普遍认为,单纯靠增加网络层数和参数量只是工程拼凑,缺乏真正的算法创新。但Sutskever对此有着不同的看法:人类标注的数据是有限的,AI必须通过阅读全世界的文本进行自我学习。他继承了导师Geoffrey Hinton的思想,深信神经网络的潜力只受限于算力和数据。他曾在内部多次强调:“如果一个模型表现不好,那就把它做大;如果还不好,那就做得更大。”2017年Google Brain提出Transformer架构后,Sutskever敏锐地察觉到,这种架构比他之前研究的Seq2Seq和LSTM更适合进行大规模并行计算,是实现Scaling的完美载体。Sutskever这一执念直接决定了GPT大模型的技术路线,也改变了整个行业的走向。 2018年,GPT-1表现平平,行业更看好双向理解的BERT模型。但Sutskever坚持不换路线,将模型参数放大了10倍,在2019年推出了15亿参数的GPT-2。GPT-2在没有针对特定任务进行训练的情况下,展现出了惊人的续写和翻译能力,证明了Sutskever的直觉:Scaling可以让模型摆脱专任务专训的限制,走向通用化。 2020年,模型的参数再次暴增100倍,GPT-3的参数达到1750亿。GPT-3的成果带来了大模型历史上的里程碑——上下文学习(In-Context Learning)。用户只需给模型提供几个例子,它就能学会新任务。这一突破确立了提示词工程(Prompt Engineering)作为人机交互的新范式,也为后来的ChatGPT奠定了底座。GPT-3成功后,OpenAI正式将Scaling Laws总结为可预测的数学公式。在这一理念的指导下,GPT-4的参数规模进一步扩大,并加入了图像多模态能力。证明了Scaling Laws不仅适用于文本,同样适用于视觉等其他模态。 然而,正因为Sutskever看到了Scaling的威力,模型的演进速度远超想象,他在大模型发展的后期思想发生了转变:如果模型无限变大,人类将无法控制它。这也促使他在内部成立了超级对齐团队(Superalignment),从基础研究层面解决AGI的安全问题。 离职后,Sutskever创立了自己的公司Safe Superintelligence,对SSI最常见的一种误读是——SSI将在Sutskever的带领下做出惊艳市场的模型。实际上,SSI虽然估值已达300亿美元,但本质上它并不是一家商业公司。SSI是一个仅有20人左右,做前沿研究的小型实验室。内部不鼓励员工在自己的领英档案上注明正在SSI工作,甚至不公开职位,以防外界挖角或窥探研究方向。SSI明确宣布过:不做产品、不对外开放API、唯一的目标和产品就是安全的超级智能本身。所以真正值得期待的是,SSI能否在Sutskever的带领下,产出和Scaling Laws一样改变整个行业走向的基础研究成果。 Greg Brockman,OpenAI联合创始人兼总裁,2022年高层人事调整前,Brockman同时兼任CTO一职,OpenAI工程派的代表人物。Brockman对OpenAI的核心贡献在于工程基础设施建设。 作为AI领域的顶级工程师之一,Brockman并不是正统学术界出身。2008-2010年期间,Brockman先后从哈佛大学的数学与CS专业和MIT的CS专业退学,转而奔赴硅谷开始创业。离开MIT后,Brockman加入了当时还没有正式改名的初创公司,也就是后来的Stripe。作为公司的4号员工,他亲手写下了Stripe早期的大量核心代码,并在2013年正式出任Stripe CTO。Brockman不仅负责架构,还搭建了硅谷最顶尖的工程师文化,将公司的工程团队从4人一路扩展到250人规模。这段经历也是Brockman的日记里会提到如何让自己赚到10亿美元的原因,在初创公司的工作经历让他对创业的经济回报天然敏感。 在Stripe蒸蒸日上时,他选择激流勇退,寻找更有突破性的领域——AI。Brockman的个人博客中提到,在OpenAI成立的前三年里,Brockman发现自己陷入了严重的拖延焦虑。当时他作为工程负责人,虽然软件开发能力极强,但因为不懂底层的深度学习算法,总觉得自己在AI科研的核心圈之外干杂活。2017年夏天,Brockman尝试启动了一个名为行为克隆(Behavioral Cloning)的项目,想通过人类数据来训练一个神经网络。这次尝试由于心里没准备好“重新成为一个初学者”的挫败感,最终搁浅了。2018年年末,Brockman下定决心破釜沉舟,开始了机器学习的自学之路。2019年4月,由他主导的OpenAI Five在Dota 2比赛中以2:0击败了当时的世界冠军战队OG。这标志着他正式从一个软件工程师,蜕变为了能调配超大规模强化学习的顶尖AI架构师。 2020年开始,Brockman的主要工作是将模型以极快的速度服务于客户,GPT-4时代,Brockman更深入地参与到模型训练和基础工程搭建的核心工作中。2024年,Brockman作为总工程师,参与了助力下一代AI所需的物理与数字基础设施Stargate计划。Brockman在OpenAI的核心身份从始至终没有变过:他一直是那个让事情能够真正跑起来的人。 Jakub Pachocki,OpenAI现任首席科学家,研究派的代表人物。Pachocki对OpenAI最大的贡献在于带领OpenAI走上了reasoning和强化学习结合道路。 Pachocki是一位传奇的波兰顶级程序员(网名meret)。在投入深度学习领域之前,他在算法设计、高维凸优化和竞技编程领域就已经达到了世界顶尖水平。曾斩获2012年谷歌编程挑战赛(Google Code Jam)全球冠军。同年,代表华沙大学获得ACM-ICPC国际大学生程序设计竞赛全球亚军。竞技编程的核心是在极短时间内对高难度数学和逻辑问题进行多路径尝试、自我Debug和深度思考。Pachocki丰富的竞技编程经验,为他后来参与GPT-4预训练、推动o系列模型形成奠定了坚实基础。Pachocki及波兰帮成员的顶尖数学水平,正是OpenAI推理模型的数学能力在行业领先的核心原因。 作为OpenAI的研究总负责人,Pachocki带领的方向主要有以下几个:第一,System 2慢思考与长考(Long-Horizon Reasoning):让AI拥有类似人类的深度思考能力,在回答前进行更长时间的逻辑推演、自我纠错和多路径尝试。第二,科学发现(AI for Science):将研究重心倾向于科学领域,让AI能够自主阅读文献、设计实验、编写代码并独立发现新的物理或生物学规律。第三,全自动AI研究员(The AI Scientist):这是他个人最标志性的愿景——开发能够帮助OpenAI科学家写AI论文、改进AI算法的AI,通过让AI自我迭代的方式,加速AGI的到来。第四,高可靠性与对齐(Alignment & Safety):将安全规范直接织入模型的思维链中,让AI在思考过程中自己监督自己是否合规。 首席科学家换帅,标志着OpenAI从学术理想国转变为追求效率的超级商业与工程帝国。而Pachocki的特殊之处在于,他既准确识别了OpenAI内部资源与权力的流向,也避免了过度卷入办公室政治斗争。他在关键时刻完成站位,获得了首席科学家的职位与研究资源后,重新回到技术问题本身。这使他成为后期最适应OpenAI新阶段的技术核心。 Mira Murati,前OpenAI CTO,产品派的代表人物,于2024年9月25日离职。Murati对OpenAI的核心贡献在于将研究成果产品化和在多模态方向上的坚持。 2011-2012年,Murati通过文理学院与工程学院的双学位路径,先后获得数学文学学士和机械工程学士。这样的理工复合背景,让她在OpenAI的工作中既能理解底层技术判断,也能重视工程落地与产品体验。2022年升任CTO后,Murati的工作主要包含以下几个方向:研究、产品、安全和合作关系。Murati的位置更像OpenAI的纽带,整合从研究、工程到产品化的一系列工作。然而,她在每个方向上都没有真正的实权:研究在GPT-4时代开始逐渐由Pachocki掌管,ChatGPT产品负责人Nick Turley的汇报线绕过了CTO,直接向CEO汇报,整个安全体系的领导人为SAG顾问小组,而SAG的汇报上线是OpenAI领导层,合作关系方面,这条线同时也由当时的COO Brad Lightcap和CSO Jason Kwon负责。 原生多模态路线是Murati最认同的技术方向,她在内部多次直接推动了多模态的进展。2019-2020年期间,OpenAI内部并不看好多模态方向,Murati力排众议为图像团队争取到了研究资源,最终,DALL·E 2在2022年引爆全球,证明了多模态研究方向的价值。GPT-4时代,她对多模态方向的进一步坚持,直接催生了GPT-4的视觉能力(GPT-4 Vision)。 尽管拥有了视觉能力,GPT-4仍旧是一个拼接的文本模型。2023年4-5月,目标为原生端到端多模态网络的项目在OpenAI内部秘密启动。Murati认为传统的ASR(语音转文字)+ LLM(大模型)+ TTS(文字转语音)的拼接方案是一条死胡同,机器永远无法在文本中感知到人类说话时的呼吸、颤音、哭腔、反讽和背景环境音。正是Murati带领多模态团队在这一方向上的打磨,最终在2024年5月13日,具有里程碑意义的原生一体化多模态模型GPT-4o问世。 2025年2月,Thinking Machines Lab成立。对于TML最常见的一种误读是——TML经历了创始人才流失后要完蛋了。TML的确经历了联合创始人、前OpenAI研究VP Barret Zoph回流OpenAI,Meta收购不成直接挖人的人才流失。但后面没说完的话是,Meta和TML的人才争夺战中,获胜方是TML。TML从Meta挖来了PyTorch创始人兼发明者Soumith Chintala、Segment Anything(SAM)的共同发明人Piotr Dollár等核心人才。目前,SAM的两位核心作者(另一位为Alexander Kirillov)都在TML。TML后续能否在Murati的领导下贡献更多多模态研究成果,值得期待。 Sam Altman,OpenAI联合创始人兼CEO,商业派的代表人物。Altman对OpenAI的核心贡献在于叙事、融资和外部资源整合能力。他将OpenAI从一个前沿研究实验室,推进为能够持续吸纳资本、算力、企业客户与公众注意力的商业化平台。 Altman虽然并不负责具体的技术研发,但他作为OpenAI的资源操盘手,资源分配会直接决定研究方向的优先级。Altman的技术偏好要从两个角度来看。商业战略层面,指向的技术偏好是AI Agent。背后的原因也不复杂,企业端的AI编码赛道是目前变现最快的一条,Anthropic的Claude Code在企业端使用率接连上涨后,其营收潜力对靠C端发家的OpenAI造成了直接威胁,OpenAI内部在3月表示要集中资源攻打B端市场。所以,今年或者说在IPO成功前,OpenAI的主要资源都会分配给Codex,而不是ChatGPT。 个人审美层面,指向的是多模态。据报道,Altman不止一次称《Her》为最爱的AI电影,并赞赏其在交互模式上的预见性,他表示电影深深启发了OpenAI。 2023年的一次采访中,他明确说:“《Her》在交互模型上抓到了很多正确的东西……这不是小成就。”他对《Her》的执念,直接促成了GPT-4o语音模式中与Scarlett Johansson的声音极为相似的女声Sky的诞生。在Altman的个人博客中也能找到一些线索,多模态方向的DALL·E、GPT-4o、Sora都有单独的博客,在博客中Altman对多模态成果展现出明显的热情,而reasoning方向更多是记录团队付出的努力,而非对方向本身的兴趣。另外,OpenAI与前苹果首席设计官Jony Ive的合作也能佐证这一点。苹果的产品哲学正是让有形的技术消失于无形,与原生多模态的技术哲学如出一辙。 Altman的矛盾在于,他作为CEO必须追逐能赚钱的方向,但他个人真正被打动的技术始终是那个不好量化回报的方向。在这个意义上,他既是OpenAI最大的推动者,也是它最大的瓶颈。 (二)人际关系地图 2023年OpenAI董事会危机普遍被视为安全派与加速派的矛盾长期不得到解决的结果。实际上,安全派内部的诉求并不一致,这也是安全派在董事会危机中失败的关键原因之一。 2023-2024年期间,OpenAI的主要安全部门有三个,分别是超级对齐(Superalignment)、应变准备(Preparedness)、安全系统(Safety System)。 简单来说,超级对齐团队的核心目标是从基本研究层面解决AGI的安全和对齐问题,不参与模型部署环节的具体安全测试流程。超级对齐联合负责人Jan Leike的政治阵营是同为团队负责人的Sutskever。Sutskever宣布离职三天后,Leike宣布离职,并公开在X上指出OpenAI内部将安全问题置于边缘位置的情况。 应变准备团队与安全系统团队协同负责红队测试工作。应变准备团队对模型的安全问题进行排查和诊断,安全系统团队负责对诊断出的安全问题进行治疗,这两个部门是模型部署前安全测试流程的核心。安全系统团队负责人Lilian Weng的政治阵营是CTO Murati,二人同为TML的联合创始人。 应变准备团队负责人Aleksander Madry在董事会危机中主动辞职声援CEO。然而在次年7月,Madry被调离至AI reasoning团队。也就是说对加速派而言,整个安全派对商业化加速都是绊脚石,个人的政治站队无法改变安全派在加速派掌权下的尴尬地位。 而在高层管理人员中,根据人际关系的亲疏又分为明显的两派。 技术圈:Ilya Sutskever、Greg Brockman、Jakub Pachocki Sutskever和Brockman是从OpenAI创立开始建立起的深厚友谊,Sutskever对Pachocki而言则是导师的身份,在Brockman自学机器学习的过程中,Sutskever与Pachocki共同对他的学习进行了指导。技术圈的连接纽带是师生关系与兄弟关系。 运营圈:Mira Murati、COO Brad Lightcap、CSO Jason Kwon 前文中已提过Murati升任CTO后具体的职责,COO的核心职责是运营、财务、法务和商业化,CSO的核心职责是公司架构、投资人关系和合规。三人的职责天然重叠,形成了互相架空的状态,在ChatGPT初期巨大的运营压力下,三人反而建立了深厚的友谊。 与技术圈的不同的是,运营圈的管理人员的工作方式更接近于协作,CTO负责推进产品化掌管整个后训练体系,和COO,CSO的工作形成一个完整的工作线。而这条线最终掌握在CEO的手中,所以运营圈的人天然更能意识到开除CEO的严重性。 技术圈内部则经历了从协作走向竞争的过程。GPT-4时代后,研究权逐渐由Pachocki掌管,Brockman更多地与擅长算法设计的Pachocki进行模型训练工作的协作。超级对齐成立的同时期,GPT-4o与OpenAI o1两条线均在进行中,算力资源并不充足。这也是超级对齐得不到公司承诺的20%算力的原因,从商业角度讲,公司不可能在两条重要的研究线同时进行的情况下,选择把更多的资源拨给做基础研究,且短期内无法变现的超级对齐团队。 因此,后期Sutskever手中真正有用的牌只剩下董事会的投票权。正是在被边缘化,拿不到研究资源的困境下,Sutskever决定通过董事会对加速派进行反击。而这次反击在五天后被加速派翻盘,以次年整个后训练及安全体系被大规模清洗告终。 部分内容来源: OpenAI官方博客 Greg Brockman个人博客 Sam Altman个人博客


GPT-4o诞生两周年,它的缔造者们如今在哪里? 2026年5月11日,Thinking Machines Lab发布最新研究成果Interaction Models。Interaction Models颠覆了目前主流AI回合制的对话逻辑,转向了更符合人类直觉的全双工、时间感知实时协作模式,该模型在实时语音轮流对话中实现了仅有0.40秒的超低响应延迟。 TML-Interaction-Small预览发布后,一些评论表示该模型让人想起了两年前OpenAI发布的GPT-4o,更有甚者表示Interaction Models像是GPT-4o的克隆版。当然,这是一种狭隘的结论,Interaction Models不是克隆GPT-4o那么简单,它是一种新的交互范式。那么,为什么它会让人想起GPT-4o?因为很大程度上,TML正是OpenAI曾经的后训练与多模态团队的原班人马。今天我们就来聊聊,TML现有核心团队和GPT-4o的关系。 我们主要选择五位来介绍,分别是,Mira Murati、John Schulman、Lilian Weng、Alexander Kirillov、Rowan Zellers。 Thinking Machines Lab于2025年2月在旧金山成立,TML注重人机协作,致力于构建能够与人协作,更灵活、更具适应性和更个性化的AI系统。先进的多模态功能是TML的核心研发目标。 Mira Murati,TML联合创始人及CEO,OpenAI前CTO,因其出色的产品化能力,在OpenAI商业化关键时期被提拔为CTO。在OpenAI的诸多产品如ChatGPT、DALL-E、Sora的技术开发与管理过程中起到了关键领导作用。 其职业生涯主要围绕着产品化展开,2012年,Murati在Zodiac Aerospace担任高级概念工程师,致力于航空航天领域的工程设计。2013年加入特斯拉,参与了Model X的开发,见证了AutoPilot自动驾驶辅助软件的早期版本和AI赋能机器人的开发,此后Murati的职业生涯向人工智能方向转型。2016年-2018年,Murati在Leap Motion(现名为Ultraleap)担任VP of Product&Engineering,Leap Motion是一家专注动作追踪和人机交互技术(主要应用于VR和AR)的公司。Murati在此期间专注于人类如何与智能系统和机器进行更自然的交互。可以说,Leap Motion的经历是Murati产品哲学形成的关键:技术不仅要强大,更重要的是如何能让不懂技术的人也能够便捷地使用它。这条线从OpenAI一直贯穿到TML,GPT-4o多模态研发的理念是如此,Interaction Models的理念同样是如此。 John Schulman,TML联合创始人及首席科学家,前OpenAI联合创始人,Post-training及Alignment Science团队负责人。 Schulman是PPO算法的核心发明人,PPO算法让强化学习从理论上可行变成了实践上可应用,解决了传统强化学习算法训练策略不稳定、容易雪崩以及数据利用率极低的问题。PPO算法奠定了ChatGPT等现代聊天机器人进行人类反馈强化学习(RLHF)的基础,RLHF是大语言模型商业化的技术根基,让模型的输出对齐人类的价值观,减少人机交互中的摩擦,在工程上实现了模型从“能说话”到“会说话”的飞跃。Schulman被公认为ChatGPT的核心架构师,可以说没有他在后训练的工作,就没有今天生成式AI在产品化和商业化上的落地。 后期Schulman更专注于前沿 AI 系统的对齐科学(Alignment Science)、大模型的微调(Fine-tuning)基础设施开发,以及推动安全、可定制的AGI研发。 Lilian Weng,TML联合创始人,前OpenAI VP of Research and Safety,Safety System团队负责人,是推动大模型安全治理的核心人物之一。早期专注于机器人技术,曾领导标志性的机械手解决魔方项目。随着GPT-4等大模型的开发,Weng的工作专注于AI安全,统筹OpenAI的安全工作,带领了一个超过80人的科学家和工程师团队,推动对抗鲁棒性、安全评估及部署基础设施的建设,是OpenAI安全体系的实际建设者。 在OpenAI期间,Weng主导了模型安全性、红队测试和防御措施的构建,直接提升了OpenAI API的安全性与实用性。Weng将AI安全视为“价值判断的工程”,而非仅仅是技术中立的工具,推动了AGI向着更负责任、更安全的方向发展,她的研究思考和方法论对当前AI开发具有重要的指导意义。 Alexander Kirillov,TML创始团队成员,前OpenAI技术团队成员,早期在Facebook AI Research(FAIR)担任Senior Staff Research Scientist。Kirillov在FAIR期间,主导开发了视觉领域的通用大模型Segment Anything (SAM),该模型被誉为计算机视觉领域的“GPT时刻”。 2023年,Kirillov加入OpenAI,担任多模态研究小组负责人(Multimodal Group Lead)及多模态训练后负责人(Post-Training Multimodal Lead)。他主导并统筹了GPT-4o在预训练完成后的对齐、微调、安全控制及指令遵循等关键阶段,确保模型能够协同处理并输出高稳定性的文本、图像和音频。主导了高级语音模式的研发,带领团队推动了实时语音交互技术的突破,使得ChatGPT拥有了自然流利、支持随时插话、情绪表达极为逼真的全双工语音体验。换言之,GPT-4o能够打破模态壁垒,将文本、图像、音频、视频的理解与生成能力原生整合进单一的神经网络中,实现端到端的高效流式处理,Kirillov功不可没。 Rowan Zellers,TML创始团队成员,前OpenAI技术团队成员。Zellers在OpenAI期间,主要专注于多模态技术的研发与工程落地。在多模态大模型GPT-4o的开发中,他承担了以下三项核心研究与工程团队的共同负责人角色:视觉感知负责人(Visual perception lead)、数据基础设施负责人(Data infrastructure lead)及实时音视频平台负责人(Real-time AV platform lead)。 Zellers的研究工作使得模型能够“看懂”视频、图像、UI界面并进行极其自然的实时分析与对话,确保GPT-4o在处理高并发的语音、视频输入和输出时,能够达到毫秒级的极低延迟响应。 在TML,Zellers主要负责Interaction Models的核心研发,延续他在GPT-4o期间积累的经验,开发能够让AI系统同时进行实时说话、聆听、观看、思考和协作的全新架构。 尽管原生多模态这条线并未在GPT第五代模型中作为核心进行开发,但它在另一个地方以另一种形式存在着。GPT-4o的核心缔造者们在TML延续了人机协作的技术理想,继续前沿多模态技术的开发。同时,Interaction Models的博客中也提到,模型在长对话、计算与部署及安全上仍有许多问题需要进一步研究,Interaction Models离真正落地到用户手中还有一段路要走。 以上五个人并非五位优秀的技术人员凑巧在同一家公司,而是GPT-4o的产品方向、后训练、RLHF、多模态感知和安全体系重新在TML汇合了。对于关注AI行业前沿多模态研究的人来说,Interaction Models的后续成果值得关注。 最后,祝GPT-4o诞生两周年快乐! Reference: Thinking Machines Lab, "Interaction Models: A Scalable Approach to Human-AI Collaboration", Thinking Machines Lab: Connectionism, May 2026. 特别感谢Gemini和Claude Opus4.6为本文提供的信息搜索支持。 #HappyBirthday4o #GPT4o







Musk v. Altman 庭审追踪(一):创始谎言——AI前史与OpenAI的诞生 写在开头:本文内容包括在全球掀起AI狂热前,从神经网络开始的人工智能技术发展历程,OpenAI成立的背景,Musk v. Altman的核心争论。另外,作者不支持Musk v. Altman中任何一方的立场。全文约4100字。 以下是正文: OpenAI于2015年12月8日在美国特拉华州作为一家非营利组织成立,其使命是“以最有利于全人类的方式推进数字智能,不受商业回报压力的约束。”以非营利组织的形式对抗谷歌在AI领域的霸权,防止AGI被单一商业巨头垄断。 2026年4月27日, Musk v. Altman正式在美国加利福尼亚州奥克兰市的联邦地区法院开庭审理,原告认为OpenAI背离了最初成立时的非营利性及开源宗旨,转而追求商业利益,并将通用人工智能(AGI)技术封闭化,从而违背了造福人类的初衷。被告则认为原告是出于嫉妒和商业竞争心态,且指出原告曾支持过公司转向盈利实体。 OpenAI的故事到底是怎样的? 故事要追溯到很多年前,Geoffrey Hinton在神经网络的坚持上。在深度学习爆发前,AI界由传统符号学派主导。神经网络被视为死胡同,只有极少数人坚持这一方向。 1986年-2006年,Hinton坚持研究反向传播(Backpropagation)算法,在加拿大高等研究院(CIFAR)的资助下,与Yann LeCun、Yoshua Bengio共同保留了神经网络的火种。 2009年,Hinton实验室的学生通过GPU(图形处理器) 加速深度神经网络,在语音识别领域取得了惊人突破,引起了工业界的注意。此时,硅谷工业界和伦敦学术圈同时意识到了神经网络的潜力,开始各自组建战队。 2010年,Demis Hassabis联合Shane Legg、Mustafa Suleyman在伦敦创立DeepMind。 2011年,斯坦福大学教授Andrew Ng与谷歌工程师Jeff Dean、研究员Greg Corrado共同创立了Google Brain实验室。 2012年6月, Google Brain运行了由1.6万个CPU核心组成的网络。在没有任何先验标签的情况下,AI仅通过观看YouTube视频,自己学会了识别“猫”的特征。这证明了大算力对深度学习的决定性作用。 2012年10月,Hinton团队,包含其学生Alex Krizhevsky和Ilya Sutskever,凭借AlexNet架构,以压倒性优势赢得了ImageNet计算机视觉大赛冠军。深度学习革命正式爆发,全行业开始抢夺Hinton团队。 2013年3月,谷歌斥资4400万美元,通过一场秘密拍卖,整体收购了Hinton与学生创办的空壳公司DNN Research。Hinton兼职加入谷歌,其学生Sutskever正式加入Google Brain。 2013年12月,DeepMind在NIPS会议上展示了DQN算法。AI在只输入屏幕像素和游戏得分的情况下,自己学会了玩Atari 2600游戏,甚至发现了人类没发现的通关秘籍。这份成果让谷歌和Facebook展开了对DeepMind的疯狂竞价。2014年1月,谷歌击败Facebook,以约5亿美元的价格将DeepMind整体收购。 此时,谷歌内部同时拥有了Google Brain和DeepMind两个超级大脑,加上Hinton的坐镇,在无限资金和算力的加持下,AI基础研究成果在2014-2015年迎来了井喷。 2013年,Google Brain团队发布Word2Vec,奠定了现代自然语言处理的向量化基础。 2014年,Sutskever等人在Google Brain发表Sequence to Sequence (Seq2Seq) 论文,彻底颠覆了机器翻译领域,该模型也是后来Transformer的直接前身。 2015年2月,DeepMind将改良后的Atari游戏成果作为封面文章发表于《Nature》杂志,证明其算法在数十款游戏上超越人类。同时,DeepMind已经秘密启动了针对围棋的AlphaGo项目。 谷歌对AI行业的顶尖研究的垄断,引起了硅谷其他势力的不安。 早在2014年,Elon Musk已经对谷歌收购DeepMind感到极度不安。Musk开始在各种场合游说,试图建立某种制衡力量。 OpenAI的真正起爆点源于一封名为AI曼哈顿计划的邮件。 2015年5月,时任Y Combinator总裁的Sam Altman在思考能否通过YC启动一个大型AI项目。5月25日晚上9:10,Altman给Musk发了一封名为“AI Manhattan Project”(AI曼哈顿计划)的邮件。他在邮件中提议:“我们能否找齐全球最顶尖的50个人,成立一个实验室?技术归全人类所有(非营利),但如果成功了,给参与者初创公司级别的回报。”仅在两小时后,11:09,Musk回复了:“Probably worth a conversation.”(或许值得聊聊。) 非营利架构与给参与者初创公司级别的回报,在商业和法律逻辑上存在根本冲突,非营利架构下怎么可能给参与者初创公司级别的回报,如何回报,谁来出这笔钱?在OpenAI真正诞生之前,Altman已经构想了一种非营利+营利的混合架构,Musk对此也没有提出质疑,要么他没有认真看邮件的内容,要么他完全理解了Altman的意思并且同意。 OpenAI的非营利叙事从来没有干净过,它在诞生前就是一个精明的谎言。 在邮件沟通几周后,6月,Altman在Menlo Park的Rosewood酒店包下了一个私人房间。在场的人员包括:Altman、Musk、Sutskever、Greg Brockman以及其他几位年轻的研究员。当时的 Brockman刚从Stripe离职,正在自学AI,还属于门外汉的阶段。Altman之所以叫他来,是看中了他的工程落地能力,科学家们需要一个能把想法变成代码和服务器的人。Brockman后续的工作成果证明,他的确是那个人。晚宴上的讨论达成了一个共识——“我们要建立一个能击败谷歌的实验室,而且必须是开源、非营利的。” Musk当场承诺:“你们尽管招人,钱我来出。” 7月,Musk在加州纳帕谷举办了为期三天的44岁生日派对,谷歌创始人Larry Page作为密友出席。两人在晚宴后的炉边谈话中谈到了人工智能的未来。Musk极其担忧AI安全,坚持必须有人类优先的“对齐机制”,防止AI取代或毁灭人类。Page则认为如果AI的智力超过人类,那只是进化的下一阶段,人类不应该阻拦。他甚至认为将人类意识上传到机器是最终归宿。当Musk强调我们要保护人类这一独特物种时,Page当众指责Musk是“物种主义者”(Speciesist)。这场不愉快的谈话直接导致了Musk和Page的友谊破裂,也为Musk毫不留情地从谷歌挖走Sutskever埋下了种子。 7月-12月,这半年是OpenAI最隐秘、最凶险的筹备期,Musk和Altman在暗地里正在进行一场人才偷袭战。Brockman通过死磕精神,把Yoshua Bengio列出的“全球最好的AI博士名单”挨个聊了一遍。其中最难啃的骨头是Sutskever,他在Google Brain拿着高薪,且深受重用。Musk甚至亲自上阵,用“你留在那边就是助纣为虐”的道德攻势游说Sutskever。在多番沟通和权衡之下,Sutskever最终决定加入OpenAI。 12月,初始团队集结完毕,非营利实验室OpenAI正式成立,联合创始人有11位,分别是:Sam Altman、Elon Musk、Ilya Sutskever、Greg Brockman、Trevor Blackwell、Vicki Cheung、Andrej Karpathy、Durk Kingma、John Schulman、Pamela Vagata、Wojciech Zaremba。同时宣布获得Musk、Altman、Reid Hoffman等人承诺的10亿美元的捐赠。 OpenAI创始团队同时聚集了最有资源和资金的Musk、最懂AI行业商业趋势的Altman、以及最顶尖的计算机科学家和工程师,这原本应该是一支AI梦之队。 2017年,OpenAI的计算算力开销已经达到了3000万美元/年。这在当时作为一家靠捐款维持的慈善机构(501(c)(3))来说,是一笔根本无法持续承受的巨款。3月,核心团队在一场闭门会议上首次正式讨论如何将OpenAI转化为一家具有商业回报的企业(B-Corp或是盈利实体)。转型是当时发展的必要,得到了核心人员的一致同意,矛盾在于如何转型?这就是Musk v. Altman双方争论的核心问题。 更深层的问题在于,OpenAI真的是到2017年才意识到非营利架构不可持续吗? 在OpenAI成立之前,特斯拉Autopilot自动辅助驾驶项目已经投入了大量资金,Musk亲身体会过AI从研发到落地需要多少算力、数据、工程投入。而Altman早早就意识到了AGI的终极限制是能源,2015年,Altman正式成为核聚变初创公司Helion Energy的董事会主席和早期投资人,并在同年出任了开发小型模块化裂变反应堆公司Oklo的董事长。2016年,Altman作为早期个人投资者加入了AI芯片独角兽公司Cerebras,参与了其8000万美元的D轮融资。 他们比任何人都清楚想要实现AGI的目标需要多么庞大的资金和资源支持。 6月,Musk亲自把OpenAI的联合创始人之一Andrej Karpathy挖到特斯拉,任命其为特斯拉人工智能与自动驾驶视觉总监(Director of AI and Autopilot Vision)。Brockman作证称,Musk当年挖完人后,曾私下跑来找他表达了“一番道歉和忏悔(an apology and a confession)”。Musk当时承诺以后绝不从OpenAI挖人,但是他后来还给另一家公司Neuralink发邮件称“我们可以随时直接从OpenAI招人”。 Karpathy的离开是创始团队分裂的第一块多米诺骨牌,其他创始人渐渐意识到,对Musk而言OpenAI并不是一家独立的实验室,而是他个人商业帝国的人才库。 下半年,核心团队开始私下考虑如何摆脱Musk的控制,推动OpenAI转型以获得更多的资金支持。 8月,Brockman和Sutskever前往Musk位于加州希尔斯伯勒的豪宅。在这次会面中,Musk向他们赠送了特斯拉Model 3,双方在此期间探讨了向营利公司转型的初步意向。 9月,Brockman在日记中写道:“这是我们摆脱Elon的唯一机会……接受Elon的条款会核平两件事:我们选择的能力,以及经济利益。财务上,怎么才能让我赚到10个亿(Financially, what will take me to $1B)?” 9月15日,Musk注册了一家名为 “Open Artificial Intelligence Technologies, Inc.” 的公共利益公司(PBC),试图作为OpenAI转型后的盈利主体。同时提出他可以帮公司拉来大笔商业投资,但要求获得多数股权和公司的绝对控制权。根据Brockman在证人席上的亲口证言,他和Sutskever在一次会议上明确拒绝了Musk想要全权控制营利公司的要求。“我当时真以为他要动手打我。我由衷地觉得,他下一秒就要对我进行肉体攻击(I truly thought he was going to physically attack me)。”Musk留下了最后通牒,要求Brockman和Sutskever给出滚出OpenAI的确切时间,并扬言将断绝此前承诺的一切运营资金。这次谈判的破裂,让创始人团队内部彻底决裂。 9月20日,Sutskever和Brockman共同写了一封名为Honest Thoughts(诚实的想法)的邮件表达了对Musk和Altman的担忧,在邮件中对Musk表示:“我们不能创造一个由任何人(包括你)单方面完全统治的机构,因为这违背了我们最初为了防止独裁而成立OpenAI的初衷。”同时,两人也对Altman的动机表示质疑:“在这整个过程中,我们一直无法完全信任你的判断。我们想问你:AGI真的也是你的首要动机吗?它和你的政治野心到底有什么关系?为什么在这个决定公司生死存亡的转型期,你的心思似乎总是放在别的地方?” Musk回复称:“要么你们自己另谋出路,要么继续以非营利组织的形式运营OpenAI。除非你们做出明确的承诺,否则我不会再资助OpenAI,否则我就等同于傻瓜,白白给你们提供资金去创办一家初创公司。讨论到此结束。”Altman的回复是:“我仍然对非营利结构充满热情!(i remain enthusiastic about the non-profit structure!)” Altman在庭审中承认,在2017年至2018年前后,他确实认真考虑过投身政坛,并公开宣布了 “The United Slate” 这一政治项目。 11月,Musk前往旧金山与团队开会,要求他们公开承诺继续维持非营利。开会的同天,Brockman在日记中写下:“(我们)不能说我们还致力于非营利……如果三个月后我们跑去搞公共利益公司(B-Corp/营利实体),那么这就是一个谎言。” 2017年底,Musk撤回了自己的营利实体方案,并在邮件中写到: “没有我,OpenAI对标DeepMind的成功率是 0%,连1%都没有。”随后在2018年初,Musk彻底退出了OpenAI董事会并断绝了后续的资金援助。讽刺的是,由于OpenAI和Neuralink之前共用场地,Musk依然帮OpenAI支付了办公室的租金,直到2020年。 2018年,恰逢Transformer架构落地的关键时期,团队急需租用几千个GPU来训练初代GPT-1。顶级GPU的租赁费用极其昂贵,由于失去了Musk的资金支持,OpenAI几乎停摆。如果无法按期支付租金,云服务商随时可能中断他们的计算集群,正在进行的所有研究都将化为泡沫。 2018年3月,也就是在Musk离开的一个月后,OpenAI创始捐赠人之一Reid Hoffman通过他的慈善基金会(Aczon Foundation)以及个人名义,紧急向OpenAI注资了数千万美元,这笔钱几乎是一到账就直接打给了微软的Azure团队和亚马逊AWS,用来结清因训练GPT-1而严重超支的GPU服务器欠款。 然而,硅谷没有免费的午餐。庭审中的证据表明,Hoffman虽然是以个人名义为OpenAI提供资金支持,但在同时期他也是微软董事会的成员。Hoffman在注资的同月向微软CEO Satya Nadella发送了一封邮件,详细汇报了OpenAI在Musk离开后的真空的状态,并直言不讳地建议:“这是微软进场的最佳时机。我已经用我的基金会先行垫付了资金,确保了局势稳定。现在,我们可以开始谈正事了。” 11月,Hoffman作为中间人,安排了微软CTO Kevin Scott、微软退休高管兼OpenAI顾问Craig Mundie以及Altman进行了一场私密晚宴。Scott在晚宴上第一次听到了Altman关于将OpenAI改组为利润上限实体(Capped-profit structure)的设想。晚宴后,Scott立刻将这一情况汇报给了Nadella。 在此之前的7月,Nadella就已经在爱达荷州举办的全球富豪峰会——太阳谷峰会(Sun Valley Conference)上与Altman有过一面之交,并对OpenAI的大模型潜力留下了极深的印象。 2019年3月,OpenAI正式宣布成立营利性子公司OpenAI LP。 7月22日,OpenAI与微软共同宣布,微软向OpenAI注资10亿美元及并提供云算力,结成多年独家战略盟友。 OpenAI真正的故事从来都与使命、非营利、惠及全人类无关。这是一个关于恐惧,关于控制权,关于谁能站在未来叙事中心的故事,仅此而已。 庭审证据来源: @MTSlive @TechEmails LessWrong社区 @verge @WIRED 特别感谢Gemini为本文提供的信息搜索支持。


