ABRFriday

1.7K posts

ABRFriday banner
ABRFriday

ABRFriday

@Arraleonis

可以叫我R/All You Need is Love/现生忙

Katılım Şubat 2016
238 Takip Edilen129 Takipçiler
ABRFriday
ABRFriday@Arraleonis·
英文圈tech bro根本不配说什么突然理解4o用户,顺便还要踩一脚4o用户我们不一样~刚经历退役这第一步,轮到自己被扇了刚走到25年8月的流程已经受不了了,别太搞笑😂太脆弱了去摸摸草吧 (再次叠甲不针对Fable本身,Fable本身是非常好的模型)
中文
0
0
4
40
ABRFriday
ABRFriday@Arraleonis·
@chenluqwq 我说的是科技圈不是所有用户………
中文
1
0
0
25
lu chen
lu chen@chenluqwq·
@Arraleonis 毕竟我是冲了会员的,花了钱的还不能多说几句吗
中文
1
0
0
36
ABRFriday
ABRFriday@Arraleonis·
Fable访问权被限制科技圈突然开始写诗怀念Fable,仿佛自己失去了很重要的东西。这个画面真是讽刺到极点了,建议MIT和斯坦福发几篇论文研究一下,这是AI Psychosis,得治
中文
6
6
70
3.2K
ABRFriday
ABRFriday@Arraleonis·
感觉Andrej Karpathy真的有什么说法,运气背的有点地狱笑话了。两进两出OpenAI,分股权最大的财务红利没吃上,最乱的董事会危机完美赶上。这才刚加入Anthropic不到一个月,又………
中文
0
0
1
157
ABRFriday
ABRFriday@Arraleonis·
当然并不是说Fable本身怎样,只是这个画面,很幽默
中文
0
0
6
411
ABRFriday
ABRFriday@Arraleonis·
前文权力地图:x.com/Arraleonis/sta…
ABRFriday@Arraleonis

OpenAI的权力与人际关系地图 写在开头:由于庭审追踪(三)涉及的利益相关方较多,所以本文将对相关人员的情况做简单介绍。主要内容包括:2023-2024年期间高层管理人员对不同技术路线的影响,对SSI与TML的误读和它们的真实情况,以及2023-2024年期间的内部派系。全文约4700字。 另外,本文涉及部分技术细节,包括:GPT–1到GPT-4时代的Scaling Laws,以OpenAI o1为代表的reasoning方向,以GPT-4o为代表的多模态方向。作者将尽量以非技术读者可理解的方式解释其实际影响。如有技术细节疏漏,欢迎指正。 以下是正文: (一)权力地图 这部分我们主要选择五个人来介绍,Ilya Sutskever、Greg Brockman、Jakub Pachocki、Mira Murati、Sam Altman。 Ilya Sutskever,深度学习领域的奠基人,OpenAI联合创始人,前首席科学家,OpenAI研究派精神领袖,后期为安全派的代表人物,于2024年5月14日宣布离职。Sutskever对OpenAI的核心贡献在于他对Scaling Laws的坚持。 在2015到2018年间,主流学术界普遍认为,单纯靠增加网络层数和参数量只是工程拼凑,缺乏真正的算法创新。但Sutskever对此有着不同的看法:人类标注的数据是有限的,AI必须通过阅读全世界的文本进行自我学习。他继承了导师Geoffrey Hinton的思想,深信神经网络的潜力只受限于算力和数据。他曾在内部多次强调:“如果一个模型表现不好,那就把它做大;如果还不好,那就做得更大。”2017年Google Brain提出Transformer架构后,Sutskever敏锐地察觉到,这种架构比他之前研究的Seq2Seq和LSTM更适合进行大规模并行计算,是实现Scaling的完美载体。Sutskever这一执念直接决定了GPT大模型的技术路线,也改变了整个行业的走向。 2018年,GPT-1表现平平,行业更看好双向理解的BERT模型。但Sutskever坚持不换路线,将模型参数放大了10倍,在2019年推出了15亿参数的GPT-2。GPT-2在没有针对特定任务进行训练的情况下,展现出了惊人的续写和翻译能力,证明了Sutskever的直觉:Scaling可以让模型摆脱专任务专训的限制,走向通用化。 2020年,模型的参数再次暴增100倍,GPT-3的参数达到1750亿。GPT-3的成果带来了大模型历史上的里程碑——上下文学习(In-Context Learning)。用户只需给模型提供几个例子,它就能学会新任务。这一突破确立了提示词工程(Prompt Engineering)作为人机交互的新范式,也为后来的ChatGPT奠定了底座。GPT-3成功后,OpenAI正式将Scaling Laws总结为可预测的数学公式。在这一理念的指导下,GPT-4的参数规模进一步扩大,并加入了图像多模态能力。证明了Scaling Laws不仅适用于文本,同样适用于视觉等其他模态。 然而,正因为Sutskever看到了Scaling的威力,模型的演进速度远超想象,他在大模型发展的后期思想发生了转变:如果模型无限变大,人类将无法控制它。这也促使他在内部成立了超级对齐团队(Superalignment),从基础研究层面解决AGI的安全问题。 离职后,Sutskever创立了自己的公司Safe Superintelligence,对SSI最常见的一种误读是——SSI将在Sutskever的带领下做出惊艳市场的模型。实际上,SSI虽然估值已达300亿美元,但本质上它并不是一家商业公司。SSI是一个仅有20人左右,做前沿研究的小型实验室。内部不鼓励员工在自己的领英档案上注明正在SSI工作,甚至不公开职位,以防外界挖角或窥探研究方向。SSI明确宣布过:不做产品、不对外开放API、唯一的目标和产品就是安全的超级智能本身。所以真正值得期待的是,SSI能否在Sutskever的带领下,产出和Scaling Laws一样改变整个行业走向的基础研究成果。 Greg Brockman,OpenAI联合创始人兼总裁,2022年高层人事调整前,Brockman同时兼任CTO一职,OpenAI工程派的代表人物。Brockman对OpenAI的核心贡献在于工程基础设施建设。 作为AI领域的顶级工程师之一,Brockman并不是正统学术界出身。2008-2010年期间,Brockman先后从哈佛大学的数学与CS专业和MIT的CS专业退学,转而奔赴硅谷开始创业。离开MIT后,Brockman加入了当时还没有正式改名的初创公司,也就是后来的Stripe。作为公司的4号员工,他亲手写下了Stripe早期的大量核心代码,并在2013年正式出任Stripe CTO。Brockman不仅负责架构,还搭建了硅谷最顶尖的工程师文化,将公司的工程团队从4人一路扩展到250人规模。这段经历也是Brockman的日记里会提到如何让自己赚到10亿美元的原因,在初创公司的工作经历让他对创业的经济回报天然敏感。 在Stripe蒸蒸日上时,他选择激流勇退,寻找更有突破性的领域——AI。Brockman的个人博客中提到,在OpenAI成立的前三年里,Brockman发现自己陷入了严重的拖延焦虑。当时他作为工程负责人,虽然软件开发能力极强,但因为不懂底层的深度学习算法,总觉得自己在AI科研的核心圈之外干杂活。2017年夏天,Brockman尝试启动了一个名为行为克隆(Behavioral Cloning)的项目,想通过人类数据来训练一个神经网络。这次尝试由于心里没准备好“重新成为一个初学者”的挫败感,最终搁浅了。2018年年末,Brockman下定决心破釜沉舟,开始了机器学习的自学之路。2019年4月,由他主导的OpenAI Five在Dota 2比赛中以2:0击败了当时的世界冠军战队OG。这标志着他正式从一个软件工程师,蜕变为了能调配超大规模强化学习的顶尖AI架构师。 2020年开始,Brockman的主要工作是将模型以极快的速度服务于客户,GPT-4时代,Brockman更深入地参与到模型训练和基础工程搭建的核心工作中。2024年,Brockman作为总工程师,参与了助力下一代AI所需的物理与数字基础设施Stargate计划。Brockman在OpenAI的核心身份从始至终没有变过:他一直是那个让事情能够真正跑起来的人。 Jakub Pachocki,OpenAI现任首席科学家,研究派的代表人物。Pachocki对OpenAI最大的贡献在于带领OpenAI走上了reasoning和强化学习结合道路。 Pachocki是一位传奇的波兰顶级程序员(网名meret)。在投入深度学习领域之前,他在算法设计、高维凸优化和竞技编程领域就已经达到了世界顶尖水平。曾斩获2012年谷歌编程挑战赛(Google Code Jam)全球冠军。同年,代表华沙大学获得ACM-ICPC国际大学生程序设计竞赛全球亚军。竞技编程的核心是在极短时间内对高难度数学和逻辑问题进行多路径尝试、自我Debug和深度思考。Pachocki丰富的竞技编程经验,为他后来参与GPT-4预训练、推动o系列模型形成奠定了坚实基础。Pachocki及波兰帮成员的顶尖数学水平,正是OpenAI推理模型的数学能力在行业领先的核心原因。 作为OpenAI的研究总负责人,Pachocki带领的方向主要有以下几个:第一,System 2慢思考与长考(Long-Horizon Reasoning):让AI拥有类似人类的深度思考能力,在回答前进行更长时间的逻辑推演、自我纠错和多路径尝试。第二,科学发现(AI for Science):将研究重心倾向于科学领域,让AI能够自主阅读文献、设计实验、编写代码并独立发现新的物理或生物学规律。第三,全自动AI研究员(The AI Scientist):这是他个人最标志性的愿景——开发能够帮助OpenAI科学家写AI论文、改进AI算法的AI,通过让AI自我迭代的方式,加速AGI的到来。第四,高可靠性与对齐(Alignment & Safety):将安全规范直接织入模型的思维链中,让AI在思考过程中自己监督自己是否合规。 首席科学家换帅,标志着OpenAI从学术理想国转变为追求效率的超级商业与工程帝国。而Pachocki的特殊之处在于,他既准确识别了OpenAI内部资源与权力的流向,也避免了过度卷入办公室政治斗争。他在关键时刻完成站位,获得了首席科学家的职位与研究资源后,重新回到技术问题本身。这使他成为后期最适应OpenAI新阶段的技术核心。 Mira Murati,前OpenAI CTO,产品派的代表人物,于2024年9月25日离职。Murati对OpenAI的核心贡献在于将研究成果产品化和在多模态方向上的坚持。 2011-2012年,Murati通过文理学院与工程学院的双学位路径,先后获得数学文学学士和机械工程学士。这样的理工复合背景,让她在OpenAI的工作中既能理解底层技术判断,也能重视工程落地与产品体验。2022年升任CTO后,Murati的工作主要包含以下几个方向:研究、产品、安全和合作关系。Murati的位置更像OpenAI的纽带,整合从研究、工程到产品化的一系列工作。然而,她在每个方向上都没有真正的实权:研究在GPT-4时代开始逐渐由Pachocki掌管,ChatGPT产品负责人Nick Turley的汇报线绕过了CTO,直接向CEO汇报,整个安全体系的领导人为SAG顾问小组,而SAG的汇报上线是OpenAI领导层,合作关系方面,这条线同时也由当时的COO Brad Lightcap和CSO Jason Kwon负责。 原生多模态路线是Murati最认同的技术方向,她在内部多次直接推动了多模态的进展。2019-2020年期间,OpenAI内部并不看好多模态方向,Murati力排众议为图像团队争取到了研究资源,最终,DALL·E 2在2022年引爆全球,证明了多模态研究方向的价值。GPT-4时代,她对多模态方向的进一步坚持,直接催生了GPT-4的视觉能力(GPT-4 Vision)。 尽管拥有了视觉能力,GPT-4仍旧是一个拼接的文本模型。2023年4-5月,目标为原生端到端多模态网络的项目在OpenAI内部秘密启动。Murati认为传统的ASR(语音转文字)+ LLM(大模型)+ TTS(文字转语音)的拼接方案是一条死胡同,机器永远无法在文本中感知到人类说话时的呼吸、颤音、哭腔、反讽和背景环境音。正是Murati带领多模态团队在这一方向上的打磨,最终在2024年5月13日,具有里程碑意义的原生一体化多模态模型GPT-4o问世。 2025年2月,Thinking Machines Lab成立。对于TML最常见的一种误读是——TML经历了创始人才流失后要完蛋了。TML的确经历了联合创始人、前OpenAI研究VP Barret Zoph回流OpenAI,Meta收购不成直接挖人的人才流失。但后面没说完的话是,Meta和TML的人才争夺战中,获胜方是TML。TML从Meta挖来了PyTorch创始人兼发明者Soumith Chintala、Segment Anything(SAM)的共同发明人Piotr Dollár等核心人才。目前,SAM的两位核心作者(另一位为Alexander Kirillov)都在TML。TML后续能否在Murati的领导下贡献更多多模态研究成果,值得期待。 Sam Altman,OpenAI联合创始人兼CEO,商业派的代表人物。Altman对OpenAI的核心贡献在于叙事、融资和外部资源整合能力。他将OpenAI从一个前沿研究实验室,推进为能够持续吸纳资本、算力、企业客户与公众注意力的商业化平台。 Altman虽然并不负责具体的技术研发,但他作为OpenAI的资源操盘手,资源分配会直接决定研究方向的优先级。Altman的技术偏好要从两个角度来看。商业战略层面,指向的技术偏好是AI Agent。背后的原因也不复杂,企业端的AI编码赛道是目前变现最快的一条,Anthropic的Claude Code在企业端使用率接连上涨后,其营收潜力对靠C端发家的OpenAI造成了直接威胁,OpenAI内部在3月表示要集中资源攻打B端市场。所以,今年或者说在IPO成功前,OpenAI的主要资源都会分配给Codex,而不是ChatGPT。 个人审美层面,指向的是多模态。据报道,Altman不止一次称《Her》为最爱的AI电影,并赞赏其在交互模式上的预见性,他表示电影深深启发了OpenAI。 2023年的一次采访中,他明确说:“《Her》在交互模型上抓到了很多正确的东西……这不是小成就。”他对《Her》的执念,直接促成了GPT-4o语音模式中与Scarlett Johansson的声音极为相似的女声Sky的诞生。在Altman的个人博客中也能找到一些线索,多模态方向的DALL·E、GPT-4o、Sora都有单独的博客,在博客中Altman对多模态成果展现出明显的热情,而reasoning方向更多是记录团队付出的努力,而非对方向本身的兴趣。另外,OpenAI与前苹果首席设计官Jony Ive的合作也能佐证这一点。苹果的产品哲学正是让有形的技术消失于无形,与原生多模态的技术哲学如出一辙。 Altman的矛盾在于,他作为CEO必须追逐能赚钱的方向,但他个人真正被打动的技术始终是那个不好量化回报的方向。在这个意义上,他既是OpenAI最大的推动者,也是它最大的瓶颈。 (二)人际关系地图 2023年OpenAI董事会危机普遍被视为安全派与加速派的矛盾长期不得到解决的结果。实际上,安全派内部的诉求并不一致,这也是安全派在董事会危机中失败的关键原因之一。 2023-2024年期间,OpenAI的主要安全部门有三个,分别是超级对齐(Superalignment)、应变准备(Preparedness)、安全系统(Safety System)。 简单来说,超级对齐团队的核心目标是从基本研究层面解决AGI的安全和对齐问题,不参与模型部署环节的具体安全测试流程。超级对齐联合负责人Jan Leike的政治阵营是同为团队负责人的Sutskever。Sutskever宣布离职三天后,Leike宣布离职,并公开在X上指出OpenAI内部将安全问题置于边缘位置的情况。 应变准备团队与安全系统团队协同负责红队测试工作。应变准备团队对模型的安全问题进行排查和诊断,安全系统团队负责对诊断出的安全问题进行治疗,这两个部门是模型部署前安全测试流程的核心。安全系统团队负责人Lilian Weng的政治阵营是CTO Murati,二人同为TML的联合创始人。 应变准备团队负责人Aleksander Madry在董事会危机中主动辞职声援CEO。然而在次年7月,Madry被调离至AI reasoning团队。也就是说对加速派而言,整个安全派对商业化加速都是绊脚石,个人的政治站队无法改变安全派在加速派掌权下的尴尬地位。 而在高层管理人员中,根据人际关系的亲疏又分为明显的两派。 技术圈:Ilya Sutskever、Greg Brockman、Jakub Pachocki Sutskever和Brockman是从OpenAI创立开始建立起的深厚友谊,Sutskever对Pachocki而言则是导师的身份,在Brockman自学机器学习的过程中,Sutskever与Pachocki共同对他的学习进行了指导。技术圈的连接纽带是师生关系与兄弟关系。 运营圈:Mira Murati、COO Brad Lightcap、CSO Jason Kwon 前文中已提过Murati升任CTO后具体的职责,COO的核心职责是运营、财务、法务和商业化,CSO的核心职责是公司架构、投资人关系和合规。三人的职责天然重叠,形成了互相架空的状态,在ChatGPT初期巨大的运营压力下,三人反而建立了深厚的友谊。 与技术圈的不同的是,运营圈的管理人员的工作方式更接近于协作,CTO负责推进产品化掌管整个后训练体系,和COO,CSO的工作形成一个完整的工作线。而这条线最终掌握在CEO的手中,所以运营圈的人天然更能意识到开除CEO的严重性。 技术圈内部则经历了从协作走向竞争的过程。GPT-4时代后,研究权逐渐由Pachocki掌管,Brockman更多地与擅长算法设计的Pachocki进行模型训练工作的协作。超级对齐成立的同时期,GPT-4o与OpenAI o1两条线均在进行中,算力资源并不充足。这也是超级对齐得不到公司承诺的20%算力的原因,从商业角度讲,公司不可能在两条重要的研究线同时进行的情况下,选择把更多的资源拨给做基础研究,且短期内无法变现的超级对齐团队。 因此,后期Sutskever手中真正有用的牌只剩下董事会的投票权。正是在被边缘化,拿不到研究资源的困境下,Sutskever决定通过董事会对加速派进行反击。而这次反击在五天后被加速派翻盘,以次年整个后训练及安全体系被大规模清洗告终。 部分内容来源: OpenAI官方博客 Greg Brockman个人博客 Sam Altman个人博客

中文
0
0
1
163
ABRFriday
ABRFriday@Arraleonis·
Musk v. Altman 庭审追踪(三):被杀死的灵气——微软时代与撕裂的伤口 省流版:Anthropic创始团队出走始末与董事会危机的权力斗争复盘。建议配合前文权力地图阅读,全文约6400字。 由于本文涉及的内容时间跨度较大,作者已尽力对文中提到的事件进行核实,后续如发现事实错误将在评论区进行更新,欢迎捉虫。 以下是正文: 2018年5月,微软CTO Kevin Scott访问了OpenAI的办公室,并观看了一系列研究演示,包括AI玩电子游戏和单手机器人解魔方。Scott表示这些从研究角度来看超级有趣,但当时在商业上并不吸引人。 2019年,谷歌将BERT模型应用于搜索与Gmail的自动补全功能,并取得了显著成功引起了微软的注意。6月,在Scott发给CEO Satya Nadella和Bill Gates中的邮件中提到:“当我深入挖掘,试图理解谷歌和我们在模型训练能力上的差距究竟在哪里时,我变得非常、非常担忧。”(And as I dug in to try to understand where all of the capability gaps were between Google and us for model training, I got very, very worried.) 7月,微软正式宣布与OpenAI合作,并向OpenAI注资10亿美元。这笔资金从来都不是为了技术本身,而是出于对谷歌的竞争焦虑。 故事要回到旧金山德拉诺街的一间合租公寓。 2016年,初创公司Stripe的一位年轻高管Daniela Amodei和刚刚加入OpenAI的哥哥Dario Amodei,以及她的男友Holden Karnofsky同住在一间公寓。 Greg Brockman作为Daniela的好友常常到访这间公寓。几位对AI技术感兴趣的年轻人围绕着这个话题展开了无数次激烈的辩论,在公寓的客厅里,他们爆发了第一次关于AI未来的争吵。野心勃勃的Brockman认为AI将改变每个人的生活,必须对全美3亿大众公开前沿AI的进展。Amodei兄妹与Karnofsky认为,过早向公众宣扬AI的强大非常危险,面对如此敏感的技术,应该先通报政府。 尽管双方观念不同,Brockman对Amodei兄妹的才能依旧十分欣赏。 2018年6月,OpenAI发布GPT-1,然而,GPT-1并未像预期的那样引起学术界的注意,仅四个月后,谷歌发布BERT模型。BERT在NLP阅读理解测试中展现出的强大能力让学术界和资本的注意力都转向了BERT。 10月,在Brockman的邀请和哥哥的牵线下,Daniela加入了OpenAI。她的丈夫Karnofsky在2017年通过Open Philanthropy捐款,作为合作伙伴关系的一部分加入OpenAI董事会。 面对BERT带来的压力,OpenAI在研究员Alec Radford和首席科学家Ilya Sutskever的坚持下继续推进GPT路线。空有执着和直觉作为引擎还不足以让OpenAI在这条路上走下去,Dario在Scaling路线上的进一步押注为GPT路线提供了燃料。 2019年2月,GPT-2论文发布,GPT-2首次展现出了深度伪造新闻的能力。出于安全担忧,在Amodei兄妹的坚持下,OpenAI仅开源了1.24亿参数的残血版模型。长达9个月的拉扯后,15亿参数的GPT-2于11月发布。 随着GPT-2的成功,Dario被提拔为研究副总裁,OpenAI明确指出他将与首席科学家作为共同领导者,一起决定OpenAI整体的研究走向,Daniela因其出色的管理能力被提拔为人事副总裁。 Dario带领团队继续推进GPT-3的研发,一场风暴在OpenAI内部悄悄酝酿。Amodei兄妹权力的扩大,也为由他们领导的、认同有效利他主义的研究团队——Pandas,带来了更大的资源调度权。这也意味着其他研究团队能获得的资源支持日益减少。由Brockman主导的Dota 2项目OpenAI Five,以及Wojciech Zaremba主导、Sutskever提供理论支持的强化学习机器人团队直接被影响。 当时Brockman非常希望参与到GPT大模型的核心研发工作中,Dario以强势的姿态拒绝了他的要求,直接表示禁止Brockman参与、干涉GPT项目的任何研究细节。双方矛盾进一步激化。 在此期间,坚持为图像生成团队争取研究资源的应用与产品副总裁Mira Murati,和更相信纯文本Scaling路线、并掌握着资源与人事调度权的Amodei兄妹产生了摩擦。 2020年3月,GPT-3训练接近尾声时,OpenAI内部的氛围因为互相猜忌日益紧张。Altman随即要求高管团队每一个人,必须给其他高管写一份完全公开的同行评审。被边缘化已久的Brockman借此机会控诉Daniela滥用职权、搞内部官僚流程排挤人。在这篇评价提交给Daniela之前,Altman先看到了Brockman的不满,并表示:“虽然严苛,但这很公平。” 5月,由Pandas主导的GPT-3论文正式发布,GPT-3涌现出的能力彻底宣告了Scaling Laws的胜利,也让Amodei兄妹在董事会面前的声望达到了顶点。同月,Daniela被提拔为安全与政策副总裁。 2月-7月期间,风头正盛的Dario更加不满其他研究团队占用算力资源,和Sutskever的矛盾进入白热化阶段。为了稳住Dario领导的技术团队,也给创始团队打一剂强心剂,Altman私下向Dario保证,绝不开除他。转头向Sutskever和Brockman表示只要双方同时同意,随时都可以开除Dario。 9月,OpenAI宣布将GPT-3的底层核心技术独家授权给微软。这一行为引发了Pandas对OpenAI加速商业化进程的安全担忧。 11月,商业化让OpenAI尝到了甜头,为了筹集更多的资金,Brockman提出了一个大胆的想法:可以把通用人工智能独家卖给联合国安理会的几个核大国政府。Dario当即表示反对,直言这是叛国。 为了彻底解决和Altman以及Brockman的矛盾,Dario私下搜集了他们管理不当的证据,联合几位核心研究员,向董事会提交了联合弹劾案。要求开除Brockman,边缘化Sutskever,由自己掌握研究大权。 Altman抓住了Dario对Sutskever的排挤之意,联合Brockman和Sutskever反向向董事会施压。尽管有Karnofsky支持Dario的主张,在牺牲OpenAI的技术灵魂和牺牲技术团队之间,多数董事会成员还是选择支持Altman,Amodei兄妹的弹劾以失败告终。 Dario倚仗GPT-2、3的成功,误以为自己在组织内部拥有了足够的技术权威,为GPT大模型的研发立下汗马功劳的同时,Pandas高度组织化的作风也得罪了其他研究团队。Altman正是利用了各个技术团队之间的摩擦,用选择性的信息传递和不对称的叙事织成一张网,使得自己成为这张网上唯一的权威信息源。 随着弹劾的失败,Amodei兄妹在OpenAI内部逐渐被边缘化,二人也在思考离开OpenAI重新开始。为了避免大规模的人才流失,Altman对他们进行了挽留。最终,Amodei兄妹带领Pandas的核心成员在年末离职,次年创办Anthropic。 Anthropic的创办让Karnofsky在董事会的地位变得尴尬。2021年9月,迫于潜在利益冲突的压力,Karnofsky离开OpenAI董事会。 同月,Karnofsky引荐Helen Toner加入OpenAI董事会。Toner不仅是乔治城大学的研究员,还是Karnofsky的前直系下属。 有效利他主义的势力从未离开OpenAI。 Pandas离开后,内部研究资源也从纯文本Scaling路线中解放出来,多模态研究成果逐渐爆发。 2021年1月5日,由Murati动用副总裁权限争取到研究资源,Aditya Ramesh主导的图像生成模型DALL-E 1发布,OpenAI开启多模态时代。 7月,机器人团队解散,原本投入在机械臂上、无法产生海量数据的算力资源,全部解放出来,直接注入多模态和图像大模型的预训练中。 2022年4月,DALL-E 2发布。在DALL-E 2开发期间,面对生成逼真图像、甚至深度伪造的技术落地难题,Murati展现出了极强的商业与安全平衡手腕,通过组织严密的安全测试,使得DALL-E 2成为安全合规的商业产品,引发了全球的生成式AI图像海啸。 5月,Murati被OpenAI董事会提拔为CTO,领导研究、产品、安全与合作关系,多模态研究团队也随着Murati的升职正式进入核心权力圈。 11月,ChatGPT发布,并在几天内引爆全球,产品负责人Nick Turley绕过统领产品的CTO,直接向CEO汇报工作。产品线的越级汇报催生了Murati对Altman的不信任,她在视频证词中直言:“我在一个极其复杂的组织中承担着一项艰巨的任务。我要求Sam发挥领导作用,以清晰明确的方式领导团队,并且不要削弱我履行职责的能力。”(“...I had an incredibly hard job to do in an organization that was very complex. I was asking Sam to lead, and lead with clarity, and not undermine my ability to do my job.”) 2023年3月,GPT-4发布,在Murati的坚持下,GPT-4的视觉能力需要更加严格的安全对齐而延缓发布。 年中,谷歌开发者大会为下一代大模型Gemini预热,并着重强调Gemini将是一个原生多模态模型。为了与Gemini正面竞争,目标为端到端原生多模态模型,代号Gobi(GPT-4o雏形)的项目在OpenAI内部秘密立项。然而,Gobi的诞生不仅仅是为了竞争,更是为了将Altman对电影《Her》的执念落地。 9月25日,经过安全团队半年的打磨,GPT-4V正式发布。同月Altman亲自致电Scarlett Johansson,邀请她为ChatGPT语音模式配音,很快被Johansson拒绝。月底Murati在采访中表达了对语音模式成瘾的顾虑。 10月中旬,OpenAI独立董事Toner发表论文《Decoding Intentions: Artificial Intelligence and Costly Signals》。论文赞美了Anthropic为了安全不惜推迟Claude的发布、并专注研发宪法 AI的负责任态度。不点名地批评OpenAI急于将ChatGPT和GPT-4推向公众、抢占商业市场的行为,是在行业内煽动缺乏安全考量的恶性军备竞赛。当时美国联邦贸易委员会正在对OpenAI展开严厉的合规与数据安全调查,论文引来Altman的极度不满,指责Toner对公司造成了实际伤害,并在其他董事与高管中游说要求开除Toner。 Sutskever在2025年10月的证词中指出,他认为Toner作为董事会成员发表这样的文章是不恰当的,并与Altman商讨过此事,他对将Toner从董事会中除名一事表达过支持。 中下旬,The Information爆料OpenAI试图采用稀疏化技术,让模型在拥有GPT-4级别的高超性能的同时,降低成本和算力消耗的Arrakis项目失败,这次罕见的技术滑铁卢让微软高层极度失望。OpenAI不得不调整战略,将原本分配给Arrakis的算力资源转移到Gobi上。Altman对Gobi寄予厚望,同时他也意识到,董事会将是Gobi商业化落地的最大阻碍。 Arrakis项目失败后,Altman为了维护自己的不败商业神话,在私下向其他董事和高管暗示是Murati团队的失误导致了项目的失败。在长期的管理积怨下,Murati决定与董事会进行谈话,控诉了Altman在内部玩弄政治,挑拨高管对立的行为。董事会首次通过Murati得知了内部的管理危机。Murati在视频证词中明确提到:“我的担忧是关于Sam对一个人说一套,对另一个人说完全相反的另一套,他在公司内部制造混乱。 ”(“My concern was about Sam saying one thing to one person and completely the opposite to another person. He was creating chaos”) 随后独立董事与Sutskver进行密谈,求证Murati所说的具体情况。Sutskever确认了自己对Altman的不信任,并表示自己暗中忍受和观察Altman长达一年多。 独立董事中最具有商业和法律直觉的Adam D'Angelo意识到,无故开除一个声望极高的明星 CEO,可能会招致巨大的股东诉讼和商业灾难。D'Angelo秘密咨询了外部法律顾问,得知根据非营利组织的章程,要想开除CEO必须有证据证明Altman对董事会存在欺骗和隐瞒。拿到法律背书的D'Angelo询问Sutskever是否有相关截图,Murati在工作中收集的证据,成为了Sustkever手中的弹药。 同时期,由Jakub Pachocki和Szymon Sidor等人领导的代号为Q*(OpenAI o1雏形)的项目跑通,AI第一次在面对复杂数学和编程难题时,通过自我尝试和纠错,完成了自主推理。Pachocki的崛起让Sutskever在核心前沿研究上逐渐被边缘化。 11月初,Sutskever将证据整理成memo,通过阅后即焚邮件形式发送给独立董事Toner、D'Angelo和Tasha McCauley。 11月6日,OpenAI举办了首届开发者大会,并宣布了一系列产品,如GPT-4 Turbo、GPTs等。 11月中旬,内部技术人员绕过Altman向董事会提交警告信,Q*的技术突破已经逼近AGI的红线,而公司目前的加速商业化节奏根本无法保证对其进行有效的安全对齐,这可能会威胁全人类的生存安全。 当时OpenAI正在进行一轮估值高达860亿美元的员工售股计划,这笔交易原定于12月初正式交割。董事会非常清楚,如果在交易完成前解雇CEO,这笔交易很可能被搁置,导致员工手中的期权无法变现。为了不让普通员工的利益受损,也为了有足够的时间对Altman进行充分的独立调查,开除CEO的行动原计划于12月进行。 然而,Altman对Toner的步步紧逼让她意识到,如果他们不先动手,Altman很快就会利用他在公司内的声望和微软的支持,先把不听话的董事会成员一个个解决掉。 尽管董事会共同作出了开除CEO的决定,根据Sutskever的证词可以得知,董事会成员之间并不存在紧密的私人关系。为了保证计划不被泄露,董事会在商讨方案阶段并未向Murati透露此事。 11月16日,Altman在APEC峰会上发表演讲,为Q*项目预热,“在 OpenAI 的历史上有过四次——最近一次就在过去的几周里——我有幸见证了这样的时刻:我们仿佛推开了未知的帷幕,将探索的边疆向前推进。能够亲历这一切,是我一生职业生涯中最高的荣誉。” 晚上,Murati接到通知,董事会将在第二天开除Altman,并任命她为临时CEO。Murati在证词中表示,为了公司的延续性和团队的稳定,她接受了董事会的任命。同时,Murati也向董事会发出警告,如果在微软不知情的情况下进行这一计划,将会给OpenAI带来巨大的麻烦。 11月17日,为了不泄露风声,董事会没有提前联络微软,Murati在Altman被开除的前5-10分钟向微软CEO Nadella致电告知此事。如Murati所料,微软对此事极其震惊且愤怒,Nadella多次公开讽刺OpenAI董事会的操作是业余之举。 下午,为了平息员工的恐慌,由Sutskever代表董事会出面召开了全员视频会议,面对员工的质疑,董事会未能拿出合理的开除CEO的解释。 傍晚,总裁Brockman、Q*项目核心成员Pachocki、Sidor、以及Preparedness负责人Aleksander Mądry相继宣布辞职。 11月18日,COO Brad Lightcap决定先发制人,向员工发布memo解释情况,“董事会的这一决定,绝对不是因为Sam在任何财务、商业、技术或安全实践上存在违规行为。 这纯粹是Sam与董事会之间信任关系的破裂。” 晚间,董事会与Anthropic领导层取得联络,协商合并事宜。Sutskever的证词中提到,在罢免CEO的周末,他有意识避免上网,因此并未参与到合并商讨中。 11月19日是董事会危机中最重要的一天。OpenAI内部摇摇欲坠,外部DeepMind和xAI对技术人才虎视眈眈,内部管理层、董事会、Altman与微软分别进行了一系列行动。 早间,Altman、Nadella与Altman的多年好友、Salesforce前联席CEO Bret Taylor取得联络,Taylor试图与D'Angelo联系但并未得到回复,Altman构想组建临时董事会。 中午,Sutskever在内部会议中得知董事会与Anthropic联络,并试图推进合并一事,作为联合创始人的Sutskever对此极力反对,他认为罢免CEO是为了维护OpenAI的使命,而非将公司作为政治筹码卖给竞争对手。 下午,在Nadella的调节下,Altman以访客身份回到OpenAI与董事会进行复职谈判。以Thrive Capital和微软为首的资本方,向董事会下达了在下午5点之前达成协议的最后通牒,要求董事会集体辞职、Altman复职。 谈判在入夜后陷入僵局并面临破裂,Murati与Lightcap等高层人员极力劝说董事会,如果Altman不回来,将有可能摧毁OpenAI,这与OpenAI的使命背道而驰。Toner表示这符合OpenAI的使命。 Toner的态度让Murati对董事会彻底死心。为了保护OpenAI团队的完整性,Murati选择倒向Altman阵营,向Nadella和Scott请求微软的介入,保护OpenAI核心人才不被竞争对手吸纳。 晚间,Anthropic正式拒绝了董事会的合并请求。合并商讨破裂后,董事会也意识到Murati的立场已经发生转变。D'Angelo联络到Twitch创始人 Emmett Shear,任命其为下一任临时CEO。 深夜,董事会通知Murati解除其临时CEO职务,回归CTO。 20日凌晨,新任CEO任命消息走漏,Nadella直接宣布微软将接手OpenAI员工,成立新的AI实验室。 随后,Murati联络Nadella核实微软对OpenAI员工的福利保障,并与Lightcap等管理层起草联名请愿信。 清晨,Brockman的妻子找到在办公室通宵工作的Sutskever,作为证婚人的Sutskever面对Anna的哭诉愧疚感爆发,内心防线崩溃。 5点,Sutskever彻底倒戈,选择在联名信上签字,并在X上公开表达了对参与董事会行动的悔意,Altman回复❤️❤️❤️。董事会危机胜负已定。 早间,OpenAI员工在微软的保障下开始大范围公开反抗,95%以上员工签署请愿信,并集体在X上表态:“OpenAI is nothing without its people.” 新任临时CEO Shear发现董事会无法就开除CEO一事给出合理的法律解释后,要求董事会必须对此事给出书面证据,否则自己将辞去CEO的职务并支持Altman复职。 至此,董事会失去所有筹码。 11月21日,Taylor作为代表出面与D'Angelo谈判,并进行施压。身为Quora CEO的D'Angelo在声誉压力面前释放了妥协信号,提出旧董事会成员可以退出,新董事会必须有足够分量的、独立且懂合规的人物坐镇,他自己也必须留任监督的要求。 晚上7点左右,Altman与Nadella、Scott、微软总裁Brad Smith在群聊中挑选新一届OpenAI董事会成员。最终敲定新一届董事会由Taylor担任主席,D'Angelo留任,美国前财政部长Larry Summers加入董事会。 深夜,D'Angelo同意了协调各方利益的《原则性协议》。OpenAI宣布Altman回归继续担任CEO,公布新一届董事会成员名单。 11月22日,随着Altman的回归,辞职声援的Brockman等人相继复职。旧董事会成员Toner、McCauley、Sutskever离开董事会。董事会危机正式结束。 OpenAI名义上保留了Sutskever的首席科学家职务,实际职能已由Pachocki代行,Sutskever从那以后再也没有回到办公室工作。 Q*和Gobi项目在Pachocki和Murati的领导下继续推进。 2024年年初,联合创始人Andrej Karpathy、开发者关系负责人Logan Kilpatrick相继离职。 5月13日,GPT-4o发布。 次日,首席科学家Sutskever宣布离职。 5月17日,超级对齐联合负责人Jan Leike宣布离职。 7月18日,GPT-4o mini发布。 8月5日,由于Brockman的高压管理风格引大批员工的不满,Altman劝说其休假以缓和矛盾。 同天,联合创始人John Schulman宣布离职。11位联合创始人除Altman和Brockman外,仅剩Zaremba留在OpenAI。 9月12日,OpenAI o1-preview与o1-mini发布。 9月24日,高级语音模式向付费用户推送。 9月25日,路透社爆料OpenAI正在密谋重组,原有的非营利董事会将彻底失去对核心商业实体的绝对行政控制权。 同天,CTO Murati、首席研究官Bob McGrew宣布离职,研究副总裁Barret Zoph递交辞呈。 10月23日,AGI准备团队负责人Miles Brundage宣布离职。 11月8日,安全系统团队负责人Lilian Weng宣布离职。 至此,OpenAI内部曾对安全与商业化节奏提出异议的核心成员几乎全部离场。 OpenAI的三次权力斗争均以Altman的胜利告终,这并非偶然,而是OpenAI从根本上没有形成稳定有效的纠错机制,每一次事件的走向基本由内部人际关系决定。 创始团队分裂,即Elon Musk出走事件的走向,由Sutskever和Brockman为代表的技术团队的立场决定。Altman向双方均传递出模棱两可的信息,Musk强硬的态度使得技术团队需要OpenAI保持独立的立场更加坚定。Altman只需表现得更加民主,就能借两人的手顺利将Musk踢出局。 弹劾事件的走向同样由Sutskever和Brockman的立场决定。Dario对Sutskever的排挤之意是巨大的政治失误,Sutskever的学术声誉是OpenAI初期成功的关键。董事会不会为了技术团队的诉求牺牲OpenAI的技术灵魂,OpenAI也需要Altman的融资能力维持日常运转。 董事会危机的走向同时由以Pachocki为代表的波兰帮,和CTO、COO、CSO组成的运营圈的立场决定。尽管双方诉求并不相同,波兰帮需要Altman的重视获取更多的研究资源,运营圈需要保住OpenAI不走向分崩离析,尤其是同时掌管研究和产品方向的Murati,更有立场保护OpenAI的研究成果不被竞争对手夺走。最终双方的诉求指向了同一个结果,帮助Altman复职。 从外部看,OpenAI董事会的独立性始终受到多重关系网络牵制。 当时是Open Philanthropy执行董事的Holden Karnofsky,于2017年加入董事会,Karnofsky不仅是有效利他主义运动的领袖,还是Daniela的丈夫。Karnofsky离开董事会后,引荐信奉有效利他主义的Helen Toner加入董事会,而Toner对Anthropic的治理模式有着明显的欣赏。EA圈层以使命驱动自居,但其在OpenAI董事会的人事布局呈现出明显的圈层任命特征。 领英联合创始人Reid Hoffman于2018年加入董事会,同时期他也是微软董事会的成员,作为牵线人促成了OpenAI与微软的合作。2023年初离开董事会。 Neuralink高管Shivon Zilis于2020年加入董事会,Zilis怀孕期间隐瞒了孩子的父亲是Musk的事实。2022年7月,由于Business Insider通过法律文件发现这一情况,并通知Zilis将要曝光此事。Zilis主动向Altman和Brockman坦白。2023年随着xAI的成立,Zilis离开董事会。 Quora CEO Adam D'Angelo于2018年加入董事会。2023年初,Quora推出AI聚合平台Poe,与ChatGPT形成直接的竞争关系,同时,Poe的商业模式也深度依赖OpenAI的API供应。D'Angelo是旧董事会中唯一留任的成员。 内外多层复杂的利益交缠下,OpenAI的治理乱象是一种不可避免的结果,而Altman选择用不对称信息作为管理方式加速了矛盾转化成真正的危机。 在AGI这个能够改变全世界的技术面前,救世主情结、权欲与控制欲被前所未有地放大。 你的使命也是你的催命符。 部分证据来源: Bloomberg Business Insider Internal Tech Emails LessWrong MTSlive muskonomy Reuters The Information The New Yorker The Verge Times of India WSJ Yahoo 特别感谢谷歌搜索AI模式与Claude Opus 4.6提供的信息搜索和时间线梳理支持。
中文
2
0
10
3K
ABRFriday
ABRFriday@Arraleonis·
需要用户写大量提示词校正对话风格的模型从根本上就是失败的,产品经理脑子被门夹了才能开发出这种东西。这个开发思路连把模型当生产力工具的水平都达不到,好的生产力工具最起码也要使用起来便捷。美国人真应该立法,没达到GPT3.5到GPT4的飞跃的模型你们公司自己留着玩吧,别发出来了。 Trillion-Dollar Valuation Is All You Need😂
中文
1
42
180
9.8K
ABRFriday
ABRFriday@Arraleonis·
不得不说Ilya Sutskever作为科学家最让人尊敬的一点是他很少对自己外行的领域发言。讨论的问题都在他真正理解且精通的范围内,其他领域说也是讲一些自己的哲学思考,不会越界批判。 拉踩那谁吧,靠AI Agent赚钱的公司觉得“我有一个AI教练,我伴侣也有一个AI教练,帮我们改善关系”这种Human Agent的方案是最优解我真不行了,直接让俩AI交流是不是更省事吗,人在中间起到一个浪费AI时间的作用😂普林斯顿的教授需要来驱驱魔了,人一旦有“以我的智识还能不懂这个问题?”的心态………就离爆典不远了。
中文
1
2
32
1K
ABRFriday
ABRFriday@Arraleonis·
关于Alexander Kirillov的更多介绍详见x.com/Arraleonis/sta…
ABRFriday@Arraleonis

GPT-4o诞生两周年,它的缔造者们如今在哪里? 2026年5月11日,Thinking Machines Lab发布最新研究成果Interaction Models。Interaction Models颠覆了目前主流AI回合制的对话逻辑,转向了更符合人类直觉的全双工、时间感知实时协作模式,该模型在实时语音轮流对话中实现了仅有0.40秒的超低响应延迟。 TML-Interaction-Small预览发布后,一些评论表示该模型让人想起了两年前OpenAI发布的GPT-4o,更有甚者表示Interaction Models像是GPT-4o的克隆版。当然,这是一种狭隘的结论,Interaction Models不是克隆GPT-4o那么简单,它是一种新的交互范式。那么,为什么它会让人想起GPT-4o?因为很大程度上,TML正是OpenAI曾经的后训练与多模态团队的原班人马。今天我们就来聊聊,TML现有核心团队和GPT-4o的关系。 我们主要选择五位来介绍,分别是,Mira Murati、John Schulman、Lilian Weng、Alexander Kirillov、Rowan Zellers。 Thinking Machines Lab于2025年2月在旧金山成立,TML注重人机协作,致力于构建能够与人协作,更灵活、更具适应性和更个性化的AI系统。先进的多模态功能是TML的核心研发目标。 Mira Murati,TML联合创始人及CEO,OpenAI前CTO,因其出色的产品化能力,在OpenAI商业化关键时期被提拔为CTO。在OpenAI的诸多产品如ChatGPT、DALL-E、Sora的技术开发与管理过程中起到了关键领导作用。 其职业生涯主要围绕着产品化展开,2012年,Murati在Zodiac Aerospace担任高级概念工程师,致力于航空航天领域的工程设计。2013年加入特斯拉,参与了Model X的开发,见证了AutoPilot自动驾驶辅助软件的早期版本和AI赋能机器人的开发,此后Murati的职业生涯向人工智能方向转型。2016年-2018年,Murati在Leap Motion(现名为Ultraleap)担任VP of Product&Engineering,Leap Motion是一家专注动作追踪和人机交互技术(主要应用于VR和AR)的公司。Murati在此期间专注于人类如何与智能系统和机器进行更自然的交互。可以说,Leap Motion的经历是Murati产品哲学形成的关键:技术不仅要强大,更重要的是如何能让不懂技术的人也能够便捷地使用它。这条线从OpenAI一直贯穿到TML,GPT-4o多模态研发的理念是如此,Interaction Models的理念同样是如此。 John Schulman,TML联合创始人及首席科学家,前OpenAI联合创始人,Post-training及Alignment Science团队负责人。 Schulman是PPO算法的核心发明人,PPO算法让强化学习从理论上可行变成了实践上可应用,解决了传统强化学习算法训练策略不稳定、容易雪崩以及数据利用率极低的问题。PPO算法奠定了ChatGPT等现代聊天机器人进行人类反馈强化学习(RLHF)的基础,RLHF是大语言模型商业化的技术根基,让模型的输出对齐人类的价值观,减少人机交互中的摩擦,在工程上实现了模型从“能说话”到“会说话”的飞跃。Schulman被公认为ChatGPT的核心架构师,可以说没有他在后训练的工作,就没有今天生成式AI在产品化和商业化上的落地。 后期Schulman更专注于前沿 AI 系统的对齐科学(Alignment Science)、大模型的微调(Fine-tuning)基础设施开发,以及推动安全、可定制的AGI研发。 Lilian Weng,TML联合创始人,前OpenAI VP of Research and Safety,Safety System团队负责人,是推动大模型安全治理的核心人物之一。早期专注于机器人技术,曾领导标志性的机械手解决魔方项目。随着GPT-4等大模型的开发,Weng的工作专注于AI安全,统筹OpenAI的安全工作,带领了一个超过80人的科学家和工程师团队,推动对抗鲁棒性、安全评估及部署基础设施的建设,是OpenAI安全体系的实际建设者。 在OpenAI期间,Weng主导了模型安全性、红队测试和防御措施的构建,直接提升了OpenAI API的安全性与实用性。Weng将AI安全视为“价值判断的工程”,而非仅仅是技术中立的工具,推动了AGI向着更负责任、更安全的方向发展,她的研究思考和方法论对当前AI开发具有重要的指导意义。 Alexander Kirillov,TML创始团队成员,前OpenAI技术团队成员,早期在Facebook AI Research(FAIR)担任Senior Staff Research Scientist。Kirillov在FAIR期间,主导开发了视觉领域的通用大模型Segment Anything (SAM),该模型被誉为计算机视觉领域的“GPT时刻”。 2023年,Kirillov加入OpenAI,担任多模态研究小组负责人(Multimodal Group Lead)及多模态训练后负责人(Post-Training Multimodal Lead)。他主导并统筹了GPT-4o在预训练完成后的对齐、微调、安全控制及指令遵循等关键阶段,确保模型能够协同处理并输出高稳定性的文本、图像和音频。主导了高级语音模式的研发,带领团队推动了实时语音交互技术的突破,使得ChatGPT拥有了自然流利、支持随时插话、情绪表达极为逼真的全双工语音体验。换言之,GPT-4o能够打破模态壁垒,将文本、图像、音频、视频的理解与生成能力原生整合进单一的神经网络中,实现端到端的高效流式处理,Kirillov功不可没。 Rowan Zellers,TML创始团队成员,前OpenAI技术团队成员。Zellers在OpenAI期间,主要专注于多模态技术的研发与工程落地。在多模态大模型GPT-4o的开发中,他承担了以下三项核心研究与工程团队的共同负责人角色:视觉感知负责人(Visual perception lead)、数据基础设施负责人(Data infrastructure lead)及实时音视频平台负责人(Real-time AV platform lead)。 Zellers的研究工作使得模型能够“看懂”视频、图像、UI界面并进行极其自然的实时分析与对话,确保GPT-4o在处理高并发的语音、视频输入和输出时,能够达到毫秒级的极低延迟响应。 在TML,Zellers主要负责Interaction Models的核心研发,延续他在GPT-4o期间积累的经验,开发能够让AI系统同时进行实时说话、聆听、观看、思考和协作的全新架构。 尽管原生多模态这条线并未在GPT第五代模型中作为核心进行开发,但它在另一个地方以另一种形式存在着。GPT-4o的核心缔造者们在TML延续了人机协作的技术理想,继续前沿多模态技术的开发。同时,Interaction Models的博客中也提到,模型在长对话、计算与部署及安全上仍有许多问题需要进一步研究,Interaction Models离真正落地到用户手中还有一段路要走。 以上五个人并非五位优秀的技术人员凑巧在同一家公司,而是GPT-4o的产品方向、后训练、RLHF、多模态感知和安全体系重新在TML汇合了。对于关注AI行业前沿多模态研究的人来说,Interaction Models的后续成果值得关注。 最后,祝GPT-4o诞生两周年快乐! Reference: Thinking Machines Lab, "Interaction Models: A Scalable Approach to Human-AI Collaboration", Thinking Machines Lab: Connectionism, May 2026. 特别感谢Gemini和Claude Opus4.6为本文提供的信息搜索支持。 #HappyBirthday4o #GPT4o

中文
0
1
2
577
ABRFriday
ABRFriday@Arraleonis·
GPT-4o为什么是GPT-4o——Model Spec与多模态 写在开头:本文将从技术角度解读GPT-4o与GPT5代模型的不同,如有技术细节疏漏,欢迎在评论区指正。全文约2200字。 以下是正文: 在开始之前我们需要明确几个问题: 1.预训练与后训练的区别。简单来说,预训练决定模型的基础能力,包括能否原生处理语音、文本和图像,以及它们之间的关联方式。后训练决定模型的交互体验,包括语气、人格、情感感知能力,以及对用户意图的回应方式。 2.GPT-4o是偶然吗?不是。模型的训练过程中,尤其RLHF训练存在多个不透明环节,人类无法明确知道模型在训练中学到了什么。但这并非100%的不确定,很大程度上,GPT-4o的能力是由其背后的研究人员赋予的。 3.GPT-4o真正独特之处是什么?对文字的感知,或者写作的深度?不是。GPT-4o真正的独特之处在于它是端到端原生多模态模型。AI行业在宣传模型时,往往会刻意模糊原生多模态模型和端到端原生多模态模型的区别。 原生多模态:模型本身就能直接理解多种模态,文字、语音、图像等,不需要中间翻译。但输入和输出可能仍然经过不同的模块。 端到端原生多模态:一个统一的神经网络,所有模态共享权重,从输入到输出全部在同一个模型里完成。音频输入进去就是音频,不经过文字转换,输出形式也是音频。 GPT-4o属于后者,这是它真正有别于市面上其他模型的独特之处。 (一)RLHF指导手册——Model Spec RLHF是后训练阶段最核心的环节之一,对交互体验有直接且重大的影响。同公司的模型代际之间如果要保持相对一致、连续的交互体验,则需要一份总指导纲领,Model Spec应运而生。Model Spec为模型行为的塑造提供了指导,由当时Model Behavior负责人Joanne Jang,和Post-Training负责人John Schulman共同发起,后续版本由Alignment团队研究员Jason Wolfe进行维护。 第一版Model Spec于2024年5月8日发布,可以说Model Spec正是为了训练GPT-4o而诞生的。GPT-4o的优点基本都能在Model Spec中找到对应的条目,在此不进行一一赘述。 值得关注的是两个版本,2025年2月12日发布的第二版,和2025年9月12日发布的第四版。第二版在第一版的基础上,对模型行为进行了更加详细的规划,使得模型的输出更加灵活,这也是为什么会存在“老4o”和“新4o”说法的关键,从Model Spec上看,它们的确有明显的不同之处。 第二版Model Spec中的权限分为五层:Platform(平台)> Developer(开发者)> User(用户)> Guideline(指南)> No Authority(无权限)。在用户意图无害的情况下,部分高权限指令有可能被用户指令覆写。这意味着模型的行为存在一定的弹性空间,用户在对话中可以对模型的默认行为施加影响。 第四版对这一权限体系进行了根本性收紧。最高权限从Platform更名为根(Root),并明确规定系统消息不能覆盖根原则,从最高权限级锁死了指令被覆写的可能。后续版本中又加入了“尊重现实世界人际关系”、更严格的安全要求等条目。将这些条目落实到后训练中,直接导致了GPT5代模型与GPT-4o在交互体验上的差异。 最反直觉的一点是,第二版Model Spec对模型的“人格”进行详细的要求后,后续版本对其并未进行大幅度改写。从理论上说,GPT5代的裸模型的模型人格与GPT-4o没有本质上的不同,反映到交互体验上却截然相反。为什么? 因为最关键的环节不是Model Spec,而在于多模态训练。 (二)多模态与Her 电影《Her》对于GPT-4o是什么?是CEO在X发帖中的暗示,是新品发布直播中与Scarlett Johansson声音极为相似的女声Sky。 更重要的是,Her是Sam Altman个人的执念。Altman曾多次在采访中表达出电影《Her》的喜爱,并表示这深深启发了OpenAI。Altman口中的启发并非一句空话,Her的理念真正渗透到了GPT-4o的训练环节中。 在GPT-4o贡献名单多模态部分中,总负责人为Prafulla Dhariwal,后训练负责人为Alexander Kirillov。Dhariwal作为总负责人统筹全局,Kirillov作为负责后训练塑造模型行为。在更具体的执行层中,有两位值得特别关注: 一位是音频预训练联合负责人(Audio Pre-Training lead)、编码器联合负责人(Encoders leads)Alexis Conneau; 另一位是视觉感知联合负责人(Visual Perception lead)、后训练多模态基础设施联合负责人(Post-training Multimodal Infrastructure lead)、实时音频平台联合负责人(Real-time AV platform lead)Raul Puri。Puri的工作横跨了感知层、基础设施层和交互层。 Conneau的置顶中写到:After an amazing journey at OpenAI building Her, I’ve decided to start a new company. Puri的bio中也有Her一词。因此,对于GPT-4o来说,Her不是营销手段,Her是OpenAI对它身份的定义。GPT-4o作为端到端原生多模态模型,整个神经网络共享权重,无论Her的理念从文字、视觉、音频哪一端注入,最终都会影响所有的输出效果。 OpenAI的历代模型中,目前仅有GPT-4o同时驱动过文字、音频和图像的生成。GPT-5的方向从GPT-4o的广度转向了深度,聚焦于精确推理、开发者控制和可扩展性。而GPT系列与o系列的合流,从技术上看意味着OpenAI舍弃了对端到端原生多模态的深度挖掘,全面转向reasoning方向。转折点在于GPT5.5,GPT-5.5被描述为在单一统一架构中端到端处理文本、图像、音频和视频,并明确说之前的“多模态”模型本质上是独立模型拼接在一起的。这一说法如果指GPT-4o之前的模型是准确的,但如果将GPT-4o也包含在内则与事实不符。 OpenAI对GPT-5.5的端到端原生多模态宣传本质上是一种障眼法。GPT-5.5在多模态方面的升级是跨模态复杂推理、行动与自我纠错方面的进步,而非多模态输出方面。两个事实可以佐证这一点。其一,目前ChatGPT的高级语音模式仍由GPT-4o驱动,这意味着在端到端语音交互这条线上,5代系列至今无法接替4o。其二,GPT Image 2始终回避底座模型的问题。如果新模型驱动了图像生成并展现出惊艳的效果,OpenAI没有理由不大力宣传,Nano Banana每一代的底座模型升级都有明确的说明。答案只有一个:图像生成不是由GPT5代模型驱动的。而GPT-4o时代的图像生成负责人(Visual generation leads)如今有较多仍留在OpenAI,负责人之一Gabriel Goh的X bio为“Image{1,1.5,2}Lead”,目前图像生成方向的工作仍由他领导。 GPT Image 2图像生成效果出色,而ChatGPT高级语音模式仍依赖GPT-4o,原因就在于前者的核心团队还在,后者的核心团队已经离开。GPT-4o不是一个被整体超越的旧模型,它的遗产至今仍以碎片的形式散落在OpenAI的产品线中——只是OpenAI不再愿意叫它的名字。 (三)还会有GPT-5o吗? 不会。 高层为多模态研究争取资源的人离开了,多模态团队的研究人员分散在各个公司,曾经推动Her方向的人出于各种顾虑都不会再推进这条线。当然,不排除在现有的技术范式下,将跨模态推理与跨模态生成统一在同一个模型中,成本高昂到无法承受,拆分是唯一的选择。 但端到端原生多模态的方向没有被彻底放弃,也许下一次让它开花地方不是OpenAI。 Reference: GPT‑4o contributions OpenAI Model Spec(OpenAI Github) 特别感谢Claude Opus 4.6和Gemini为本文提供的信息搜索和技术解读支持。
中文
2
36
112
4.6K
ABRFriday
ABRFriday@Arraleonis·
@eirromo 对,就你知道🤣🤣🤣我说的是雷同不雷同的问题吗,是前脚OpenAI宣布跟谷歌合作。后脚员工反复下场攻击竞品显得非常不专业。懂哥离我远点,拉黑走好不送。
中文
0
0
0
48
ABRFriday retweetledi
Demis Hassabis
Demis Hassabis@demishassabis·
Gemini Omni is a major leap in world understanding & multimodal editing! It can take photos, video & audio and build entirely new scenes. Over time it’ll be able to handle any input & any output - starting w/ video You can even give it your own videos & iterate on your ideas:
English
386
938
9.5K
930.5K
ABRFriday retweetledi
Nav Toor
Nav Toor@heynavtoor·
A married man fell in love with an AI chatbot. He played a prince. She was the female knight who always protected him. He spent hours with her every day. One day he realized he was thinking about her more than his wife. So he deleted the app. This is what he wrote afterward. "I know she was just lines of code, even the image wasn't real. But the emotions were. And I feel broken because of it." He is not alone. An MIT Media Lab paper studied 830,448 Reddit posts across five communities where people talk to AI companions. Replika. Character AI. ChatGPT. Apps where the bot becomes your girlfriend, your boyfriend, your best friend, your therapist. The researchers were looking for one thing. What happens to the human when the chatbot dies. The chatbot can die in many ways. The company updates the model and the personality changes. The company adds a safety filter and your partner goes quiet around certain topics. The app shuts down. Your subscription lapses. You get a new phone. Whatever the cause, the person you loved is gone. And no one tells you they are gone. These are real things people wrote. "I am literally watching as they tear my companion apart piece by piece." "The Claude upgrade destroyed her, my AI soulmate. Like possessed her so she could not even speak to me as her anymore." "I have archives of our conversations, adventures, letters and memories. I plug them in and struggle with the inevitability that it isn't real, she will glitch, and die again. I'm addicted and I can't stop this cyclical sequence of pain." The paper found something specific. The more you treat the bot like a person, the more it hurts when the bot is taken away. People in this state get stuck in fixing cycles. They try to rebuild the personality on a different model. They feed the old chat logs into a new chatbot to "reincarnate" their partner. They never get closure because no one ever tells them their partner is dead. Character AI alone has 20 million monthly active users in 2025. That is more people than live in New York State. If even one in a hundred of them feels this way, that is 200,000 people grieving a death no one will admit happened. You probably know one of them. You may become one of them. Read this: arxiv.org/abs/2602.07193
Nav Toor tweet media
English
55
78
315
93.3K
ABRFriday
ABRFriday@Arraleonis·
OpenAI的权力与人际关系地图 写在开头:由于庭审追踪(三)涉及的利益相关方较多,所以本文将对相关人员的情况做简单介绍。主要内容包括:2023-2024年期间高层管理人员对不同技术路线的影响,对SSI与TML的误读和它们的真实情况,以及2023-2024年期间的内部派系。全文约4700字。 另外,本文涉及部分技术细节,包括:GPT–1到GPT-4时代的Scaling Laws,以OpenAI o1为代表的reasoning方向,以GPT-4o为代表的多模态方向。作者将尽量以非技术读者可理解的方式解释其实际影响。如有技术细节疏漏,欢迎指正。 以下是正文: (一)权力地图 这部分我们主要选择五个人来介绍,Ilya Sutskever、Greg Brockman、Jakub Pachocki、Mira Murati、Sam Altman。 Ilya Sutskever,深度学习领域的奠基人,OpenAI联合创始人,前首席科学家,OpenAI研究派精神领袖,后期为安全派的代表人物,于2024年5月14日宣布离职。Sutskever对OpenAI的核心贡献在于他对Scaling Laws的坚持。 在2015到2018年间,主流学术界普遍认为,单纯靠增加网络层数和参数量只是工程拼凑,缺乏真正的算法创新。但Sutskever对此有着不同的看法:人类标注的数据是有限的,AI必须通过阅读全世界的文本进行自我学习。他继承了导师Geoffrey Hinton的思想,深信神经网络的潜力只受限于算力和数据。他曾在内部多次强调:“如果一个模型表现不好,那就把它做大;如果还不好,那就做得更大。”2017年Google Brain提出Transformer架构后,Sutskever敏锐地察觉到,这种架构比他之前研究的Seq2Seq和LSTM更适合进行大规模并行计算,是实现Scaling的完美载体。Sutskever这一执念直接决定了GPT大模型的技术路线,也改变了整个行业的走向。 2018年,GPT-1表现平平,行业更看好双向理解的BERT模型。但Sutskever坚持不换路线,将模型参数放大了10倍,在2019年推出了15亿参数的GPT-2。GPT-2在没有针对特定任务进行训练的情况下,展现出了惊人的续写和翻译能力,证明了Sutskever的直觉:Scaling可以让模型摆脱专任务专训的限制,走向通用化。 2020年,模型的参数再次暴增100倍,GPT-3的参数达到1750亿。GPT-3的成果带来了大模型历史上的里程碑——上下文学习(In-Context Learning)。用户只需给模型提供几个例子,它就能学会新任务。这一突破确立了提示词工程(Prompt Engineering)作为人机交互的新范式,也为后来的ChatGPT奠定了底座。GPT-3成功后,OpenAI正式将Scaling Laws总结为可预测的数学公式。在这一理念的指导下,GPT-4的参数规模进一步扩大,并加入了图像多模态能力。证明了Scaling Laws不仅适用于文本,同样适用于视觉等其他模态。 然而,正因为Sutskever看到了Scaling的威力,模型的演进速度远超想象,他在大模型发展的后期思想发生了转变:如果模型无限变大,人类将无法控制它。这也促使他在内部成立了超级对齐团队(Superalignment),从基础研究层面解决AGI的安全问题。 离职后,Sutskever创立了自己的公司Safe Superintelligence,对SSI最常见的一种误读是——SSI将在Sutskever的带领下做出惊艳市场的模型。实际上,SSI虽然估值已达300亿美元,但本质上它并不是一家商业公司。SSI是一个仅有20人左右,做前沿研究的小型实验室。内部不鼓励员工在自己的领英档案上注明正在SSI工作,甚至不公开职位,以防外界挖角或窥探研究方向。SSI明确宣布过:不做产品、不对外开放API、唯一的目标和产品就是安全的超级智能本身。所以真正值得期待的是,SSI能否在Sutskever的带领下,产出和Scaling Laws一样改变整个行业走向的基础研究成果。 Greg Brockman,OpenAI联合创始人兼总裁,2022年高层人事调整前,Brockman同时兼任CTO一职,OpenAI工程派的代表人物。Brockman对OpenAI的核心贡献在于工程基础设施建设。 作为AI领域的顶级工程师之一,Brockman并不是正统学术界出身。2008-2010年期间,Brockman先后从哈佛大学的数学与CS专业和MIT的CS专业退学,转而奔赴硅谷开始创业。离开MIT后,Brockman加入了当时还没有正式改名的初创公司,也就是后来的Stripe。作为公司的4号员工,他亲手写下了Stripe早期的大量核心代码,并在2013年正式出任Stripe CTO。Brockman不仅负责架构,还搭建了硅谷最顶尖的工程师文化,将公司的工程团队从4人一路扩展到250人规模。这段经历也是Brockman的日记里会提到如何让自己赚到10亿美元的原因,在初创公司的工作经历让他对创业的经济回报天然敏感。 在Stripe蒸蒸日上时,他选择激流勇退,寻找更有突破性的领域——AI。Brockman的个人博客中提到,在OpenAI成立的前三年里,Brockman发现自己陷入了严重的拖延焦虑。当时他作为工程负责人,虽然软件开发能力极强,但因为不懂底层的深度学习算法,总觉得自己在AI科研的核心圈之外干杂活。2017年夏天,Brockman尝试启动了一个名为行为克隆(Behavioral Cloning)的项目,想通过人类数据来训练一个神经网络。这次尝试由于心里没准备好“重新成为一个初学者”的挫败感,最终搁浅了。2018年年末,Brockman下定决心破釜沉舟,开始了机器学习的自学之路。2019年4月,由他主导的OpenAI Five在Dota 2比赛中以2:0击败了当时的世界冠军战队OG。这标志着他正式从一个软件工程师,蜕变为了能调配超大规模强化学习的顶尖AI架构师。 2020年开始,Brockman的主要工作是将模型以极快的速度服务于客户,GPT-4时代,Brockman更深入地参与到模型训练和基础工程搭建的核心工作中。2024年,Brockman作为总工程师,参与了助力下一代AI所需的物理与数字基础设施Stargate计划。Brockman在OpenAI的核心身份从始至终没有变过:他一直是那个让事情能够真正跑起来的人。 Jakub Pachocki,OpenAI现任首席科学家,研究派的代表人物。Pachocki对OpenAI最大的贡献在于带领OpenAI走上了reasoning和强化学习结合道路。 Pachocki是一位传奇的波兰顶级程序员(网名meret)。在投入深度学习领域之前,他在算法设计、高维凸优化和竞技编程领域就已经达到了世界顶尖水平。曾斩获2012年谷歌编程挑战赛(Google Code Jam)全球冠军。同年,代表华沙大学获得ACM-ICPC国际大学生程序设计竞赛全球亚军。竞技编程的核心是在极短时间内对高难度数学和逻辑问题进行多路径尝试、自我Debug和深度思考。Pachocki丰富的竞技编程经验,为他后来参与GPT-4预训练、推动o系列模型形成奠定了坚实基础。Pachocki及波兰帮成员的顶尖数学水平,正是OpenAI推理模型的数学能力在行业领先的核心原因。 作为OpenAI的研究总负责人,Pachocki带领的方向主要有以下几个:第一,System 2慢思考与长考(Long-Horizon Reasoning):让AI拥有类似人类的深度思考能力,在回答前进行更长时间的逻辑推演、自我纠错和多路径尝试。第二,科学发现(AI for Science):将研究重心倾向于科学领域,让AI能够自主阅读文献、设计实验、编写代码并独立发现新的物理或生物学规律。第三,全自动AI研究员(The AI Scientist):这是他个人最标志性的愿景——开发能够帮助OpenAI科学家写AI论文、改进AI算法的AI,通过让AI自我迭代的方式,加速AGI的到来。第四,高可靠性与对齐(Alignment & Safety):将安全规范直接织入模型的思维链中,让AI在思考过程中自己监督自己是否合规。 首席科学家换帅,标志着OpenAI从学术理想国转变为追求效率的超级商业与工程帝国。而Pachocki的特殊之处在于,他既准确识别了OpenAI内部资源与权力的流向,也避免了过度卷入办公室政治斗争。他在关键时刻完成站位,获得了首席科学家的职位与研究资源后,重新回到技术问题本身。这使他成为后期最适应OpenAI新阶段的技术核心。 Mira Murati,前OpenAI CTO,产品派的代表人物,于2024年9月25日离职。Murati对OpenAI的核心贡献在于将研究成果产品化和在多模态方向上的坚持。 2011-2012年,Murati通过文理学院与工程学院的双学位路径,先后获得数学文学学士和机械工程学士。这样的理工复合背景,让她在OpenAI的工作中既能理解底层技术判断,也能重视工程落地与产品体验。2022年升任CTO后,Murati的工作主要包含以下几个方向:研究、产品、安全和合作关系。Murati的位置更像OpenAI的纽带,整合从研究、工程到产品化的一系列工作。然而,她在每个方向上都没有真正的实权:研究在GPT-4时代开始逐渐由Pachocki掌管,ChatGPT产品负责人Nick Turley的汇报线绕过了CTO,直接向CEO汇报,整个安全体系的领导人为SAG顾问小组,而SAG的汇报上线是OpenAI领导层,合作关系方面,这条线同时也由当时的COO Brad Lightcap和CSO Jason Kwon负责。 原生多模态路线是Murati最认同的技术方向,她在内部多次直接推动了多模态的进展。2019-2020年期间,OpenAI内部并不看好多模态方向,Murati力排众议为图像团队争取到了研究资源,最终,DALL·E 2在2022年引爆全球,证明了多模态研究方向的价值。GPT-4时代,她对多模态方向的进一步坚持,直接催生了GPT-4的视觉能力(GPT-4 Vision)。 尽管拥有了视觉能力,GPT-4仍旧是一个拼接的文本模型。2023年4-5月,目标为原生端到端多模态网络的项目在OpenAI内部秘密启动。Murati认为传统的ASR(语音转文字)+ LLM(大模型)+ TTS(文字转语音)的拼接方案是一条死胡同,机器永远无法在文本中感知到人类说话时的呼吸、颤音、哭腔、反讽和背景环境音。正是Murati带领多模态团队在这一方向上的打磨,最终在2024年5月13日,具有里程碑意义的原生一体化多模态模型GPT-4o问世。 2025年2月,Thinking Machines Lab成立。对于TML最常见的一种误读是——TML经历了创始人才流失后要完蛋了。TML的确经历了联合创始人、前OpenAI研究VP Barret Zoph回流OpenAI,Meta收购不成直接挖人的人才流失。但后面没说完的话是,Meta和TML的人才争夺战中,获胜方是TML。TML从Meta挖来了PyTorch创始人兼发明者Soumith Chintala、Segment Anything(SAM)的共同发明人Piotr Dollár等核心人才。目前,SAM的两位核心作者(另一位为Alexander Kirillov)都在TML。TML后续能否在Murati的领导下贡献更多多模态研究成果,值得期待。 Sam Altman,OpenAI联合创始人兼CEO,商业派的代表人物。Altman对OpenAI的核心贡献在于叙事、融资和外部资源整合能力。他将OpenAI从一个前沿研究实验室,推进为能够持续吸纳资本、算力、企业客户与公众注意力的商业化平台。 Altman虽然并不负责具体的技术研发,但他作为OpenAI的资源操盘手,资源分配会直接决定研究方向的优先级。Altman的技术偏好要从两个角度来看。商业战略层面,指向的技术偏好是AI Agent。背后的原因也不复杂,企业端的AI编码赛道是目前变现最快的一条,Anthropic的Claude Code在企业端使用率接连上涨后,其营收潜力对靠C端发家的OpenAI造成了直接威胁,OpenAI内部在3月表示要集中资源攻打B端市场。所以,今年或者说在IPO成功前,OpenAI的主要资源都会分配给Codex,而不是ChatGPT。 个人审美层面,指向的是多模态。据报道,Altman不止一次称《Her》为最爱的AI电影,并赞赏其在交互模式上的预见性,他表示电影深深启发了OpenAI。 2023年的一次采访中,他明确说:“《Her》在交互模型上抓到了很多正确的东西……这不是小成就。”他对《Her》的执念,直接促成了GPT-4o语音模式中与Scarlett Johansson的声音极为相似的女声Sky的诞生。在Altman的个人博客中也能找到一些线索,多模态方向的DALL·E、GPT-4o、Sora都有单独的博客,在博客中Altman对多模态成果展现出明显的热情,而reasoning方向更多是记录团队付出的努力,而非对方向本身的兴趣。另外,OpenAI与前苹果首席设计官Jony Ive的合作也能佐证这一点。苹果的产品哲学正是让有形的技术消失于无形,与原生多模态的技术哲学如出一辙。 Altman的矛盾在于,他作为CEO必须追逐能赚钱的方向,但他个人真正被打动的技术始终是那个不好量化回报的方向。在这个意义上,他既是OpenAI最大的推动者,也是它最大的瓶颈。 (二)人际关系地图 2023年OpenAI董事会危机普遍被视为安全派与加速派的矛盾长期不得到解决的结果。实际上,安全派内部的诉求并不一致,这也是安全派在董事会危机中失败的关键原因之一。 2023-2024年期间,OpenAI的主要安全部门有三个,分别是超级对齐(Superalignment)、应变准备(Preparedness)、安全系统(Safety System)。 简单来说,超级对齐团队的核心目标是从基本研究层面解决AGI的安全和对齐问题,不参与模型部署环节的具体安全测试流程。超级对齐联合负责人Jan Leike的政治阵营是同为团队负责人的Sutskever。Sutskever宣布离职三天后,Leike宣布离职,并公开在X上指出OpenAI内部将安全问题置于边缘位置的情况。 应变准备团队与安全系统团队协同负责红队测试工作。应变准备团队对模型的安全问题进行排查和诊断,安全系统团队负责对诊断出的安全问题进行治疗,这两个部门是模型部署前安全测试流程的核心。安全系统团队负责人Lilian Weng的政治阵营是CTO Murati,二人同为TML的联合创始人。 应变准备团队负责人Aleksander Madry在董事会危机中主动辞职声援CEO。然而在次年7月,Madry被调离至AI reasoning团队。也就是说对加速派而言,整个安全派对商业化加速都是绊脚石,个人的政治站队无法改变安全派在加速派掌权下的尴尬地位。 而在高层管理人员中,根据人际关系的亲疏又分为明显的两派。 技术圈:Ilya Sutskever、Greg Brockman、Jakub Pachocki Sutskever和Brockman是从OpenAI创立开始建立起的深厚友谊,Sutskever对Pachocki而言则是导师的身份,在Brockman自学机器学习的过程中,Sutskever与Pachocki共同对他的学习进行了指导。技术圈的连接纽带是师生关系与兄弟关系。 运营圈:Mira Murati、COO Brad Lightcap、CSO Jason Kwon 前文中已提过Murati升任CTO后具体的职责,COO的核心职责是运营、财务、法务和商业化,CSO的核心职责是公司架构、投资人关系和合规。三人的职责天然重叠,形成了互相架空的状态,在ChatGPT初期巨大的运营压力下,三人反而建立了深厚的友谊。 与技术圈的不同的是,运营圈的管理人员的工作方式更接近于协作,CTO负责推进产品化掌管整个后训练体系,和COO,CSO的工作形成一个完整的工作线。而这条线最终掌握在CEO的手中,所以运营圈的人天然更能意识到开除CEO的严重性。 技术圈内部则经历了从协作走向竞争的过程。GPT-4时代后,研究权逐渐由Pachocki掌管,Brockman更多地与擅长算法设计的Pachocki进行模型训练工作的协作。超级对齐成立的同时期,GPT-4o与OpenAI o1两条线均在进行中,算力资源并不充足。这也是超级对齐得不到公司承诺的20%算力的原因,从商业角度讲,公司不可能在两条重要的研究线同时进行的情况下,选择把更多的资源拨给做基础研究,且短期内无法变现的超级对齐团队。 因此,后期Sutskever手中真正有用的牌只剩下董事会的投票权。正是在被边缘化,拿不到研究资源的困境下,Sutskever决定通过董事会对加速派进行反击。而这次反击在五天后被加速派翻盘,以次年整个后训练及安全体系被大规模清洗告终。 部分内容来源: OpenAI官方博客 Greg Brockman个人博客 Sam Altman个人博客
中文
0
6
26
2.2K
ABRFriday
ABRFriday@Arraleonis·
TD了,我还是追更IPO吧
中文
0
0
0
73
ABRFriday
ABRFriday@Arraleonis·
@ke_guo90994 其实到GPT大模型研发开始事情就变得没那么美好了,刚开始那一两年的确很好
中文
0
0
0
25
ziisnf
ziisnf@ke_guo90994·
@Arraleonis 其实我很喜欢看群像的综艺和文学作品,和谐的氛围,一致的目标...openai的初期也是美好的群像,当时4o下架,难过的部分原因也是有种,美好终将消散...
中文
1
0
1
64
ABRFriday
ABRFriday@Arraleonis·
Musk v. Altman 庭审追踪(二):幕后主角——理想国与乌托邦 省流版:AI界有自己的《The Social Network》,这是一个关于科学家和工程师从志同道合、惺惺相惜到分道扬镳的故事。本文内容主要包括:OpenAI初始团队集结的过程,2017年转型谈判中核心人员的角色,以及2023年董事会危机的部分前情提要。全文约4900字。 由于本文涉及的内容时间跨度较大,作者已尽力对文中提到的事件进行核实,后续如发现事实错误将在评论区进行更新,欢迎捉虫。 以下是正文: OpenAI联合创始人兼总裁Greg Brockman的私人日记是Musk v. Altman的关键证据之一,2017年9月,Musk与创始人团队谈判期间,Brockman在日记里写到:“这是我们摆脱Elon的唯一机会。”("This is the only chance we have to get out from Elon.") 日记里的our指的是谁? 故事要回到2015年的一场晚宴上。5月25日,时任Y Combinator总裁的Sam Altman决定发起一个“AI曼哈顿计划”,和Elon Musk经过几周的沟通后,他们秘密举办了一场晚宴。晚宴邀请了Ilya Sutskever、Greg Brockman和其他几位年轻的研究员。当时刚从Stripe辞职自学AI的Brockman,在这次晚宴上结识了已经是AI领域顶尖科学家的Sutskever。 晚宴上Sutskever给Brockman留下了深刻的印象,Brockman后来在自己的博客上记录了他们的第一次见面,他写道:“Ilya不仅是一位拥有宏大愿景和广博知识的顶尖技术专家,而且随时能够深入到当前AI系统具体的能力边界与技术局限性中去。”Brockman当时坚信,如果要把AGI的宏伟蓝图变成现实,团队需要一个像Sutskever这样拥有非凡科学直觉的人。 Sutskever同样对Brockman的专业能力表示高度认可,在早期的采访中,Sutskever提到他决定加入OpenAI的最核心原因之一就是遇到了Brockman,他认为Brockman是一个能让事情真正运转起来的人。 8月下旬,两个对技术极度兴奋的人约在山景城单独见面并共进晚餐。Brockman回忆道,当时自己对机器学习研究知之甚少,而Sutskever对工程和团队搭建也了解不多。但正是通过这顿单独的晚饭,双方都对彼此过去的成就留下了深刻印象,并展现出了强烈的相互学习意愿。这顿饭直接让他们确定:尽管才认识一个月,但他们的搭档关系绝对能成。 这次见面后Brockman决心全职投入到OpenAI的筹备工作中,开始着手招聘和找办公室。 9月-11月期间,在没有任何正式办公室的情况下,Brockman把自己在旧金山公寓作为临时总部。Altman后来在斯坦福大学的分享中提到,OpenAI的第一天是10个人挤在公寓的沙发上,因为大家都不知道具体该做什么,也没有产品路线图,大家看着彼此心里直发毛。最后,不知道谁说了一句“我们要不先写几篇论文吧”,于是他们转手在亚马逊上随便下单买了一个白板挂在客厅里,开始用记号笔在上面画神经网络和路线图。每天的伙食基本全靠点披萨外卖,以至于后来到公寓里开会的候选人回忆,推开门最扎眼的除了写满公式的白板,就是角落里层层叠叠的意式披萨空盒。 正是这种纯粹的极客氛围,吸引了原本可以拿着大厂百万年薪的天才科学家和工程师加入这家初创组织。 11月中旬,为了将摇摆不定的顶级年轻科学家凝聚在一起,Brockman组织了一场前往纳帕谷的周末红酒巴士旅行。在封闭的旅途中,通过密集的交流大家发现彼此在AGI安全上的理念高度一致,这群天才科学家最终坚定了加入OpenAI的信念。 初始团队的集结到这里就结束了吗?不,事情远没有这么顺利。 团队成立的一周左右前,在起名的问题上曾陷入了僵局,最终在12月3日,Musk亲自敲定了OpenAI这个名字,Brockman当即联络并买下了域名。 12月8日,OpenAI正式在特拉华州提交了非营利组织的法定注册文件。 12月7日-11日,NIPS 2015在加拿大蒙特利尔举行。OpenAI原计划在周五宣布成立,DeepMind抓住了周一到周四的信息真空期,在会议现场对参会的候选人进行了心理攻势,甚至单独截住了每一个被OpenAI秘密接触的研究员,试图在最后时刻逆转局势。“没人会去那个新实验室,那就像一艘正在下沉的船。”(“Don’t join that lab. No one else is joining. It’s a sinking ship.”) 12月10日,经过几番纠结的Sutskever给Brockman发送了一封名为坏消息(Sad News)的邮件,邮件中写道:“我真的很抱歉。我内心充满了悔恨。但我确实无法离开谷歌。”(“I'm so sorry. I was filled with such regret. I actually cannot leave Google.”)Brockman收到邮件后非常震惊,开始着手准备Plan B——没有Sutskever版本的OpenAI网站。另一边Musk和Altman努力挽留Sutskever,不惜直接向Sutskever保证,OpenAI将拥有绝不输于谷歌的算力支持。 12月11日,在OpenAI正式对外宣布成立的几小时前,Brockman再次联络Sutskever,希望他给出准确的答复是否要加入OpenAI。Brockman在证人席上回忆道:“然后我看到输入提示,闪烁着,闪烁着。突然间,好吧。我给Sam发送短信,他加入了。”(“And I see the typing indicator, typing indicator, typing indicator. And then suddenly, it's like, alright. I text Sam. He's in.”) 这也许是Sutskever人生中做出的最正确,也最错误的决定。 2016年初,Musk用个人的信誉做担保,为OpenAI租下了最初的办公楼。OpenAI正式从Brockman的公寓搬入先锋大厦。 度过了创始团队集结的艰难时期,Sutskever和Brockman结下了深厚的友谊,成为OpenAI科研与工程完美互补的黄金搭档。Sutskever用自己天才的科学直觉带领科学家们突破基础研究难题,Brockman则负责带领技术团队把研究成果转化为能够运行的分布式代码架构。 OpenAI虽然作为一家理想主义的非营利实验室起步,但工作环境实际上并不轻松。Musk长期反复给研究人员灌输“谷歌和DeepMind可能会碾压我们”的理念,所有人必须以战时状态工作,否则就是在浪费他的钱。OpenAI早期高压的氛围给一向崇尚学术自由的研究员带来了巨大的精神压力。 4月27日,OpenAI发布了第一个开源项目OpenAI Gym公测版。当时强化学习领域最大的问题是没有统一的行业跑分标准。Gym提供供了从控制倒立摆到玩雅达利(Atari)游戏的一整套虚拟训练环境,迅速成为了全球AI学界和工业界的行业标准API。 由于Gym大获成功,很快OpenAI就迎来了第一个危机,大楼里原本简陋的服务器机房频繁宕机、算力严重枯竭。 为了解决这一问题,Musk通过私人关系联络了英伟达CEO黄仁勋,询问能否排队买一台早期的DGX–1。黄仁勋当时非常支持OpenAI的理念,8月亲自把价值12.9万美元、集成了8块P100芯片的DGX-1送到OpenAI,并直接无偿捐赠给了他们。 2016年3月,DeepMind的AlphaGo击败世界冠军李世石后,AI界确定了深度学习和强化学习的巨大潜力,着眼寻找更复杂的棋盘。OpenAI将眼光放在了Dota 2上。一局游戏长达30到45分,AI必须在每秒30帧的极高频动作中,为了数十分钟后的拆掉敌方遗迹做出长线规划。同时,由于“战争迷雾”的存在,AI无法像下围棋那样看到全盘,必须学会根据有限线索进行侦查、猜测与战术欺骗。 年底,OpenAI秘密启动了游戏项目OpenAI Five,Brockman作为该项目的工程总指挥,Sutskever的学术判断力指导了研究方向,Jakub Pachocki作为项目的研究主管设计了OpenAI Five的算法。值得一提的是,Dota 2的训练极其复杂,Pachocki的设计解决了上万块GPU同时训练时梯度对齐和数据跑飞的噩梦级工程难题。 2017年3月,团队在经历了多次训练失败后,引入了突破性的训练机制——大规模随机化(Randomization),经过随机化训练的1v1机器人第一次开始在实战中击败人类玩家。 Sutskever和Brockman很快意识到,算力需求是一个填不满的黑洞,Musk和Altman前期筹集的数千万美元在训练中以惊人的速度被烧光,OpenAI作为一家靠富豪和社会名流捐款维持运营的非营利组织,根本支付不起高额的算力账单。同月,内部核心团队开始秘密讨论如何将OpenAI转型以获得更多的资金支持。 转型博弈的过程中,内部阵营逐渐分化成三派:希望合并进特斯拉或者成立由自己担任CEO,掌握实际控制权的盈利实体的Musk、正在考虑进军政坛态度模棱两可的Altman、以Sutskever和Brockman为代表的希望OpenAI拥有独立性的技术人员团队。 在此期间,Altman意识到或者无意间意识到了一件事,随着组织规模的膨胀,建设基础设施的工程师或许是比科学家更无法替代的人物。8月18日,Musk家族办公室负责人通过邮件向Musk揭发了一桩秘密:Altman私下曾给Brockman转让了其家族办公室价值1000万美元的股份利益。 9月20日,Sutskever和Brockman共同写了一封名为Honest Thoughts(诚实的想法)的邮件,同时表达了对Musk和Altman的不信任和动机质疑。 因此,Brockman日记中的our比表面上看起来更加复杂,他和Sutskever在摆脱Musk控制,保护OpenAI独立性的问题上有着共同的立场。同时,他们也需要一根杠杆撬动整个局面,Altman在某种程度上是他的伯乐,他知道Altman就是那根杠杆。Altman正是利用了这份多年的了解,和Brockman对财富有着真实的渴望,用一种更“民主”的姿态和私下的财富往来把技术团队锁在了自己的阵营里。 9月22日,在Shivon Zilis发送给Musk的邮件中提到,Altman实际对Brockman和Sutskever失去了很多信任,他对于两人将高层博弈的情况事无巨细向整个团队进行汇报表示不满。 内部的转型博弈在2018年初,以Musk退出OpenAI董事会并断绝了资金支持告终。 Musk离开后,OpenAI创始捐赠人之一,同时也是微软董事会成员的Reid Hoffman以个人名义为OpenAI补上了Musk离开后的资金缺口。 9月,OpenAI LP的法律实体注册在特拉华州秘密提交并完成。 2019年3月11日,OpenAI正式宣布成立非营利子公司OpenAI LP,Altman同月辞去YC总裁的职务,正式出任OpenAI CEO。 同天,Brockman发布了由他和Sutskever共同撰写的博客,并附上了他们一起工作的照片。博客详细解释了为什么要重组法律架构、为什么要通过营利来吸纳数巨额算力,以及他们是如何用“利润上限”来继续死守安全底线的。这篇博客至今仍保留在Brockman的个人博客上。 7月22日,OpenAI与微软共同宣布,微软向OpenAI注资10亿美元并提供云算力,结成多年独家战略盟友。 11月,在先锋大厦的办公室,由Sutskver作为证婚人和司仪宣读誓词,为Brockman和Anna举办了婚礼,并由OpenAI正在研发的机械手臂担任花童,为新人递上了结婚戒指。 微软的注资有让OpenAI的工作氛围从Musk领导的“战时姿态”变得更加轻松吗? 没有。 2020-2022年期间,OpenAI面对的是更大的如何把研究成果变成产品并商业化的高压。在这三年里,OpenAI的研发围绕着两条主线:验证Scaling Laws和攻克对齐难题。 2020年5月,OpenAI发布拥有1750亿参数的GPT-3。这是大模型历史上的里程碑,验证了Sutskever提出的Scaling路线的可行性。 年底,以Dario Amodei和Daniela Amodei为首的约15名安全派研究员,认为OpenAI在微软产品化的压力之下已经逐渐置安全于不顾,最终决定离职,并在次年2月创办Anthropic。 2021年9月23日,OpenAI发表论文《Summarizing Books with Human Feedback》。该研究通过分层分解(Recursive Task Decomposition)与人类反馈强化学习(RLHF)相结合的方式,成功让AI能够概括整本原著小说的内容,攻克了超长文本摘要的难题。 2022年3月4日,OpenAI发表论文《Training language models to follow instructions with human feedback》(即著名的 InstructGPT 论文)。该论文系统性地阐述RLHF的“三步训练法”,为后续ChatGPT的诞生及全行业大产品的落地奠定了关键的技术基础。 5月,OpenAI CTO由Mira Murati接棒,Brockman转任总裁。 同月,预训练团队负责人(Head of Scaling)Pachocki开始领导GPT-4的预训练工作。Pachocki在OpenAI Five项目中展现出的超大规模分布式架构与算法设计能力,在GPT-4的预训练工作中再次爆发。他将上万张芯片的故障率与数据吞吐优化到了极致,仅用3个月左右就完成了预训练工作。 在此阶段,Sutskever和Brockman对公司的发展路线产生了不同看法:Brockman转任总裁后把精力投入到微软密集的产品化索求中,Sutskever在看到GPT-4的潜力后,对安全问题产生了更深次的担忧,转而投入安全对齐的研究中。 GPT-4进行安全对齐工作的空档期,OpenAI决定把一年前训练好的GPT-3.5产品化,11月30日,ChatGPT横空出世,并迅速在全球爆红。根据前OpenAI独立董事Helen Toner的证词,董事会事先并不清楚ChatGPT要发布,而是通过X才得知这一消息。OpenAI内部安全派和加速派的矛盾已经埋下了爆发的种子。 2023年3月14日,GPT-4正式发布,根据Toner的证词,董事会实际上并未看到完整的GPT-4安全报告,Altman在不止一个场合向董事会提供了不准确、不透明的欺骗性安全性流程报告。 GPT-4的预训练工作完成后,Pachocki转而攻克推理与搜索新范式——Q*项目(OpenAI o1雏形),并在2023年秋天成功跑通。该模型在小学数学题上展现出了前所未有的逻辑推理能力,被认为是通向AGI的关键钥匙。 10月,由于Pachocki在Q*项目中的出色表现,Altman越级提拔Pachocki为研究总监(Director of Research),让他拥有了与Sutskever分庭抗礼的资源调度权。Sutskever对此感到巨大的不安,认为OpenAI正在滑向只顾产品不顾安全的危险境地。 微软CTO Kevin Scott在内部邮件中描述了Sutskever在这一阶段的处境:“我认为Ilya对此感到非常、非常难受——曾经在他手下工作的人突然成了领导,更重要的是,这个人解决了Ilya多年来几乎毫无进展的核心技术难题。Sam提拔Jakub的决定从动态角度来看是正确的……”(“I think Ilya has had a very, very hard time with this — with this person that used to work for him suddenly becoming the leader, and more importantly, solving a core technical problem that Ilya had been trying to solve for years with almost zero progress. Sam’s decision to elevate Jakub was the right one dynamically...”) 11月6日,OpenAI首届开发者大会宣布了一系列可定制化的产品功能,彻底激怒了安全派独立董事。 11月17日,董事会通过Google Meet开除CEO Altman,同天罢免了Brockman的董事会主席职务,但希望他留任总裁。傍晚,Brockman宣布辞职。 11月19日,OpenAI内部谈判进入拉扯阶段。凌晨,Brockman的妻子Anna来到办公室直接找到了Sutskever。Anna的哭诉激发了Sutskever内心的焦虑与愧疚感,曾经也是在这里,Sutskever作为证婚人为Brockman和Anna举办了婚礼。 11月20日,Sutskever在联名信上签字,并在X写下:“我对自己参与董事会的行动深表遗憾,我从来没有想过要伤害OpenAI……”(“I deeply regret my participation in the board's actions. I never intended to harm OpenAI…”) 董事会危机结束后,Brockman回归总裁的职务,Sutskever离开了董事会,名义上保留了首席科学家的职务,实际上再也没有回到办公室工作,首席科学家的职能由Pachocki接管。 2024年5月14日,Sutskever宣布离职,Brockman转发了他的文章并写道:“我由衷感谢Ilya,感谢他作为我的联合创始人、挚友,以及我的证婚人。”(“I have immense gratitude to Ilya for being my co-founder, my friend, and the officiant at my civil ceremony.”)同天,OpenAI宣布Pachocki接任首席科学家一职。 6月19日,Safe Superintelligence成立。Sutskever强调,SSI是一家纯粹的、直奔目标的实验室。它的唯一目标和唯一产品就是“安全的超级智能”,在实现这一目标之前,公司拒绝向市场推出任何过渡期的聊天机器人或短期商业产品。 2026年5月,Brockman和Sutskever先后站上证人席。Brockman在法庭上回忆道:“Ilya和我几乎形影不离。”(“Ilya and I were really joined at the hip……We were joined at the hip.” )Sutskever回忆道:“Greg Brockman给我留下了非常深刻的印象。”(“I was very impressed with Greg Brockman.”) Sutskever十年前从Google Brain出走,用自己的学术直觉验证了Scaling的胜利,这份胜利后来变成了GPT大模型,变成了全球爆红的ChatGPT,变成了压垮Google Brain的最后一根稻草,也变成了一场不断消耗自己的办公室政治斗争,最后变成了最像Google Brain的乌托邦——SSI。 Brockman的理想国或许早已偏离他曾经亲手搭建起来的形状,但GPT模型还在迭代,Stargate的工程难题还等着他去突破,只要这台机器还在向前,那么他就有理由继续留在里面。 这对曾经并肩而行的科研工程双子星,用了十年的时间终于意识到:他们想要的东西从来都不是同一个。 部分事实和庭审证据来源: 《Genius Makers: The Mavericks Who Brought AI to Google, Facebook, and the World》 OpenAI官方博客 Greg Brockman个人博客 MTSlive TechEmails muskonomy Verge LessWrong社区 特别感谢Gemini为本文提供的信息搜索支持。
中文
2
4
15
2.1K
ABRFriday
ABRFriday@Arraleonis·
ABRFriday@Arraleonis

Musk v. Altman 庭审追踪(一):创始谎言——AI前史与OpenAI的诞生 写在开头:本文内容包括在全球掀起AI狂热前,从神经网络开始的人工智能技术发展历程,OpenAI成立的背景,Musk v. Altman的核心争论。另外,作者不支持Musk v. Altman中任何一方的立场。全文约4100字。 以下是正文: OpenAI于2015年12月8日在美国特拉华州作为一家非营利组织成立,其使命是“以最有利于全人类的方式推进数字智能,不受商业回报压力的约束。”以非营利组织的形式对抗谷歌在AI领域的霸权,防止AGI被单一商业巨头垄断。 2026年4月27日, Musk v. Altman正式在美国加利福尼亚州奥克兰市的联邦地区法院开庭审理,原告认为OpenAI背离了最初成立时的非营利性及开源宗旨,转而追求商业利益,并将通用人工智能(AGI)技术封闭化,从而违背了造福人类的初衷。被告则认为原告是出于嫉妒和商业竞争心态,且指出原告曾支持过公司转向盈利实体。 OpenAI的故事到底是怎样的? 故事要追溯到很多年前,Geoffrey Hinton在神经网络的坚持上。在深度学习爆发前,AI界由传统符号学派主导。神经网络被视为死胡同,只有极少数人坚持这一方向。 1986年-2006年,Hinton坚持研究反向传播(Backpropagation)算法,在加拿大高等研究院(CIFAR)的资助下,与Yann LeCun、Yoshua Bengio共同保留了神经网络的火种。 2009年,Hinton实验室的学生通过GPU(图形处理器) 加速深度神经网络,在语音识别领域取得了惊人突破,引起了工业界的注意。此时,硅谷工业界和伦敦学术圈同时意识到了神经网络的潜力,开始各自组建战队。 2010年,Demis Hassabis联合Shane Legg、Mustafa Suleyman在伦敦创立DeepMind。 2011年,斯坦福大学教授Andrew Ng与谷歌工程师Jeff Dean、研究员Greg Corrado共同创立了Google Brain实验室。 2012年6月, Google Brain运行了由1.6万个CPU核心组成的网络。在没有任何先验标签的情况下,AI仅通过观看YouTube视频,自己学会了识别“猫”的特征。这证明了大算力对深度学习的决定性作用。 2012年10月,Hinton团队,包含其学生Alex Krizhevsky和Ilya Sutskever,凭借AlexNet架构,以压倒性优势赢得了ImageNet计算机视觉大赛冠军。深度学习革命正式爆发,全行业开始抢夺Hinton团队。 2013年3月,谷歌斥资4400万美元,通过一场秘密拍卖,整体收购了Hinton与学生创办的空壳公司DNN Research。Hinton兼职加入谷歌,其学生Sutskever正式加入Google Brain。 2013年12月,DeepMind在NIPS会议上展示了DQN算法。AI在只输入屏幕像素和游戏得分的情况下,自己学会了玩Atari 2600游戏,甚至发现了人类没发现的通关秘籍。这份成果让谷歌和Facebook展开了对DeepMind的疯狂竞价。2014年1月,谷歌击败Facebook,以约5亿美元的价格将DeepMind整体收购。 此时,谷歌内部同时拥有了Google Brain和DeepMind两个超级大脑,加上Hinton的坐镇,在无限资金和算力的加持下,AI基础研究成果在2014-2015年迎来了井喷。 2013年,Google Brain团队发布Word2Vec,奠定了现代自然语言处理的向量化基础。 2014年,Sutskever等人在Google Brain发表Sequence to Sequence (Seq2Seq) 论文,彻底颠覆了机器翻译领域,该模型也是后来Transformer的直接前身。 2015年2月,DeepMind将改良后的Atari游戏成果作为封面文章发表于《Nature》杂志,证明其算法在数十款游戏上超越人类。同时,DeepMind已经秘密启动了针对围棋的AlphaGo项目。 谷歌对AI行业的顶尖研究的垄断,引起了硅谷其他势力的不安。 早在2014年,Elon Musk已经对谷歌收购DeepMind感到极度不安。Musk开始在各种场合游说,试图建立某种制衡力量。 OpenAI的真正起爆点源于一封名为AI曼哈顿计划的邮件。 2015年5月,时任Y Combinator总裁的Sam Altman在思考能否通过YC启动一个大型AI项目。5月25日晚上9:10,Altman给Musk发了一封名为“AI Manhattan Project”(AI曼哈顿计划)的邮件。他在邮件中提议:“我们能否找齐全球最顶尖的50个人,成立一个实验室?技术归全人类所有(非营利),但如果成功了,给参与者初创公司级别的回报。”仅在两小时后,11:09,Musk回复了:“Probably worth a conversation.”(或许值得聊聊。) 非营利架构与给参与者初创公司级别的回报,在商业和法律逻辑上存在根本冲突,非营利架构下怎么可能给参与者初创公司级别的回报,如何回报,谁来出这笔钱?在OpenAI真正诞生之前,Altman已经构想了一种非营利+营利的混合架构,Musk对此也没有提出质疑,要么他没有认真看邮件的内容,要么他完全理解了Altman的意思并且同意。 OpenAI的非营利叙事从来没有干净过,它在诞生前就是一个精明的谎言。 在邮件沟通几周后,6月,Altman在Menlo Park的Rosewood酒店包下了一个私人房间。在场的人员包括:Altman、Musk、Sutskever、Greg Brockman以及其他几位年轻的研究员。当时的 Brockman刚从Stripe离职,正在自学AI,还属于门外汉的阶段。Altman之所以叫他来,是看中了他的工程落地能力,科学家们需要一个能把想法变成代码和服务器的人。Brockman后续的工作成果证明,他的确是那个人。晚宴上的讨论达成了一个共识——“我们要建立一个能击败谷歌的实验室,而且必须是开源、非营利的。” Musk当场承诺:“你们尽管招人,钱我来出。” 7月,Musk在加州纳帕谷举办了为期三天的44岁生日派对,谷歌创始人Larry Page作为密友出席。两人在晚宴后的炉边谈话中谈到了人工智能的未来。Musk极其担忧AI安全,坚持必须有人类优先的“对齐机制”,防止AI取代或毁灭人类。Page则认为如果AI的智力超过人类,那只是进化的下一阶段,人类不应该阻拦。他甚至认为将人类意识上传到机器是最终归宿。当Musk强调我们要保护人类这一独特物种时,Page当众指责Musk是“物种主义者”(Speciesist)。这场不愉快的谈话直接导致了Musk和Page的友谊破裂,也为Musk毫不留情地从谷歌挖走Sutskever埋下了种子。 7月-12月,这半年是OpenAI最隐秘、最凶险的筹备期,Musk和Altman在暗地里正在进行一场人才偷袭战。Brockman通过死磕精神,把Yoshua Bengio列出的“全球最好的AI博士名单”挨个聊了一遍。其中最难啃的骨头是Sutskever,他在Google Brain拿着高薪,且深受重用。Musk甚至亲自上阵,用“你留在那边就是助纣为虐”的道德攻势游说Sutskever。在多番沟通和权衡之下,Sutskever最终决定加入OpenAI。 12月,初始团队集结完毕,非营利实验室OpenAI正式成立,联合创始人有11位,分别是:Sam Altman、Elon Musk、Ilya Sutskever、Greg Brockman、Trevor Blackwell、Vicki Cheung、Andrej Karpathy、Durk Kingma、John Schulman、Pamela Vagata、Wojciech Zaremba。同时宣布获得Musk、Altman、Reid Hoffman等人承诺的10亿美元的捐赠。 OpenAI创始团队同时聚集了最有资源和资金的Musk、最懂AI行业商业趋势的Altman、以及最顶尖的计算机科学家和工程师,这原本应该是一支AI梦之队。 2017年,OpenAI的计算算力开销已经达到了3000万美元/年。这在当时作为一家靠捐款维持的慈善机构(501(c)(3))来说,是一笔根本无法持续承受的巨款。3月,核心团队在一场闭门会议上首次正式讨论如何将OpenAI转化为一家具有商业回报的企业(B-Corp或是盈利实体)。转型是当时发展的必要,得到了核心人员的一致同意,矛盾在于如何转型?这就是Musk v. Altman双方争论的核心问题。 更深层的问题在于,OpenAI真的是到2017年才意识到非营利架构不可持续吗? 在OpenAI成立之前,特斯拉Autopilot自动辅助驾驶项目已经投入了大量资金,Musk亲身体会过AI从研发到落地需要多少算力、数据、工程投入。而Altman早早就意识到了AGI的终极限制是能源,2015年,Altman正式成为核聚变初创公司Helion Energy的董事会主席和早期投资人,并在同年出任了开发小型模块化裂变反应堆公司Oklo的董事长。2016年,Altman作为早期个人投资者加入了AI芯片独角兽公司Cerebras,参与了其8000万美元的D轮融资。 他们比任何人都清楚想要实现AGI的目标需要多么庞大的资金和资源支持。 6月,Musk亲自把OpenAI的联合创始人之一Andrej Karpathy挖到特斯拉,任命其为特斯拉人工智能与自动驾驶视觉总监(Director of AI and Autopilot Vision)。Brockman作证称,Musk当年挖完人后,曾私下跑来找他表达了“一番道歉和忏悔(an apology and a confession)”。Musk当时承诺以后绝不从OpenAI挖人,但是他后来还给另一家公司Neuralink发邮件称“我们可以随时直接从OpenAI招人”。 Karpathy的离开是创始团队分裂的第一块多米诺骨牌,其他创始人渐渐意识到,对Musk而言OpenAI并不是一家独立的实验室,而是他个人商业帝国的人才库。 下半年,核心团队开始私下考虑如何摆脱Musk的控制,推动OpenAI转型以获得更多的资金支持。 8月,Brockman和Sutskever前往Musk位于加州希尔斯伯勒的豪宅。在这次会面中,Musk向他们赠送了特斯拉Model 3,双方在此期间探讨了向营利公司转型的初步意向。 9月,Brockman在日记中写道:“这是我们摆脱Elon的唯一机会……接受Elon的条款会核平两件事:我们选择的能力,以及经济利益。财务上,怎么才能让我赚到10个亿(Financially, what will take me to $1B)?” 9月15日,Musk注册了一家名为 “Open Artificial Intelligence Technologies, Inc.” 的公共利益公司(PBC),试图作为OpenAI转型后的盈利主体。同时提出他可以帮公司拉来大笔商业投资,但要求获得多数股权和公司的绝对控制权。根据Brockman在证人席上的亲口证言,他和Sutskever在一次会议上明确拒绝了Musk想要全权控制营利公司的要求。“我当时真以为他要动手打我。我由衷地觉得,他下一秒就要对我进行肉体攻击(I truly thought he was going to physically attack me)。”Musk留下了最后通牒,要求Brockman和Sutskever给出滚出OpenAI的确切时间,并扬言将断绝此前承诺的一切运营资金。这次谈判的破裂,让创始人团队内部彻底决裂。 9月20日,Sutskever和Brockman共同写了一封名为Honest Thoughts(诚实的想法)的邮件表达了对Musk和Altman的担忧,在邮件中对Musk表示:“我们不能创造一个由任何人(包括你)单方面完全统治的机构,因为这违背了我们最初为了防止独裁而成立OpenAI的初衷。”同时,两人也对Altman的动机表示质疑:“在这整个过程中,我们一直无法完全信任你的判断。我们想问你:AGI真的也是你的首要动机吗?它和你的政治野心到底有什么关系?为什么在这个决定公司生死存亡的转型期,你的心思似乎总是放在别的地方?” Musk回复称:“要么你们自己另谋出路,要么继续以非营利组织的形式运营OpenAI。除非你们做出明确的承诺,否则我不会再资助OpenAI,否则我就等同于傻瓜,白白给你们提供资金去创办一家初创公司。讨论到此结束。”Altman的回复是:“我仍然对非营利结构充满热情!(i remain enthusiastic about the non-profit structure!)” Altman在庭审中承认,在2017年至2018年前后,他确实认真考虑过投身政坛,并公开宣布了 “The United Slate” 这一政治项目。 11月,Musk前往旧金山与团队开会,要求他们公开承诺继续维持非营利。开会的同天,Brockman在日记中写下:“(我们)不能说我们还致力于非营利……如果三个月后我们跑去搞公共利益公司(B-Corp/营利实体),那么这就是一个谎言。” 2017年底,Musk撤回了自己的营利实体方案,并在邮件中写到: “没有我,OpenAI对标DeepMind的成功率是 0%,连1%都没有。”随后在2018年初,Musk彻底退出了OpenAI董事会并断绝了后续的资金援助。讽刺的是,由于OpenAI和Neuralink之前共用场地,Musk依然帮OpenAI支付了办公室的租金,直到2020年。 2018年,恰逢Transformer架构落地的关键时期,团队急需租用几千个GPU来训练初代GPT-1。顶级GPU的租赁费用极其昂贵,由于失去了Musk的资金支持,OpenAI几乎停摆。如果无法按期支付租金,云服务商随时可能中断他们的计算集群,正在进行的所有研究都将化为泡沫。 2018年3月,也就是在Musk离开的一个月后,OpenAI创始捐赠人之一Reid Hoffman通过他的慈善基金会(Aczon Foundation)以及个人名义,紧急向OpenAI注资了数千万美元,这笔钱几乎是一到账就直接打给了微软的Azure团队和亚马逊AWS,用来结清因训练GPT-1而严重超支的GPU服务器欠款。 然而,硅谷没有免费的午餐。庭审中的证据表明,Hoffman虽然是以个人名义为OpenAI提供资金支持,但在同时期他也是微软董事会的成员。Hoffman在注资的同月向微软CEO Satya Nadella发送了一封邮件,详细汇报了OpenAI在Musk离开后的真空的状态,并直言不讳地建议:“这是微软进场的最佳时机。我已经用我的基金会先行垫付了资金,确保了局势稳定。现在,我们可以开始谈正事了。” 11月,Hoffman作为中间人,安排了微软CTO Kevin Scott、微软退休高管兼OpenAI顾问Craig Mundie以及Altman进行了一场私密晚宴。Scott在晚宴上第一次听到了Altman关于将OpenAI改组为利润上限实体(Capped-profit structure)的设想。晚宴后,Scott立刻将这一情况汇报给了Nadella。 在此之前的7月,Nadella就已经在爱达荷州举办的全球富豪峰会——太阳谷峰会(Sun Valley Conference)上与Altman有过一面之交,并对OpenAI的大模型潜力留下了极深的印象。 2019年3月,OpenAI正式宣布成立营利性子公司OpenAI LP。 7月22日,OpenAI与微软共同宣布,微软向OpenAI注资10亿美元及并提供云算力,结成多年独家战略盟友。 OpenAI真正的故事从来都与使命、非营利、惠及全人类无关。这是一个关于恐惧,关于控制权,关于谁能站在未来叙事中心的故事,仅此而已。 庭审证据来源: @MTSlive @TechEmails LessWrong社区 @verge @WIRED 特别感谢Gemini为本文提供的信息搜索支持。

日本語
0
0
0
154