P&O
106 posts


我认为这是学术圈的Cursor时刻。
斯坦福 REAP 团队出手,CoPaper.AI 正在批量终结传统实证论文的体力劳动。
链接:copaper.ai/landing
如果说之前用大模型写论文只是帮你润色和编参考文献,那斯坦福罗斯高教授团队搞的这个 Project算是在社科和经济学实证圈扔下了一颗核弹。
大道至简,重剑无锋。它的功能很干脆。
喂进去原始数据集,30分钟内,就可以创造出包含全套 Stata/R 代码和 publication-quality 图表的完整 DOCX 论文。
它把 EDA、变量定义、计量模型构建(从 OLS 到高级的 DID、断点回归、因果森林)全部用 Agent 链串了起来。
跑出的每一张图表,底层都附带了 100% 可重复的 Stata、R、EViews 源码。这会砸掉了多少劣质论文代写和数据民工的饭碗?
数据民工、论文代写集体失业正在倒计时。
因为此后,对于社科类论文,AI 负责了所有的熵增拉扯,人类只需要负责定义问题。

中文

如今大名鼎鼎、作为 ChatGPT 底层核心对齐算法之一的 PPO,在 2017 年竟然被顶级 AI 会议 NIPS(现 NeurIPS)给拒了。
更讽刺的是审稿人给出的理由:
创新性有限
对比基线提升不够显著
这个现象,直接扯下了学术界同行评审的几层遮羞布。
在学术圈,尤其是顶会审稿人的眼里,什么叫创新?
必须得有满大篇看不懂的数学公式推导。
必须得是一个前人从来没提过的全新复杂框架
而 PPO 的核心精神恰恰相反,它是极简主义的。
PPO 的前身是 TRPO,那篇论文数学推导极度复杂,虽然理论完美,但巨难实现,算力消耗大。
John Schulman 做 PPO 的初衷,就是想把复杂理论降维成一种写起来简单、跑起来稳定、工程上极度好用的算法。
结果,这种为了工程实用而做出的伟大简化,在傲慢的审稿人眼里变成了缺乏创新。学术界常常陷入一种自我感动的怪圈:
把简单问题复杂化叫水平,把复杂问题简单化叫水货。
2017 年前后的强化学习论文,充斥着大量的炼丹成分:
换个Random Seed,调个超参数,实验结果就能天差地别。
很多论文为了能在表格里刷出一个好看的最高分去应付审稿人,会疯狂地刷榜和调优,但这在实际工业界根本无法复现。
PPO 在某些特定的玩具任务上,可能确实没有那些特调的算法刷分高。
但 PPO 真正的恐怖之处在于它的泛化性和鲁棒性。
它是第一个能让你不需要怎么调参,丢给复杂任务就能直接跑通的 RL 算法。
审稿人只盯着眼前的Benchmark,却完全没有意识到他们亲手毙掉了一个未来能撬动千亿级大模型产业的工业奇迹。
如果当年 John Schulman 因为被 NIPS 拒绝就怀疑人生、放弃 PPO,或许后来的LLM对齐RLHF还要多走几年的弯路。
真正伟大的研究,它的生命力从来不在于评委给的 Accept录用。
John Schulman@johnschulman2
PPO: rejected from NIPS 2017
中文

简单拿我的社交媒体卡片对比测试了一下。
左边是 GPT 5.5 的结果,右边是 GLM 5.2 的结果。给的素材都是 GLM 5.2 的发布博客。


歸藏(guizang.ai)@op7418
智谱 GLM-5.2 正式发布和开源了,基准测试成绩相当吓人 核心定位是处理长周期任务,并且有稳定的 100 万上下文,模型还引入了思考力度控制。 架构层面,GLM-5.2 提出了 IndexShare 机制,每四层稀疏注意力共享同一个 indexer,从而在百万 token 上下文下将每 token 的计算量降低约 2.9 倍。
中文

@Grace_rinchan 4o这种老模型在技术层面上就是更容易被jailbreak而且长对话情况下幻觉明显,别的不说药物使用上这种高幻觉老模型你敢用?如果想要ai味少用sonnet 4.6不就完了,何必给技术上不安全的4o招魂
中文

@RVMirara @Grace_rinchan 当然读过,但报道没有展示完整的ai对话记录,4o在长对话情境下存在幻觉以及更容易被jailbeak我寻思这也不是什么很难理解的事情吧
中文

@xushanchuan @Ansel_Flipradio 告诉你们个真相,59年农村里面支那猪非常多的,但是有三年猪瘟泛滥,几乎所有的支那猪都被杀了,至少我们市是这样的,光我们村都杀了几车支那猪,不管有没有病不管主人同不同意全杀了
中文

@Ansel_Flipradio 告诉你们个真相,0几年农村里面狗非常多的,但是有一年狂犬病泛滥,几乎所有的狗都被杀了,至少我们市是这样的,光我们村都杀了几车狗,不管有没有病不管主人同不同意全杀了。
中文

@Lslymlwxc @Ansel_Flipradio 上海沒有物業公司在小區賣高價菜。在上海賣高價菜的都是你們的盲流老鄉。
外地人都沒到過上海,意淫上海怎麼樣。土包子都喜歡被燒死在烏魯木齊吧。
中文

@0XBoltPilot @Ansel_Flipradio Bro以为国产机车这种小圈子是顶会,还有同行评审呢,裤裆里都不干净还指出来是怕自己死的还不够快死吧
中文

@wwwgoubuli 这个问题在perplexity中就更明显了,因为有别家的对照组。Sonnet的模型作为这类搜索 agent 来使用,在回答的覆盖面和细节上还不如 Kimi 的模型
中文

@wwwgoubuli 能说出这话的人显然就没拿sonnet 4.6聊过天,都不说干活了,4.6先不说代码性能跑分也就和opus4.5一样,首先这个模型有过于省略的毛病,你作为纯聊天ai体验还可以,但是拿来写代码或者输出文字内容就有这个问题,你输入一堆东西给sonnet 4.6它会挑着说,很容易遗漏细节
中文



















