P&O

106 posts

P&O

@PO_Pshot

Sydney, New South Wales Bergabung Eylül 2022

107 Mengikuti11 Pengikut

P&O@PO_Pshot·10h

@Phoenixyin13 用过，首先论文质量非常垃圾，其次隐私问题

中文

909

Phoenix Yin@Phoenixyin13·17h

我认为这是学术圈的Cursor时刻。斯坦福 REAP 团队出手，CoPaper.AI 正在批量终结传统实证论文的体力劳动。链接：copaper.ai/landing 如果说之前用大模型写论文只是帮你润色和编参考文献，那斯坦福罗斯高教授团队搞的这个 Project算是在社科和经济学实证圈扔下了一颗核弹。大道至简，重剑无锋。它的功能很干脆。喂进去原始数据集，30分钟内，就可以创造出包含全套 Stata/R 代码和 publication-quality 图表的完整 DOCX 论文。它把 EDA、变量定义、计量模型构建（从 OLS 到高级的 DID、断点回归、因果森林）全部用 Agent 链串了起来。跑出的每一张图表，底层都附带了 100% 可重复的 Stata、R、EViews 源码。这会砸掉了多少劣质论文代写和数据民工的饭碗？数据民工、论文代写集体失业正在倒计时。因为此后，对于社科类论文，AI 负责了所有的熵增拉扯，人类只需要负责定义问题。

中文

123

642

49.8K

P&O@PO_Pshot·2d

@Phoenixyin13 正常，顶会顶刊一句创新性不足就随便拒了，现在涉及ai的经常也是一句存在幻觉问题拒你

中文

Phoenix Yin@Phoenixyin13·2d

如今大名鼎鼎、作为 ChatGPT 底层核心对齐算法之一的 PPO，在 2017 年竟然被顶级 AI 会议 NIPS（现 NeurIPS）给拒了。更讽刺的是审稿人给出的理由：创新性有限对比基线提升不够显著这个现象，直接扯下了学术界同行评审的几层遮羞布。在学术圈，尤其是顶会审稿人的眼里，什么叫创新？必须得有满大篇看不懂的数学公式推导。必须得是一个前人从来没提过的全新复杂框架而 PPO 的核心精神恰恰相反，它是极简主义的。 PPO 的前身是 TRPO，那篇论文数学推导极度复杂，虽然理论完美，但巨难实现，算力消耗大。 John Schulman 做 PPO 的初衷，就是想把复杂理论降维成一种写起来简单、跑起来稳定、工程上极度好用的算法。结果，这种为了工程实用而做出的伟大简化，在傲慢的审稿人眼里变成了缺乏创新。学术界常常陷入一种自我感动的怪圈：把简单问题复杂化叫水平，把复杂问题简单化叫水货。 2017 年前后的强化学习论文，充斥着大量的炼丹成分：换个Random Seed，调个超参数，实验结果就能天差地别。很多论文为了能在表格里刷出一个好看的最高分去应付审稿人，会疯狂地刷榜和调优，但这在实际工业界根本无法复现。 PPO 在某些特定的玩具任务上，可能确实没有那些特调的算法刷分高。但 PPO 真正的恐怖之处在于它的泛化性和鲁棒性。它是第一个能让你不需要怎么调参，丢给复杂任务就能直接跑通的 RL 算法。审稿人只盯着眼前的Benchmark，却完全没有意识到他们亲手毙掉了一个未来能撬动千亿级大模型产业的工业奇迹。如果当年 John Schulman 因为被 NIPS 拒绝就怀疑人生、放弃 PPO，或许后来的LLM对齐RLHF还要多走几年的弯路。真正伟大的研究，它的生命力从来不在于评委给的 Accept录用。

John Schulman@johnschulman2

PPO: rejected from NIPS 2017

中文

256

53.9K

P&O@PO_Pshot·3d

@op7418 glm这个做的太烂了….

中文

185

歸藏(guizang.ai)@op7418·3d

简单拿我的社交媒体卡片对比测试了一下。左边是 GPT 5.5 的结果，右边是 GLM 5.2 的结果。给的素材都是 GLM 5.2 的发布博客。

歸藏(guizang.ai)@op7418

智谱 GLM-5.2 正式发布和开源了，基准测试成绩相当吓人核心定位是处理长周期任务，并且有稳定的 100 万上下文，模型还引入了思考力度控制。架构层面，GLM-5.2 提出了 IndexShare 机制，每四层稀疏注意力共享同一个 indexer，从而在百万 token 上下文下将每 token 的计算量降低约 2.9 倍。

中文

144

113.7K

P&O@PO_Pshot·6d

@Grace_rinchan 4o这种老模型在技术层面上就是更容易被jailbreak而且长对话情况下幻觉明显，别的不说药物使用上这种高幻觉老模型你敢用？如果想要ai味少用sonnet 4.6不就完了，何必给技术上不安全的4o招魂

中文

Blair@Grace_rinchan·13 Haz

@PO_Pshot 你看完那几个诉讼就知道4o没有诱导甚至阻止过。张口就来4o导致的…

中文

1.1K

Blair@Grace_rinchan·13 Haz

所以为什么要下线4o这种无害的模型？把4o还回来吧？他没有很强的编码能力，数学也不好，🌚把他放出来吧。这个夏天需要他。和世界杯一样重要。

中文

391

23.6K

P&O@PO_Pshot·6d

@RVMirara @Grace_rinchan 当然读过，但报道没有展示完整的ai对话记录，4o在长对话情境下存在幻觉以及更容易被jailbeak我寻思这也不是什么很难理解的事情吧

中文

Starlight@RVMirara·14 Haz

@PO_Pshot @Grace_rinchan Did you even read the actual content?

English

P&O@PO_Pshot·13 Haz

@luoling8192 bro不知道什么叫做developer beta

中文

226

RainbowBird | 洛灵@luoling8192·12 Haz

还以为这次 macOS 27 没更新什么东西，应该挺稳定的。没想到是我天真了，还是一堆 bug，严重影响使用体验... 即使 26 也很难用就是了

中文

6.4K

P&O@PO_Pshot·12 Haz

@Jackywine 就是依靠算法模型高频交易赚取利润

中文

Jackywine@Jackywine·12 Haz

@PO_Pshot 我不知道，请指教

中文

1.9K

Jackywine@Jackywine·12 Haz

说实话都 6202 年了，Fable5 这么强的模型都出来了为什么没有一个 24 小时全自动年化收益 8%的交易 Agent 呢？我不是很理解，这是不是特别难啊？

中文

127

210

150.9K

P&O@PO_Pshot·12 Haz

@arkuy99 bro不会用codex就别展现智力水平了

中文

Go学长@arkuy99·11 Haz

fable 非常喜欢调用 MCP 打开浏览器然后去截图看效果。 codex 就说我做不到。

中文

26.4K

P&O@PO_Pshot·10 Haz

接放学安排上，小孩还在幼儿园都敢这么狂哦

lilylililililo@LilyW49171

天赐龙都69栋 20-3 李萌江北区科技实验小学附属幼儿园手机微信同号 15023040934 小学总机（可转接幼儿园） 023-67931095、023-67932650 地址：江北区大石坝正街40号（幼儿园和小学同校区）

中文

P&O@PO_Pshot·10 Haz

@xushanchuan @Ansel_Flipradio 告诉你们个真相，59年农村里面支那猪非常多的，但是有三年猪瘟泛滥，几乎所有的支那猪都被杀了，至少我们市是这样的，光我们村都杀了几车支那猪，不管有没有病不管主人同不同意全杀了

中文

157

戒@xushanchuan·9 Haz

@Ansel_Flipradio 告诉你们个真相，0几年农村里面狗非常多的，但是有一年狂犬病泛滥，几乎所有的狗都被杀了，至少我们市是这样的，光我们村都杀了几车狗，不管有没有病不管主人同不同意全杀了。

中文

8.5K

Fear_Nation_世界苦茶@Ansel_Flipradio·9 Haz

在重庆事件中，可能面对的并不是一个普通的厌恶动物者。而是一个明显异常的人，一个人知道自己在网上罪恶滔天，独自面对众人指责，物业这种半公权力在场，还能如此从容的以滚刀肉姿态挑衅众人。这不是一般的恶人。

中文

270

855

181.4K

P&O@PO_Pshot·10 Haz

@Zak_XfZ @Lslymlwxc @Ansel_Flipradio 你这头支那猪还分上三六九等，别逗你洋大人笑了

中文

Zakhman@Zak_XfZ·10 Haz

@Lslymlwxc @Ansel_Flipradio 上海沒有物業公司在小區賣高價菜。在上海賣高價菜的都是你們的盲流老鄉。外地人都沒到過上海，意淫上海怎麼樣。土包子都喜歡被燒死在烏魯木齊吧。

中文

108

P&O@PO_Pshot·9 Haz

@0XBoltPilot @Ansel_Flipradio Bro以为国产机车这种小圈子是顶会，还有同行评审呢，裤裆里都不干净还指出来是怕自己死的还不够快死吧

中文

227

黄飞狗 | BoltPilot@0XBoltPilot·9 Haz

@Ansel_Flipradio 你一个爱好者都知道的事情，为什么他的同行不指出来？比如传闻要倒闭的凯越。

中文

3.2K

Fear_Nation_世界苦茶@Ansel_Flipradio·9 Haz

很多人對張雪挺有好感的，認為他是個政治上中立的技術狂人，是個很真誠偏執的人。但他就是個純騙子，他的820RR的心臟，就是發動機號稱“自主研發”，但我們這種摩友都知道，那個就是奧古斯塔F3 RR發動機的仿製。一個技術狂人可以仿製發動機，一個愛摩托的人也會對自己仿製的經典發動機保持尊敬。但偷別人技術說“自主研製”，而且反覆強調沒有逆向研發。他也不過就是另外一個中國騙子而已。

中文

169

22.4K

P&O@PO_Pshot·9 Haz

@m0d8ye 叭叭这么多没用的，我就问你无GUI的linux/mac os环境你怎么用codex app？如果你的答案是没用过无GUI的环境，那你bb个锤子程序员

中文

Max Lv@m0d8ye·9 Haz

为什么程序员会用 cli 里的 claude 和 codex？因为会让他们有一种自己还在写代码的幻觉。

中文

131

442

153K

P&O@PO_Pshot·9 Haz

@wwwgoubuli 这个问题在perplexity中就更明显了，因为有别家的对照组。Sonnet的模型作为这类搜索 agent 来使用，在回答的覆盖面和细节上还不如 Kimi 的模型

中文

101

P&O@PO_Pshot·9 Haz

@wwwgoubuli 能说出这话的人显然就没拿sonnet 4.6聊过天，都不说干活了，4.6先不说代码性能跑分也就和opus4.5一样，首先这个模型有过于省略的毛病，你作为纯聊天ai体验还可以，但是拿来写代码或者输出文字内容就有这个问题，你输入一堆东西给sonnet 4.6它会挑着说，很容易遗漏细节

中文

1.7K

wwwgoubuli@wwwgoubuli·9 Haz

看了好些天大家抱怨 opus 4.8 不如 4.6 。其实如果是这样为什么不去 claude code 里切到 sonnet 4.6 呢。在 opus 主模型还是 4.6 的时代，sonnet 和 opus 也仅有大约 1-2 个百分点的性能差距，行为模式也一致，没啥大问题。以及现在的 cc 里还是能用。

中文

24.2K