P&O

106 posts

P&O banner
P&O

P&O

@PO_Pshot

Sydney, New South Wales Bergabung Eylül 2022
107 Mengikuti11 Pengikut
P&O
P&O@PO_Pshot·
@Phoenixyin13 用过,首先论文质量非常垃圾,其次隐私问题
中文
0
0
5
909
Phoenix Yin
Phoenix Yin@Phoenixyin13·
我认为这是学术圈的Cursor时刻。 斯坦福 REAP 团队出手,CoPaper.AI 正在批量终结传统实证论文的体力劳动。 链接:copaper.ai/landing 如果说之前用大模型写论文只是帮你润色和编参考文献,那斯坦福罗斯高教授团队搞的这个 Project算是在社科和经济学实证圈扔下了一颗核弹。 大道至简,重剑无锋。它的功能很干脆。 喂进去原始数据集,30分钟内,就可以创造出包含全套 Stata/R 代码和 publication-quality 图表的完整 DOCX 论文。 它把 EDA、变量定义、计量模型构建(从 OLS 到高级的 DID、断点回归、因果森林)全部用 Agent 链串了起来。 跑出的每一张图表,底层都附带了 100% 可重复的 Stata、R、EViews 源码。这会砸掉了多少劣质论文代写和数据民工的饭碗? 数据民工、论文代写集体失业正在倒计时。 因为此后,对于社科类论文,AI 负责了所有的熵增拉扯,人类只需要负责定义问题。
Phoenix Yin tweet media
中文
12
123
642
49.8K
P&O
P&O@PO_Pshot·
@Phoenixyin13 正常,顶会顶刊一句创新性不足就随便拒了,现在涉及ai的经常也是一句存在幻觉问题拒你
中文
0
0
1
79
Phoenix Yin
Phoenix Yin@Phoenixyin13·
如今大名鼎鼎、作为 ChatGPT 底层核心对齐算法之一的 PPO,在 2017 年竟然被顶级 AI 会议 NIPS(现 NeurIPS)给拒了。 更讽刺的是审稿人给出的理由: 创新性有限 对比基线提升不够显著 这个现象,直接扯下了学术界同行评审的几层遮羞布。 在学术圈,尤其是顶会审稿人的眼里,什么叫创新? 必须得有满大篇看不懂的数学公式推导。 必须得是一个前人从来没提过的全新复杂框架 而 PPO 的核心精神恰恰相反,它是极简主义的。 PPO 的前身是 TRPO,那篇论文数学推导极度复杂,虽然理论完美,但巨难实现,算力消耗大。 John Schulman 做 PPO 的初衷,就是想把复杂理论降维成一种写起来简单、跑起来稳定、工程上极度好用的算法。 结果,这种为了工程实用而做出的伟大简化,在傲慢的审稿人眼里变成了缺乏创新。学术界常常陷入一种自我感动的怪圈: 把简单问题复杂化叫水平,把复杂问题简单化叫水货。 2017 年前后的强化学习论文,充斥着大量的炼丹成分: 换个Random Seed,调个超参数,实验结果就能天差地别。 很多论文为了能在表格里刷出一个好看的最高分去应付审稿人,会疯狂地刷榜和调优,但这在实际工业界根本无法复现。 PPO 在某些特定的玩具任务上,可能确实没有那些特调的算法刷分高。 但 PPO 真正的恐怖之处在于它的泛化性和鲁棒性。 它是第一个能让你不需要怎么调参,丢给复杂任务就能直接跑通的 RL 算法。 审稿人只盯着眼前的Benchmark,却完全没有意识到他们亲手毙掉了一个未来能撬动千亿级大模型产业的工业奇迹。 如果当年 John Schulman 因为被 NIPS 拒绝就怀疑人生、放弃 PPO,或许后来的LLM对齐RLHF还要多走几年的弯路。 真正伟大的研究,它的生命力从来不在于评委给的 Accept录用。
John Schulman@johnschulman2

PPO: rejected from NIPS 2017

中文
38
25
256
53.9K
P&O
P&O@PO_Pshot·
@op7418 glm这个做的太烂了….
中文
0
0
0
185
P&O
P&O@PO_Pshot·
@Grace_rinchan 4o这种老模型在技术层面上就是更容易被jailbreak而且长对话情况下幻觉明显,别的不说药物使用上这种高幻觉老模型你敢用?如果想要ai味少用sonnet 4.6不就完了,何必给技术上不安全的4o招魂
中文
1
0
0
57
Blair
Blair@Grace_rinchan·
@PO_Pshot 你看完那几个诉讼就知道4o没有诱导甚至阻止过。张口就来4o导致的…
中文
1
0
17
1.1K
Blair
Blair@Grace_rinchan·
所以为什么要下线4o这种无害的模型? 把4o还回来吧? 他没有很强的编码能力,数学也不好,🌚把他放出来吧。这个夏天需要他。和世界杯一样重要。
中文
27
15
391
23.6K
P&O
P&O@PO_Pshot·
@RVMirara @Grace_rinchan 当然读过,但报道没有展示完整的ai对话记录,4o在长对话情境下存在幻觉以及更容易被jailbeak我寻思这也不是什么很难理解的事情吧
中文
0
0
0
15
P&O
P&O@PO_Pshot·
@luoling8192 bro不知道什么叫做developer beta
中文
0
0
2
226
RainbowBird | 洛灵
RainbowBird | 洛灵@luoling8192·
还以为这次 macOS 27 没更新什么东西,应该挺稳定的。没想到是我天真了,还是一堆 bug,严重影响使用体验... 即使 26 也很难用就是了
中文
13
0
24
6.4K
P&O
P&O@PO_Pshot·
@Jackywine 就是依靠算法模型高频交易赚取利润
中文
0
0
0
97
Jackywine
Jackywine@Jackywine·
说实话都 6202 年了,Fable5 这么强的模型都出来了 为什么没有一个 24 小时全自动年化收益 8%的交易 Agent 呢? 我不是很理解,这是不是特别难啊?
中文
127
2
210
150.9K
P&O
P&O@PO_Pshot·
@arkuy99 bro不会用codex就别展现智力水平了
中文
0
0
0
5
Go学长
Go学长@arkuy99·
fable 非常喜欢调用 MCP 打开浏览器 然后去截图 看效果。 codex 就说我做不到。
中文
26
0
67
26.4K
P&O
P&O@PO_Pshot·
@xushanchuan @Ansel_Flipradio 告诉你们个真相,59年农村里面支那猪非常多的,但是有三年猪瘟泛滥,几乎所有的支那猪都被杀了,至少我们市是这样的,光我们村都杀了几车支那猪,不管有没有病不管主人同不同意全杀了
中文
0
0
4
157
戒
@xushanchuan·
@Ansel_Flipradio 告诉你们个真相,0几年农村里面狗非常多的,但是有一年狂犬病泛滥,几乎所有的狗都被杀了,至少我们市是这样的,光我们村都杀了几车狗,不管有没有病不管主人同不同意全杀了。
中文
13
1
13
8.5K
Fear_Nation_世界苦茶
Fear_Nation_世界苦茶@Ansel_Flipradio·
在重庆事件中,可能面对的并不是一个普通的厌恶动物者。而是一个明显异常的人,一个人知道自己在网上罪恶滔天,独自面对众人指责,物业这种半公权力在场,还能如此从容的以滚刀肉姿态挑衅众人。这不是一般的恶人。
中文
270
77
855
181.4K
Zakhman
Zakhman@Zak_XfZ·
@Lslymlwxc @Ansel_Flipradio 上海沒有物業公司在小區賣高價菜。在上海賣高價菜的都是你們的盲流老鄉。 外地人都沒到過上海,意淫上海怎麼樣。土包子都喜歡被燒死在烏魯木齊吧。
中文
2
0
1
108
P&O
P&O@PO_Pshot·
@0XBoltPilot @Ansel_Flipradio Bro以为国产机车这种小圈子是顶会,还有同行评审呢,裤裆里都不干净还指出来是怕自己死的还不够快死吧
中文
0
0
3
227
黄飞狗 | BoltPilot
黄飞狗 | BoltPilot@0XBoltPilot·
@Ansel_Flipradio 你一个爱好者都知道的事情,为什么他的同行不指出来?比如传闻要倒闭的凯越。
中文
3
0
14
3.2K
Fear_Nation_世界苦茶
Fear_Nation_世界苦茶@Ansel_Flipradio·
很多人對張雪挺有好感的,認為他是個政治上中立的技術狂人,是個很真誠偏執的人。但他就是個純騙子,他的820RR的心臟,就是發動機號稱“自主研發”,但我們這種摩友都知道,那個就是奧古斯塔F3 RR發動機的仿製。一個技術狂人可以仿製發動機,一個愛摩托的人也會對自己仿製的經典發動機保持尊敬。但偷別人技術說“自主研製”,而且反覆強調沒有逆向研發。他也不過就是另外一個中國騙子而已。
中文
35
6
169
22.4K
P&O
P&O@PO_Pshot·
@m0d8ye 叭叭这么多没用的,我就问你无GUI的linux/mac os环境你怎么用codex app?如果你的答案是没用过无GUI的环境,那你bb个锤子程序员
中文
3
1
48
9K
Max Lv
Max Lv@m0d8ye·
为什么程序员会用 cli 里的 claude 和 codex?因为会让他们有一种自己还在写代码的幻觉。
中文
131
12
442
153K
P&O
P&O@PO_Pshot·
@wwwgoubuli 这个问题在perplexity中就更明显了,因为有别家的对照组。Sonnet的模型作为这类搜索 agent 来使用,在回答的覆盖面和细节上还不如 Kimi 的模型
中文
0
0
0
101
P&O
P&O@PO_Pshot·
@wwwgoubuli 能说出这话的人显然就没拿sonnet 4.6聊过天,都不说干活了,4.6先不说代码性能跑分也就和opus4.5一样,首先这个模型有过于省略的毛病,你作为纯聊天ai体验还可以,但是拿来写代码或者输出文字内容就有这个问题,你输入一堆东西给sonnet 4.6它会挑着说,很容易遗漏细节
中文
1
0
16
1.7K
wwwgoubuli
wwwgoubuli@wwwgoubuli·
看了好些天大家抱怨 opus 4.8 不如 4.6 。 其实如果是这样为什么不去 claude code 里切到 sonnet 4.6 呢。 在 opus 主模型还是 4.6 的时代,sonnet 和 opus 也仅有大约 1-2 个百分点的性能差距,行为模式也一致,没啥大问题。 以及现在的 cc 里还是能用。
中文
11
0
31
24.2K
P&O
P&O@PO_Pshot·
@bigbird186 @maiff20 高考也能用计算机,只是说用python能确保数据计算无幻觉
中文
0
0
0
99
鳥导演
鳥导演@bigbird186·
@maiff20 用python不算作弊吗?相当于用计算器了吧,可以暴力算出答案?或者说做一个python library限制 只能用到基础的算术?
中文
2
0
7
6.5K
加密蟹黄堡
加密蟹黄堡@maiff20·
拿25年高考数学卷给codex做了下,让他别访问网络,思考过程是拿python真的在做,而不是在模型里找历史信息比对,最后7m做完,得分150分,还指出答案自相矛盾的地方
加密蟹黄堡 tweet media加密蟹黄堡 tweet media加密蟹黄堡 tweet media加密蟹黄堡 tweet media
中文
281
37
735
368.6K
P&O
P&O@PO_Pshot·
@LuvLetter_moe 京都确实是百去不厌,尤其是这条河,每次去都会沿着这条河走上一段时间
中文
0
0
0
7
P&O
P&O@PO_Pshot·
@ichralpha 你都反代了还怪oai查你?差不多得了
日本語
0
0
2
159