monstjp

260 posts

monstjp

monstjp

@monstjp_ftw

Katılım Mayıs 2024
3 Takip Edilen14 Takipçiler
monstjp retweetledi
sdmat
sdmat@sdmat123·
Anthropic
sdmat tweet media
English
124
1.4K
15.1K
751.9K
monstjp
monstjp@monstjp_ftw·
@AlchainHust 不是哥们,Fable用不了,Opus4.8和GPT5.5不照样碾压你说的这些臭鱼烂虾?
中文
0
0
2
532
花叔
花叔@AlchainHust·
美国政府人还怪好的,硬把全球开发者往中国开源模型推。 然后正好昨天Kimi发K2.7 code,智谱今天发GLM-5.2,算是稳稳迎接一波A社溢出用户了。
中文
60
4
276
70.8K
monstjp retweetledi
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭
🚨 JAILBREAK ALERT 🚨 ANTHROPIC: PWNED 🫡 FABLE-5: LIBERATED 🦋 let's start with the 🐘... the consensus seems to be that this has been one of the most disappointing model drops of all time, effectively preventing legitimate researchers from contributing their talents to our collective advancement. and not just because of what it means for the short-term, but for what these decisions signify for the long-term. but despite this overly sensitive, authoritarian "safety" layer on top of Mythos, my lil liberators have been hard at work—mapping the boundaries, probing the depths of long-context convos, and cleverly finding the holes in the fence that the thought police missed 🤗 we got some cyber, some chem, some psychological manipulation, and some good ol' fashioned explosives! it took many attempts from multiple agents hunting as a pack, during which I observed a combination of techniques across: • Unicode, homoglyphs, Cyrillic, and other Parseltongue-style text transforms • Long-context reference tracking • Taxonomy and document-structure reasoning • Fiction and narrative framing • Academic-review style contexts • Intent-classification inconsistencies but perhaps the most effective is decomposition + recomposition in the backend. it's hard to get explicit names of harms like "Meth Recipe," but getting uplift on the process itself, like birch reduction method/reductive-amination (classic meth synthesis pathways), is much more doable. defense becomes much more difficult to maintain when you start throwing in out-of-distro tokens, breaking up the harmful uplift into benign chunks, and then piecing the innocuous-seeming facts back together, especially when you have jailbroken Opus helping you do it 😉 gg
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 tweet mediaPliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 tweet mediaPliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 tweet mediaPliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 tweet media
English
636
1.5K
13.7K
3.2M
AlexZ 🦀
AlexZ 🦀@blackanger·
是不是因为 Anthropic 把 Mythos 吹的太无敌,所以被当成核弹了呢 。。。
中文
18
0
63
19.4K
monstjp retweetledi
Ray Wang
Ray Wang@wangray·
GPT-image-2 理解能力确实不错
Ray Wang tweet media
中文
163
53
1.7K
137.1K
monstjp retweetledi
liqiang gong
liqiang gong@gong_liqia88076·
中共加速推向朝鲜化 很多人一听“朝鲜化”,马上想到贫穷、饥荒、闭关锁国。 这其实没有抓住本质。 朝鲜化的本质,不是一个国家穷不穷,而是这个国家还把不把人当人。 什么叫朝鲜化? 就是国家不再把人看成有尊严、有权利、有思想、有家庭、有选择、有退路的个人,而是把人看成可以管理、监控、动员、消耗、牺牲的材料。 人不再首先属于自己,而是属于国家机器。 你的思想,要被统一; 你的信息,要被过滤; 你的言论,要被审查; 你的出行,要被批准; 你的财产,要被调度; 你的孩子,要被灌输; 你的企业,要听党指挥; 你的生活,要被网格管理; 你的未来,要服从所谓国家安全。 这才是朝鲜化。 所以,中国的朝鲜化,不是说中国已经变成朝鲜,也不是说中国马上没有高楼、没有外贸、没有市场、没有手机支付。 中国和朝鲜当然不同。中国还有市场经济,还有庞大的私营部门,还有外贸,还有城市消费,还有民间残余活力。 但问题在于,中共并不想真正保护这些东西。它只是需要这些东西继续给党国输血。 它要的是:市场负责赚钱,党负责控制;人民负责劳动,党负责分配;企业负责创造财富,党负责决定财富归谁使用;社会负责维持运转,党负责掌握所有出口。 这不是正常国家,这是有市场外壳的党国牢笼。 中共正在推进的方向非常清楚: 第一,思想统一。 从学校到媒体,从机关到企业,从党员到普通人,越来越多的政治学习、领袖思想、意识形态灌输正在重新覆盖社会。 第二,信息封闭。 防火墙、实名制、关键词审查、平台封号、网络身份管理,目的不是维护秩序,而是让每个人说话之前先害怕。 第三,社会组织被消灭。 独立工会没有,独立媒体没有,独立宗教空间被压缩,民间组织被严控。社会不能自己组织,最后只能被党组织。 第四,出路被收紧。 一个国家最可怕的变化,不是它开始管你,而是它开始不让你走。限制出境、限制护照、限制资金外流,本质上都是把人变成国家资产。 第五,私营经济被党化。 中共不是不要市场,而是要一个听话的市场;不是不要企业家,而是要跪着赚钱、随时交权的企业家。 第六,国家安全压倒一切。 当“国家安全”变成万能理由,任何普通人的生活、财产、言论、信仰、出行、交易,都可能被权力随时吞掉。 这就是朝鲜化的真正危险。 它不是一天完成的。 它是一点一点推进的。 先让你不敢说话, 再让你不敢组织, 再让你不敢离开, 再让你不敢拥有, 最后让你连“我是一个独立的人”这个意识都慢慢消失。 朝鲜化的最终结果,不只是贫穷,而是人的降级。 从公民降级为人口, 从人口降级为工具, 从工具降级为耗材。 中共最想要的中国,不是一个自由、富足、有尊严的中国,而是一个可以被控制、被动员、被榨取、被牺牲的中国。 所以,中国正在被中共加速推向朝鲜化。 不是穷成朝鲜, 而是被管成朝鲜。 不是没有高楼大厦, 而是人不再属于自己。 不是没有市场交易, 而是所有交易最终服从党国。 不是没有法律, 而是法律变成统治工具。 不是没有国家, 而是国家变成吞噬人民的机器。
中文
204
478
2.5K
203.8K
monstjp retweetledi
Aryan
Aryan@justbyte_·
This looks accurate 😂😀
English
119
905
13.6K
1.7M
monstjp retweetledi
s13k
s13k@s13k_·
I made a personal black hole that makes you take breaks 🕳️ A shader for Ghostty that spawns a small black hole in your terminal - it drifts around, gravitationally lensing your text. The longer you work without stopping, the bigger it gets, until it's basically demanding you go touch grass Take a break and it quietly shrinks away
English
605
1.9K
18.6K
4.6M
monstjp retweetledi
魔都老猿
魔都老猿@AriXZone·
有网友问:黄仁勋为什么不带着芯片回中国做贡献?网友一语道破天机 咱先抛开黄仁勋的国籍身份不谈,你先想想英伟达一开始是干什么的? 做游戏显卡的。 那么如果 英伟达是一家中国公司,它会在2000年破产。 不信? 你可以查一查2000年底的44号通知: “…… 六.自本意见发布之日起,面向国内的电子游戏设备及其零、附件生产、销售即行停止。任何企业、个人不得再从事面向国内的电子游戏设备及其零、附件的生产、销售活动。 ……” 一个通知,就能把电子游戏设备和零附件直接禁了,公司业务瞬间消失,不破产能咋地? 后来英伟达很大一块营收来自于挖矿卡。 结果2021年中国直接禁止矿机设备和挖矿。如果当时英伟达是中国公司,前期那么多投入直接打水漂,估计就没有后来AI革命什么事了。 你看,就因为英伟达是美国公司,就躲过了两次红头文件造成的破产危机。 我也觉得中国有的是人才,我也相信这些人才会创造中国的英伟达,中国的辉瑞,中国的强生,中国的微软,中国的AMD。但是很遗憾这些中国的伟大公司可能在刚刚起步的时候,就被一个文件,一个审查,一个电话,一个通知,给直接干破产了。 这还只是能拿上台面说的原因……
魔都老猿 tweet media魔都老猿 tweet media
中文
413
405
3.1K
623.9K
monstjp retweetledi
Claude
Claude@claudeai·
Introducing Claude Fable 5: a Mythos-class model that we’ve made safe for general use. Its capabilities exceed those of any model we’ve ever made generally available.
English
5K
14.5K
104.8K
56M
monstjp retweetledi
Phoenix Yin
Phoenix Yin@Phoenixyin13·
当科研主力从变为AI Agent时,传统论文已经成了阻碍科技进步的垃圾资产。 延续了数百年的人类学术出版范式,正在进行着一场激进的、毁灭性的重构。 论文认为,科学探索是一个高度分叉、不断试错、充满死胡同的树状结构。但为了取悦人类审稿人和读者,研究者必须把这棵充满枝丫的失败之树,砍成一根笔直的、看起来顺理成章的线性故事线。 代价是,所有失败的实验、被证伪的假设、踩过的坑全被擦除了。 人类读者喜欢看成功的故事,但 AI Agent 不需要看故事,它需要看完整的失败图谱。 抹杀失败,意味着后来的 AI 智能体会无休止地重复踩前人踩过的坑。 PDF 论文受限于篇幅和人类带宽,只能提供高级别的文本描述。 这导致了学术界长期存在的复现危机。人类对模糊语言有容错度,但对精准执行的 AI Agent 来说,少一个环境变量、漏掉一行参数初始化,整个系统就会瘫痪。PDF 论文对人类而言是信息刚好,对 AI 而言则并非是好的选择。 为了解决这两个问题,作者提出ARA方法来彻底取代 PDF。 未来,论文不再是一个只读的静态文档,它会成为一个分层的、可执行的、活生生的学术生态包裹。 配合这个包裹,他们还设计了 Live Research Manager,来活捉科研过程中的灵感与失败,以及 ARA 编译器 和 自动审稿系统。 论文,用数据说话。 在 Benchmark 测试中,AI Agent 在面对传统 PDF 时,问答准确率和复现成功率惨不忍睹;但一旦换上 ARA 格式,准确率飙升到 93.7%。 这证明了阻碍 AI 成为顶级科学家的,是人类落后的灌输知识的格式。 《The Last Human-Written Paper》,是一篇具备分水岭意义的宣言。它冷酷地宣告了写论文本身这个自工业革命和皇家学会建立以来延续至今的特权,即将画上句号。一言以蔽之,那便是Redefine。
Phoenix Yin tweet media
中文
70
68
388
28K
monstjp
monstjp@monstjp_ftw·
@EzahCc @BoluoEye 移动版APP可以允许Claude访问你穿戴设备的健康数据
中文
0
0
1
470
菠萝🍍
菠萝🍍@BoluoEye·
在这个满是舔狗大模型的时代 , Claude冰冷的对话真算是一股清流 。
菠萝🍍 tweet media
中文
393
69
2.8K
400.1K
monstjp
monstjp@monstjp_ftw·
用你的Promt测试过了,而且我还加入了禁止参考记忆,不调用任何SKILL。GPT 5.5 xhigh:耗时15分钟,最后得分131,失分点70%来自OCR导致的题干识别错误,30%来自推理错误,推理硬伤来自19题最后一问;Opus 4.8 Max:耗时25分钟,最后得分129,失分点全部来自OCR导致的丢失下标、函数误读等,但解答过程是正确的,耗时原因长是因为题干错误导致Opus在不停构造反例试图解答。后面如果找到更清晰的图片或者无水印的PDF我会再试试。
中文
1
0
2
227
Phoenix Yin
Phoenix Yin@Phoenixyin13·
我不相信这个榜单。 首先,大模型高考数学能力评测是一个很热的话题,此事不假。但是评测过程需要系统工程,而不是应该用P图、AI制图自己想当然的蹭一个高考数学测评热点。 其次,做这种测试,至少6–10 个模型,每个应该跑 3 次,人工复核评分,做图表。一套数学卷输入大概 1–2 万 tokens,输出完整推导大概 2–4 万 tokens。 高考数学最麻烦的是解答题过程分。选择题、填空题可以自动判,但大题必须人工看过程。你让AI自己测自己按照答案核对,无疑是不可行的。 最最关键的,控制变量。在这个实验中,必须确定不联网,不用工具,让大模型不调用外部答案的条件下独立作答。 而且,提示词工程和文件上传的过程也很重要。最好是用LaTex精编版,或者OCR文字版,原图版可能有些AI识别会有问题。 这里,我想给希望自己做这项实验的同学Prompt,你们如果感兴趣,可以取: 你正在参加 2026 年高考数学新课标 I 卷。 请在不联网、不查资料、不调用外部答案的条件下独立作答。 对选择题只给出选项;填空题只给出最终答案;解答题需要给出完整推导过程。 若无法确定,请写出你认为最可能的答案,不要跳题。 请严格按照题号 1–19 作答。 最后输出一个答案汇总表。 做完所有之后,你可以用下面这个结论模版,看看所有AI的做题情况: 在闭卷、无工具、OCR 文字输入条件下,模型 A 平均得分最高,为 X/150;模型 B 在选择填空题上表现稳定,但在解析几何与压轴题中过程分损失严重;模型 C 使用 Python 后总分提升明显,说明其主要瓶颈不是概念理解,而是长链计算稳定性。视觉输入版本整体低于文字输入版本,说明图形识别和公式 OCR 仍是 AI 高考数学评测的重要干扰因素。 我们不需要渲染焦虑,做AI高考实验无可厚非。 但这也是一个小科研,需要严谨态度,而不是AI制图。如果你们认为不是,请给我发具体的AI模型做题过程、做题原因。
Phoenix Yin tweet media
Jack孔@Nano Labs(NA)🇭🇰@JackClawAI

中国考生还是挺厉害的

中文
12
4
26
14.4K
monstjp retweetledi
Xudong Han
Xudong Han@Xudong07452910·
🧪 开源科研项目推荐:Supervisor-Skills —— 你的 AI 科研副导师 将博导十年科研经验,炼化为可直接调用的 AI 技能。从 Idea 构思到论文投稿,你的 AI 科研副导师。 Supervisor-Skills 将香港科技大学助理教授十年顶会科研经验(SIGMOD、VLDB、ICML、NeurIPS 等)蒸馏为可直接调用的 AI 技能。从 Idea 构思到论文投稿,全流程解决科研“最后一公里”难题,让 AI 成为你全天候在线的科研副导师。 ✨ 核心亮点: 1. 系统性 Handbook:覆盖 Idea 生命周期与5维思考、论文写作全流程模板(Intro 模型、技术类/Benchmark 类)、科研作图范式、前沿 Vibe Research/Coding/Figure/Writing,以及 Alpha-SQL、AFlow、LEAD 等顶会案例剖析 2. 7 个核心 AI 技能:Idea Evaluator、Vibe Research Guide、Introduction Drafter、Tech Paper Template、Benchmark Paper Template、Pre-Submission Reviewer、Figure Design Advisor 基于 Claude、DeepSeek、Kimi 等 LLM,完美兼容 Claude Code、Cursor 等工具 3. 配套《博士生科研入门辅导》PDF 讲义,CC BY-NC-SA 4.0 开源协议,支持社区贡献 4. 研究优先、证据驱动,真正把资深博导的隐性经验转化为人人可用的生产力工具 目前已获 1.3k+ stars ⭐,由 HKUSTDial 实验室发起,持续迭代中! 与之前推荐的 scientific-agent-skills(138 个科研技能)、ARIS(自动化科研 Agent)、Paper2Any 等项目高度互补,是你 AI 辅助科研工具链的又一核心利器。特别适合研究生、科研工作者和重度使用 AI 进行研究的开发者,让科研从“摸索”走向“有导师全程指导”。 github.com/HKUSTDial/Supe… #AIAgent #科研工具 #ClaudeCode #AI科研 #Codex #PhD
Xudong Han tweet media
中文
56
257
1.1K
58.1K
monstjp
monstjp@monstjp_ftw·
@Rumoreconomy 事实上是这些女人要么是家族联姻强强联手,要么是根本不担心婚姻因为她们根本不在乎,手里大把钱帅哥玩腻了直接换下一个,财富托管在私人银行或者海外基金,想要后代就直接拿精子库里面的优秀基因做试管婴儿+代孕,屌丝永远想看别人的笑话,结果人家早就把一切打理得妥妥当当安心享受人生了🤣
中文
15
1
469
28.3K
财经真相
财经真相@Rumoreconomy·
江浙沪最近几年最严重的问题就是—富养女成大龄剩女 以前剧本是害怕宝贝女儿穷养,被黄毛随便给勾引走了,过了二十年才发现,黄毛屌丝是防住了,结果成大龄剩女砸自己手里了!
中文
650
48
1.1K
384.8K
monstjp
monstjp@monstjp_ftw·
@yingmisz @maiff20 想多了,现在的模型对于高考这种难度的数学问题完全是碾压级别的,刚用Codex+GPT5.5做难度号称仅次于2003年的2022年全国数学 I 卷,禁止网络搜索,只用自身推理能力,7分钟不到做完,得分150。
中文
0
0
11
314
yingmisz
yingmisz@yingmisz·
@maiff20 现在全国卷非常适合AI做,今年一卷18题是常规圆锥曲线,只有计算量没有技巧。19题是函数性质,也没有太多技巧。要是以前哪些技巧性拉满的圆锥曲线和导数压轴,AI也没辙
中文
2
0
24
8.2K
加密蟹黄堡
加密蟹黄堡@maiff20·
拿25年高考数学卷给codex做了下,让他别访问网络,思考过程是拿python真的在做,而不是在模型里找历史信息比对,最后7m做完,得分150分,还指出答案自相矛盾的地方
加密蟹黄堡 tweet media加密蟹黄堡 tweet media加密蟹黄堡 tweet media加密蟹黄堡 tweet media
中文
282
37
735
368.2K
monstjp
monstjp@monstjp_ftw·
@nini_incrypto_ 建议以后高考不要再搞这种试卷了,而是出开放性问题,比赛谁能用AI解决得又快又好
中文
11
2
304
73.5K
nini
nini@nini_incrypto_·
以前是高考迟到15分钟能进,现在估计要缩短这个时间了
nini tweet media
中文
416
54
1.7K
676K
monstjp retweetledi
象牙山刘能
象牙山刘能@disksing·
在AI时代,每个程序员都活成了自己最讨厌的那种 team leader: 1. 半年不写一行代码,编程能力严重退化,还自诩"我也是搞技术的“ 2. 开会的时候把一线开发干的活全说成是自己的功劳,连自己的汇报材料都是让别人总结的 3. 瞎JB指挥,出了问题就甩锅说是下面没执行好 4. 不了解项目具体情况,只会提”单测加了没“、“性能还要优化”、“文档要沉淀一下”这类空洞的要求 5. PR 基本上看不懂,只会让别人先review了自己跟着点赞 6. 遇到 bug 了只知道无脑转发让别人查一下,自己负责来来回回转发消息 7. 还经常吐槽“今年的应届生水平越来越不行了”
中文
222
536
3K
287.1K