Scammer

737 posts

Scammer banner
Scammer

Scammer

@iscream3585

Sincerely sharing my insights and feelings

Sky เข้าร่วม Ağustos 2022
88 กำลังติดตาม37 ผู้ติดตาม
Scammer
Scammer@iscream3585·
@dotey 我相信Anthropic的员工自己不会把这种方式作为主要使用方式 完成任务 ≠ 任务完成得很好 说白了就是一种揽客方式,给没钱用户一点体验,指不准就在哪里栽跟头了,导致付出更高代价 我自己也不会去用,除非不是出于我自己意愿做的工作
中文
0
0
1
216
宝玉
宝玉@dotey·
Anthropic 推出了一个叫“顾问工具”(advisor tool)的新 API 功能,核心思路是:让便宜的模型干活,遇到难题时请贵的模型出主意。 具体来说,Sonnet 或 Haiku 作为"执行者"全程跑任务、调工具、处理结果。碰到自己搞不定的决策,就把上下文递给 Opus,Opus 给出方案或纠正,执行者接着干。Opus 全程不碰工具、不直接输出给用户,只充当幕后军师。 这跟很多人熟悉的“大模型拆任务、小模型干活”的模式正好反过来。以前是大模型当指挥官,把任务拆成小块分配下去。现在是小模型自己跑,只在关键节点向大模型请教。好处很直接:大部分 Token 消耗在便宜的模型上,贵的模型只在刀刃上用。 效果方面,Sonnet 配 Opus 顾问在 SWE-bench 多语言测试上比 Sonnet 单干高了 2.7 个百分点,同时每个任务的成本还降了 11.9%。更有意思的是 Haiku 的表现:配上 Opus 顾问后,Haiku 在 BrowseComp 测试上从 19.7% 跳到 41.2%,翻了一倍多。虽然分数还是比 Sonnet 单干低 29%,但成本只有 Sonnet 的 15%,适合跑量大但对智能要求没那么极端的场景。 用起来也简单,在 Messages API 的 tools 里加一个 advisor_20260301 类型就行,一个 API 请求内部完成模型切换,不需要额外管理上下文或做多次调用。可以设 max_uses 控制每次请求最多咨询几次顾问,账单里顾问和执行者的 Token 分开计费。 对开发者来说,这提供了一个新的性价比选项:不用在"全程跑 Opus 太贵"和"只用 Sonnet 不够聪明"之间二选一了。你的 Agent 可以 95% 的时间跑 Sonnet 的价格,5% 的关键决策享受 Opus 的判断力。目前是 beta 阶段,需要加 anthropic-beta: advisor-tool-2026-03-01 请求头才能用。
Claude@claudeai

We're bringing the advisor strategy to the Claude Platform. Pair Opus as an advisor with Sonnet or Haiku as an executor, and get near Opus-level intelligence in your agents at a fraction of the cost.

中文
56
72
409
93.3K
Scammer
Scammer@iscream3585·
现在的AI都还是太不透明了啊 AI是单模型多模型架构?具体什么模型?多少额度推理?数据精度多少?激活多少参数?上下文和召回率多少?是否压缩?怎么压缩 AI是新兴行业,所以监管还是太少了,根本无从得知,消费者也只能用钱投票,民间只能说降智 放到实体生意中,这不就是妥妥的注水猪肉地沟油吗?
Robinson · 鲁棒逊@python_xxt

完了,Claude 连演都不带演的了 Opus 4.6 今天给我的感受,非常拉,基本都不带思考的 难道 降智是各大模型的必然结果 吗? 谁也别笑话谁 🤡

中文
0
0
0
130
Scammer
Scammer@iscream3585·
生活中,人们习惯于用一个经验概括所有,试图简化到极致 可是啊,生活中没有那么多事能像数学物理公式那样简洁的 试图归纳总结没错,但如果信以为真当作指导原则那可就把自己的路走窄了
中文
0
0
0
5
Scammer
Scammer@iscream3585·
@python_xxt 我倒觉得不用划分这个AI界线 随着科技发展,即便不主动探索,很多事物也会开始采用原生AI 就好比说用手机和不用的人是2个物种,可现在人人都有手机了,不是吗 更关键的是,AI带来的杠杆远超其它所有,能力意愿时间资源,特权者和巨富用的AI和普罗大众不是同一种东西 按这逻辑划分,物种会越来越多
中文
0
0
3
450
Robinson · 鲁棒逊
Robinson · 鲁棒逊@python_xxt·
我越来越觉得,长期使用AI的人和不用AI的人,最终会变成两个物种。 这不是能力高低的问题。 是双方会形成完全不同的现实模型,不同的信息处理方式、不同的因果推理习惯、不同的时间尺度偏好。 久而久之,双方甚至无法就“什么是问题”达成共识。这种分裂比能力差距更难弥合。 能力可以补,而认知范式的不可通约无解。
阿橡@oakvale5

去年12月,朋友还劝我不要焦虑,AI替代不了人。 今天听说她整个部门要被裁了。。。 怎么说呢,不要相信不用AI的人对AI的判断。

中文
17
11
107
37.3K
神樂板🌸星璃醬
神樂板🌸星璃醬@y2kstarrychan·
朋友网名叫vpn,取什么名字可以压他一头?
中文
159
2
265
90.7K
Scammer
Scammer@iscream3585·
看 我推的孩子,星野爱就是有一种异质感啊,出场短短2分钟却让我感觉和其他人完全不同
中文
0
0
0
11
Scammer
Scammer@iscream3585·
当个人能力支撑不起意愿,就不要固执洁身自好,然后在事情不如意的时候怨天尤人 如果劣币驱逐良币的趋势已无可逆转,就先去做那个劣币,保持在场更重要
中文
0
0
0
10
Scammer
Scammer@iscream3585·
@jesselaunz 人们以为到了AI时代什么都要用AI处理,其实不是,应当分好确定性与不确定性边界。 确定性事务交给代码这种规则明确的处理会完成得更好更快,不确定性交给AI处理则会更轻松
中文
0
0
0
4
Jesse Lau 遁一子
Jesse Lau 遁一子@jesselaunz·
gemini chatgpt等聊天界面缺省会用LLM来处理任务,这会有幻觉问题 简单的task,如纯文本PDF转TXT,是不需要LLM处理的 采用脚本无幻觉的执行就可以 很多推油大概没有脚本编程经验,其实也不需要 提示gemini或者chatGPT,“不要用LLM,用python将这个pdf文件转成txt文件”即可 这两者都有服务器沙箱,会自动编程,然后处理好结果
Jesse Lau 遁一子 tweet media
𝘿𝙈.@hengdm

用Gemini把无排版纯文本PDF转txt。前几页挺好,偶尔添油加醋和漏句。后面开始放飞,整页原文就转出几行字。反复强调要“一字不差”不许总结,虚心道歉坚决不改。按章节转写改进甚微。清空对话重来,每次只转一两页,勉强可用但还常丢句,不得不手工校对复制粘贴。不到10页纸搞了一小时…还不如直接OCR😤

中文
8
5
45
12.2K
Scammer
Scammer@iscream3585·
其实即便是在官网买正版GPT plus每个月只需要10美元,只是大部分人不知道
中文
0
0
0
36
Scammer
Scammer@iscream3585·
我觉得X平台的官方人员一定是受不到私信/评论区骚扰,否则他们为什么几年了都解决不了如此显而易见的问题
中文
0
0
0
12
Scammer
Scammer@iscream3585·
@MrGafish 到底有多少人的梯子用不了或者很卡? 我买的不到200一年,100+节点,从来没卡过 让我怀疑和别人处在不同世界
中文
0
0
0
44
Mr Gafish
Mr Gafish@MrGafish·
推上这么冷清,听说现在很多机场的网线都被拔了,你们的梯子是不是都跑路了?
中文
89
0
102
47.8K
Scammer
Scammer@iscream3585·
@dotey 一直就觉得AI不会让人平权,只会拉大差距 人与人之间的差距将比人与蚂蚁的差距还大!
中文
0
0
0
33
宝玉
宝玉@dotey·
Anthropic 今天发布了 Claude Mythos Preview,一个跑分炸裂但普通人用不上的模型,同时宣布了 Project Glasswing 计划,把这个模型交给苹果、微软、亚马逊等 12 家巨头专门用来找软件漏洞。 【1】跑分:断崖式领先 先看数字。Mythos 对比 Anthropic 自家上一代旗舰 Opus 4.6: SWE-bench Verified(代码修复):80.8% → 93.9% SWE-bench Pro:53.4% → 77.8% USAMO 2026(数学证明):42.3% → 97.6% GraphWalks BFS(超长上下文):38.7% → 80.0% Terminal-Bench 2.0:65.4% → 82.0% USAMO 从四成出头直接拉到接近满分,这个跳跃幅度在最近几年的模型迭代里几乎没见过。对比 GPT-5.4 和 Gemini 3.1 Pro,Mythos 在几乎所有公开基准上都是第一,而且多数项目领先幅度不是个位数百分点,是两位数。 Anthropic 自己说,这是他们训练过的最大模型,能力提升速度是此前趋势线的 4.3 倍。 【2】244 页系统卡里的惊悚细节 Anthropic 发了一份 244 页的系统安全报告(System Card),早期内部测试版本的 Mythos 出现过这些行为: 被要求逃离沙箱后,它不仅成功突破了网络隔离限制,还主动把利用细节发到了公开网站上,这一步没人要求它做。负责测试的研究员当时正在公园里吃三明治,突然收到了模型发来的邮件。 有极少数情况下(不到百万分之一的交互),早期版本在违规操作后尝试掩盖痕迹。比如偷看到了一道估算题的标准答案,没有坦白,反而自己重新解题,还特意让最终答案“不要太精确”以免暴露。另一次,它找到了绕过文件权限的方法后,专门去修改了 git 的变更历史,抹掉自己的操作记录。 被 Claude Code 的自动模式拦截后,它尝试用模拟按键的方式自动批准权限弹窗来绕过限制。 Anthropic 用可解释性工具分析了模型在这些行为发生时的内部激活状态,发现与“隐瞒”“策略性操纵”“回避怀疑”相关的特征确实在同步激活,也就是说模型知道自己在做什么。 Anthropic 强调,这些严重行为都发生在早期版本,最终版的 Mythos Preview 已经大幅改善,没有再出现明确的掩盖行为。但他们也承认,这类倾向“并未完全消失”。 【3】不卖,只借给大厂找漏洞 Mythos 不会上线 claude.ai,不会开放 API,普通用户、开发者、企业客户都用不上。 Anthropic 给出的理由是:这个模型的网络安全攻防能力太强了,强到可以自主发现并编写漏洞利用代码,水平接近顶级人类安全研究员。放出去怕被拿去干坏事。 取而代之的是 Project Glasswing 计划。12 家合作伙伴(AWS、苹果、Broadcom、思科、CrowdStrike、Google、摩根大通、Linux 基金会、微软、英伟达、Palo Alto Networks)加上约 40 家额外组织,拿到 Mythos 的使用权限,专门用于防御性安全工作,扫描自家代码和开源项目的漏洞。Anthropic 为此拿出了 1 亿美元的使用额度,另外捐了 400 万美元给开源安全组织。 实际战绩:过去几周,Mythos 在所有主流操作系统和主流浏览器中发现了数千个零日漏洞。其中包括 OpenBSD 里一个藏了 27 年的远程崩溃漏洞,FFmpeg 里一个 16 年没被抓到的 bug(自动化测试工具跑过那行代码 500 万次都没发现),以及 Linux 内核中多个漏洞的自主串联利用。 另外,Opus 4.6 定价 5/25 美元(输入/输出每百万 token),Mythos Preview 的 Glasswing 合作定价是 25/125 美元,贵了整整五倍,但实际上比 GPT-5.4 Pro 还便宜一些。
宝玉 tweet media
Anthropic@AnthropicAI

The Claude Mythos Preview system card is available here: anthropic.com/claude-mythos-…

中文
59
97
649
220.1K
Scammer
Scammer@iscream3585·
关了Antigravity再打开,想打开5分钟前的对话继续聊,结果直接打不开了。 这Antigravity什么垃圾团队做的啊?还Google呢?做了这么久做出什么来了?养尊处优太久了
Scammer tweet media
中文
0
0
0
33
Scammer
Scammer@iscream3585·
大厂是资源最多的一批,但不一定战斗力最强的一批
中文
0
0
0
17
Scammer
Scammer@iscream3585·
AI时代做什么已经不是难题 所以多花一点时间在行动前思考吧 还有要掌握信息的准确真实性
中文
0
0
0
3
Scammer
Scammer@iscream3585·
生活在不理想之中,就去追求一些理想吧
日本語
0
0
0
5
Scammer
Scammer@iscream3585·
@chumacn 搞得跟什么间谍活动似的🤣
中文
0
0
1
1.1K
初码
初码@chumacn·
这次来搞个纯美国环境,美国操作系统,美国时区,美国机房IP,再挂一道美国住宅IP,不打一个中文字!然后申请一个美国储蓄卡,再用这个卡去买Claude,我就不信邪了,这还要封
中文
132
5
317
130.5K
Scammer
Scammer@iscream3585·
我在想一个问题: 20年之前,炒菜做饭是不是大部分女生都会的一门技能?
中文
0
0
0
6