希德

882 posts

希德

@BohanLi10647

Katılım Mayıs 2024

586 Takip Edilen119 Takipçiler

希德@BohanLi10647·1d

@ai_xiaomu 奥特曼打电话告诉你的？

中文

2.9K

黄小木@ai_xiaomu·1d

GPT-6来了。 5-6万亿参数，Symphony架构，一次性整合了ChatGPT+Codex+Atlas。翻译一下：以前你要在三个工具之间切换，现在一个入口全搞定。更关键的是定价——输入$2.5/百万Token，比GPT-4o贵了10倍。 OpenAI的信号很明确：AI的天花板还远着呢，愿意为顶级能力付费的人才是目标客户。免费用户和付费用户的体验差距，会越拉越大。

中文

158

62.7K

希德@BohanLi10647·2d

@realCaigu 只能订阅吗

中文

111

希德@BohanLi10647·3d

模型降智是这样的，一直把安达当作1哈哈哈哈。不过也怪有意思的

中文

希德@BohanLi10647·5d

@Leobai825 怎么这么多人做中转。好像确实挺赚的

中文

277

天策@Leobai825·5d

你是一个刚毕业的大学生，拥有着机缘与运气，同时靠着自己的努力沉淀了大半年在推特积累了快50,000粉丝和合伙人做出来了第一个项目叫做CC中转接下来你要面对的竞争对手是《孙宇晨》

H.E. Justin Sun 👨‍🚀 🌞@justinsuntron

史上最强 AI 中转站 B.AI 白来了。一个 API Key = Claude + GPT + Gemini + 国产大模型全系列 ✅ 区块链地址登录，纯匿名支付（兼容邮箱Visa/Master/Apple Pay） ✅ 官方 API 直连，零篡改，价格卷到全网最低 ✅ BAIClaw 上线"孙哥大脑"——用孙哥思维交易加密可以冲了！🚀

中文

139

399

130.8K

希德@BohanLi10647·5d

@jinchenma_ai Gemini可以解释得更加清楚生动

中文

金尘马@jinchenma_ai·6d

难不成这就是大学不让学生用 AI 的原因？一个本来没多难的概念，教材能写得像天书，老师也讲不明白，结果 AI 三句话就给讲明白了。 AI 让某些教材编写者和授课老师的水平直接原形毕露。

中文

250

648

138K

希德@BohanLi10647·29 Nis

@Miiharukawa 一堆哈哈哈

日本語

139

遥@Miiharukawa·28 Nis

粉毛最他吗容易出女同了

日本語

638

67.2K

希德@BohanLi10647·29 Nis

@ema20ai @PKUCXK 中国大陆可以访问

中文

336

ema20@ema20ai·29 Nis

@PKUCXK I see vision, although not working for me yet.

English

5.5K

Xiaokang Chen@PKUCXK·29 Nis

Now, we see you. 👀

English

126

1.4K

494.1K

希德@BohanLi10647·26 Nis

有空看看

无颜@WY_mask

这个太牛逼了！大家都在用这三个工具在闲鱼赚钱！！！ 1⃣闲鱼智能监控工具：ai-goofish-monitor 能实时/定时监控闲鱼商品，自动筛选产品，通过 AI 分析性价比和真实度，帮你快速发现低价好货，捡漏秒拍必备 🔗github.com/Usagi-org/ai-g… 2⃣闲鱼多账号智能管理系统：xianyu-auto-reply-fix 支持多账号管理、AI 自动回复、自动发货确认、多渠道消息通知，还提供完整 Web 管理后台。适合系统化/矩阵化运营闲鱼店铺，提升出单效率 🔗github.com/GuDong2003/xia… 3⃣闲鱼 AI 智能客服机器人：XianyuAutoAgent 7×24 小时自动化回复/出单，支持多专家协同决策、智能议价和上下文感知对话。卖家自动处理买家询价、砍价和出单，大幅减少手动聊天时间 🔗github.com/shaxiu/XianyuA…

中文

希德@BohanLi10647·26 Nis

@myanTokenGeek @DashPaper2 @xiongchun007 跑分看看就行了吧别真信。某米的跑分都逼近opus4.6了，实际体验还是依托

中文

孟岩-Mike Meng@myanTokenGeek·26 Nis

@DashPaper2 @xiongchun007 我说话有根据的。

中文

727

程序员老熊@xiongchun007·26 Nis

我发现 DeepSeek V4 比 Anthropic 的 Opus 模型便宜 100 倍的原因了：下图是我昨天的DS V4 token 消耗，输入命中缓存就 1000万，未命中缓存才 60 完。这还能不便宜？感觉，DeepSeek V4 一定在上下文压缩、内存使用率上做了专门的细腻优化和处理。不知有没有懂 DS LLM 底层算法的推友证实一下我的猜测？感觉现在大模型的收费全靠企业良心啊，要是真的黑起来，那可就真的没下限了。可操作空间比运营商还大！

中文

341

79.9K

Emery@emery_jc7·26 Nis

@Jaden_riku 《伟大为何不能被计划》里有个很关键的概念叫 stepping stone：很多东西本身不是终点，但它会把你带到下一个更有价值的位置

中文

336

16.4K

希德@BohanLi10647·26 Nis

@emery_jc7 @Jaden_riku 牛

日本語

250

Jaden思考日志@Jaden_riku·25 Nis

说一个暴论。到2026年年底，我相信90%以上的人会发现，自己2026年在Claude code上花的90%以上的时间都是无意义的自嗨。

中文

157

582

151.2K

希德@BohanLi10647·24 Nis

@yifan_zhang_ 张亦凡算你厉害

中文

171

希德@BohanLi10647·22 Nis

ZXX

希德@BohanLi10647·22 Nis

用gpt一边写小说一边生图真爽啊

中文

希德@BohanLi10647·21 Nis

@imwsl90 买贵了，亏了

中文

卫斯理@imwsl90·20 Nis

咸鱼真是个黑市啊花了4.6买了一个价值几千块的课程

中文

590

999

713.7K

希德 retweetledi

Fang知识分享@FLMdongtianfudi·20 Nis

最近学了个新词:注意用脑卫生什么是不卫生: 1.没睡好(很好理解，没充满电) 2.频繁多任务切换(长期损伤执行功能) 3.信息过载、决策疲劳(能量耗竭) 4.慢性压力+压抑情绪(毒素，促炎) 5.高糖饮食(氧化应激反应，攻击线粒体，促炎) 什么是用脑卫生: 1.睡眠第一位 2.深度工作(dive deep) 3.规律运动 4.冥想(放松只是冥想微不足道的好处之一) 5.适当认知挑战(学点新复杂东西) 6.地中海饮食(优质脂肪，保证膳食纤维，抗氧化，抗炎) 7.接触自然

中文

198

1.1K

83.2K

希德@BohanLi10647·19 Nis

@yifan_zhang_ fake new

English

430

希德@BohanLi10647·18 Nis

@wlzh 笑死了，现在ai生图真的可以以假乱真了

中文

2.1K

M.@wlzh·17 Nis

DeepSeek V4 亮瞎了我的双眼只求代码真的这么牛就可！

中文

245

175.4K

希德@BohanLi10647·17 Nis

@JamesZhang0365 @xiangxiang103 这图是ai生成的

中文

100

Lei Zhang@JamesZhang0365·17 Nis

@xiangxiang103 这分对吗。。。

中文

9.1K

雨哥向前冲@xiangxiang103·17 Nis

疑似 DeepSeek V4 技术报告的 benchmark泄露！图中的“DeepSeek-V4 技术报告”基准测试（Benchmark）数据，为我们揭示了当前顶尖 AI 大模型的最新竞争格局。从这份涵盖通用能力、推理数学、代码以及智能体（Agent）四大维度的成绩单来看，DeepSeek-V4 展现出了极强的统治力，而大模型的第一梯队也正在经历重新洗牌。 🏆 竞争格局：当前大模型梯队划分从图表数据中，我们可以清晰地看到五款参评模型的实力分层： 👑 领跑者：DeepSeek-V4在所有 12 项严苛测试中均斩获最高分（State-of-the-Art），实现了跨维度的全面压制。 🥈 最强追赶者：Gemini 3.1 Pro Preview在多项核心指标上紧咬榜首，并在绝大多数测试成绩中超越了 GPT-5.3，是目前这组对比中最具竞争力的对手。 🥉 第三梯队：GPT-5.3 与 Claude Opus 4.6两者互有胜负，依然保持着极高的水准，但在最顶尖的竞争中已稍显疲态。 📏 基准线参照：GPT-4.1作为较早期模型的代表，其数据在这组对比中全面垫底，但也直观地印证了新一代模型技术跨越的幅度之大。 🔍 四大核心能力深度拆解 🧠 1. 综合常识与学科能力 (General) 核心数据：在极具挑战性的 MMLU-Pro 测试中，DeepSeek-V4 (91.2) 和 Gemini 3.1 Pro (90.0) 是唯二突破 90 分大关的模型。行业洞察：跨学科的专家级知识问答对头部模型已不再是难题。GPT-5.3 (88.4) 和 Claude (86.7) 在这方面稍显落后，知识密度的竞争正在向 90+ 的极限逼近。 🧮 2. 数学与复杂推理 (Reasoning & Math) 核心数据：顶尖数学竞赛基准 AIME 2025 呈现极度“内卷”的态势（DeepSeek-V4 96.4，Gemini 95.0，GPT-5.3 94.6）。行业洞察：数学是 AI 进步最神速的领域。90+ 的得分意味着这些模型在解决人类高难度奥数题时已经具备了压倒性的优势，各家在这个领域的差距往往只在几道题之间。 💻 3. 编程与工程能力 (Code) 核心数据：在 Codeforces（算法竞赛平台）上，DeepSeek-V4 飙升至 2767 分，拉开显著差距；但在评估修复真实软件工程 Bug 的 SWE-bench Verified 中，所有模型均未突破 60%（最高为 DeepSeek-V4 的 59.6%）。行业洞察：“写算法题容易，改人类代码难”。模型在纯逻辑生成上已经达到竞赛级选手水平，但在理解和修改复杂的现实商业代码库时，依然存在明显的短板。 🤖 4. 智能体自主行动 (Agent) 核心数据：在模拟网页浏览和执行任务的 WebArena 测试中，全场最高分（DeepSeek-V4）仅为 58.7，GPT-4.1 甚至低至 44.8。行业洞察：这是全表绝对得分最低的板块。它反映了当前的行业痛点：大模型“做题”和“写文章”能力极强，但如果让它像人类一样自主操作浏览器、跨应用处理多步骤现实任务，成功率依然堪忧。 💡 核心总结这份基准测试不仅是 DeepSeek-V4 强悍实力的“肌肉秀”，也侧面印证了 Gemini 3.1 Pro Preview 在当前技术路线上的极强竞争力。更重要的是，它为行业指明了下一步的攻坚方向——当模型的知识储备和做题能力逼近人类极限时，突破“智能体自主执行 (Agentic tasks)”的现实应用瓶颈，将是决定下一代 AI 霸权的关键。仅针对图中数据解读，真实情况还有待验证！