selflearner

214 posts

selflearner

selflearner

@fttt007

AI builder | 科普视频制作 合作&咨询 +V:flat036

Katılım Haziran 2014
410 Takip Edilen25 Takipçiler
Sabitlenmiş Tweet
selflearner
selflearner@fttt007·
人的时间和注意力都是有限的,关注 AI 不能平均用力。 我觉得更好的方式是:重点关注真正产生一手变化的人和组织。 一类是 OpenAI、Anthropic、Google DeepMind/Gemini 这类前沿公司,它们往往决定模型能力、产品形态和行业议题的方向。 一类是 DeepSeek、Qwen、Llama、Mistral 这类开源或更开放的阵营,它们分享更充分,也更容易让人理解技术路径和真实可用性。 同时也要关注一线研究员、工程师、开发者社区,而不是只看媒体解读和KOL情绪。 AI 信息太多,真正重要的不是每天刷新闻,而是建立自己的过滤系统:少看噪音,多看一手材料;少追热点,多追能力如何迁移到真实工作流。
中文
0
0
0
140
selflearner
selflearner@fttt007·
@MaxForAI TS: 前端 Agent orchestrator tool schema streaming workflow runtime 用户交互 插件系统 API layer Python: 模型实验 数据处理 RAG pipeline eval embedding fine-tuning 离线任务 复杂计算
中文
1
0
32
4.9K
Max For AI
Max For AI@MaxForAI·
昨天见了一个非常牛逼的Agent团队,我敢说在国内绝对是T0的级别(之前DPSK还找他们搞了点Agent数据) 刚好聊到了这两天推上吵得非常热闹的AI产品(Agent)要不要用Python的话题 他们Founder说的很直接:SB才在Agent项目里用Python🤣 TS适合100%Agent项目,主要有几个原因: 第一,Agent最终大多时候会在产品里。 不管你做的是Chat界面、工作流面板、浏览器插件、Copilot,还是IDE扩展、Slack/Discord/网页工具,TS天然离这些更近。 前端是TS,后端也是TS,中间的tool schema、事件流、UI状态都能共用一套类型。 如果你用Python那就会变成: 模型服务在Py、后端在Node、前端在TS 一份schema要复制三份 如果某个字段名大小写错了,你的Agent马上就给死给你看。 第二,Agent很依赖异步和事件流。 Agent不是一次请求一次回答这么简单。 它要边想边输出,边调用工具,边等用户确认,边更新UI,边处理取消、重试、超时、恢复。 TS/Node在事件驱动、stream、WebSocket、server-sent events这些场景里很顺。 Python当然也能做,但你会更容易感受到「这东西本来不是为这类Web产品链路长出来的」。 第三,类型系统对Agent很重要。 Agent真正容易炸的地方不是「模型不会说话」,而是工具参数错、返回结构错、状态字段错、上下文对象变形。 TS可以把很多东西提前卡住: tool input/output、agent state、message format、UI事件、workflow node、permission object、external API response 这对Agent很关键,因为Agent系统里有大量JSON对象在飞来飞去。 第四,TS更适合做「Agent runtime」。 如果你做的是一个Agent框架、SDK、运行时、插件系统,TS优势更明显。 因为使用者往往要把它接进: 网页、后台服务、Electron、浏览器插件、VS Code插件、API route、serverless、edge runtime 这些地方TS生态更统一。 所以很多Agent infra选TS,不是因为Python不行,是因为它们要服务的使用场景更接近Web开发者和产品团队。 第五,AI应用现在其实是拼系统。 早期大家用Python,是因为AI=模型。 现在很多AI产品已经演化到包含LLM API、tool calling、database、vector store、browser automation、workflow、UI、billing、auth、analytics 这已经不是研究工程了,是产品工程。 互联网产品工程的主语长期就是JS/TS。 很无聊,但世界就是这么没品😮‍💨 但他也表示Python不会消失。 更合理的分工其实是: Python做模型层、数据层、eval、embedding pipeline、离线任务、实验脚本。 TS做产品层、Agent编排层、前端交互层、插件层、用户可见的runtime。 所以你如果做一个Agent产品,你最好: MVP前端+Agent orchestrator用TS。 涉及模型训练、数据处理、复杂检索、评测系统,再上Python。 聊了一下午,真的学了太多了 才知道自己之前对于Agent的认知到底有多浅薄🧎
中文
107
86
618
125.6K
Daniel San
Daniel San@dani_avila7·
/simplify is back in the latest Claude Code update It's now an alias for /code-review --fix Which applies review findings to your working tree after the review, surfacing reuse, simplification, and efficiency suggestions Going to be testing it over the next few days, will report back on how it goes 🫡
English
29
20
362
41.2K
Max For AI
Max For AI@MaxForAI·
在M3发布之前,MiniMax发了M2系列技术报告。 这次最值得看的不是单个benchmark,而是它终于把「Agent模型」这件事讲得很具体。 M2旗舰模型总参数229.9B,但每个token只激活9.8B参数,原生上下文192K,预训练29.2T tokens。 它的目标也不是单轮聊天,而是coding、deep search、office task、reasoning这类长链路任务。 我看了这篇论文后觉得最关键的一句话是: 训练Agent,不能只训练回答。 你得让模型进入一个可执行环境,有workspace、有工具、有artifact、有reward,最后能验证它到底有没有把事情做完。 所以MiniMax给coding任务做GitHub PR到Docker环境的管线,用测试结果做奖励; 给AppDev任务做Agent-as-a-Verifier,让验证Agent真的打开应用、点按钮、检查交互和视觉质量; 给office和表格任务做可执行workbook验证,而不是只让LLM看一眼说「挺好」。 这才是Agent训练和普通SFT最大的区别。 普通模型学的是「怎么说得像对」。 Agent模型学的是「怎么在环境里把活干完」。 更有意思的是M2.7的self-evolution。 它现在还不是完全自己训练自己,但已经可以读训练日志、诊断异常、debug代码、改配置,论文里说能承担RL团队30%到50%的日常迭代工作。 他们还让M2.7对内部Agent scaffold做了100轮自主迭代,最后内部评测提升了30%。 模型能力下一步的瓶颈,可能越来越不只是参数、数据、算力,而是谁能把模型放进真实反馈循环里,让它不断接触任务、执行任务、验证结果、修正自己。 MiniMax这篇M2报告最核心讲的是: 小激活参数可以省推理成本,但真正把模型推到前沿的,是Agent数据、可验证奖励、长程RL和自我迭代系统。 这比单纯刷榜更重要。
Max For AI tweet media
RyanLee@RyanLeeMiniMax

Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It’s been just over six months since we first open-sourced M2 on December 23 last year. During that time, a number of our ideas and systems have been broadly adopted by the open-source community — including CISPO, Forge RL System, Self-Evolution. Over the past six months, we’ve felt incredible enthusiasm from the open-source community. Nearly every model release reached the #1 spot on the Hugging Face leaderboard. Now it’s time for a new chapter. We’re getting ready for M3. MSA paper is on the road. arxiv.org/abs/2605.26494

中文
8
3
23
6.5K
Beff (e/acc)
Beff (e/acc)@beffjezos·
Elon better land a Cybertruck on the Moon soon. Would be an insanely aesthetic move.
Beff (e/acc) tweet media
NASA@NASA

We have awarded @AstroLab_Space with a lunar terrain vehicle award. Their Crewed Lunar Vehicle is a rover designed to transport astronauts and supplies across the lunar surface. This vehicle will be deployed to the Moon by 2028 through our commercial lunar payload services initiative.

English
123
103
2.6K
225.7K
selflearner
selflearner@fttt007·
@lmsysorg 好久没看sglang源码了,现在源码还有必要学吗
中文
0
0
0
46
LMSYS Org
LMSYS Org@lmsysorg·
🚀 SGLang v0.5.12.post1 is live This is a stability patch on top of v0.5.12, with 12 cherry-picks focused on DeepSeek V4, NIXL PD disaggregation, and Blackwell. DeepSeek V4 🔸 Fixed V4-Pro garbled text on single-token decode (B200/B300) 🔸 Fixed EAGLE/MTP disagg decode crash at ~2000 reqs (SWA allocator) 🔸 Fixed NSA prefill context-parallel scheduler crash at startup 🔸 Fixed HiSparse + Compressor V2 accuracy (GSM8K 0.825 → 0.960) 🔸 Enabled PD disaggregation under pp_size > 1 🔸 Fixed V4-Flash dummy-load + FlashInfer mxfp4 illegal memory access in CUDA-graph capture 🔸 Fixed HiCache + SWA stale translation indices after cache rebuild NIXL PD 🔸 Fixed aux-state transfer (send on is_last, expect state only when truthy) Blackwell / B300 🔸 Defaulted nvidia-cutlass-dsl to cu13, fixing Qwen 3.5 crash on sm_103 in FlashAttention-4 Performance 🔸 Eliminated 20–40s cold-bucket stalls on DSV4 via MHC token-count prewarm 🔸 Cut V4-Pro JIT cost by precompiling DeepGEMM bf16/fp32 dispatch branch Other 🔸 Fixed missing group arg in get_dp_buffer
LMSYS Org tweet media
English
2
5
24
2.2K
ilovelife
ilovelife@ilovek8s·
马上要高考了,你们老说什么山河四省高考是地狱模式,所以广东是山河四省四个里的那个?
ilovelife tweet media
中文
21
0
0
1.8K
老王毕业生活
老王毕业生活@StevenJT83·
抢500w,死刑。 偷500w,无期。 贷500w,安享晚年。
中文
3
0
1
65
selflearner
selflearner@fttt007·
Perplexity 是一家很有意思的 AI 公司:估值很高,但它并不是典型的 foundation model company。 这件事说明了一个很重要的趋势: AI 时代,价值不只在底层模型,也在 harness。 底层模型当然重要,它像发动机。但用户真正感受到的,往往不是发动机参数,而是整辆车能不能开得快、稳、顺。 Perplexity 做的就是这层东西: 把搜索、网页抓取、信息排序、引用、多模型路由、答案生成、延迟控制、成本控制和产品体验,编排成一个新的 AI-native search 入口。 它也有面向搜索优化的自有模型,但它真正有意思的地方不在于“从零训练出最强底层模型”,而在于把模型能力变成了一个稳定、可信、可规模化的搜索产品。 这不是简单套壳。 简单套壳是把问题转发给模型;harness 是把模型、工具、数据、流程和体验组织起来,让能力真正落到场景里。 尤其在搜索这种场景中,用户要的不是“哪个模型回答了我”,而是: 答案够不够快,来源够不够清楚,结果够不够可信,体验能不能替代原来的搜索习惯。 所以 Perplexity 的价值不只是用了谁家的模型,而是它证明了: 不一定要从零训练最强底层模型,也可以在模型之上做出非常有价值的 harness。 AI 时代会有 foundation model company,也会有 harness company。 前者创造能力,后者把能力产品化、场景化、入口化。 后者一样可以很值钱。
中文
0
0
0
35
selflearner
selflearner@fttt007·
写个小游戏,花了7分钱,缓存命中95%。性价比太高了
selflearner tweet media
中文
0
0
0
31
selflearner
selflearner@fttt007·
刚刚一句话用reasonix很快实现了一个俄罗斯方块。 现在随随便便一个 agent,都能从一句需求做出这种俄罗斯方块小游戏了。 放在一年前,这还不是“随手能做”的事:要拆需求、写逻辑、调 UI、修 bug、跑起来。现在很多步骤已经被 agent 自动串起来了。 真正的变化不是“AI 会写代码”了,而是它开始能把一个小产品从想法推进到可运行状态。 这意味着未来很多软件原型、内部工具、小游戏、自动化流程,都会从“开发任务”变成“表达任务”。 你说清楚想要什么,agent 就开始施工。
selflearner tweet media
中文
0
0
0
57
el.cine
el.cine@EHuanglu·
codex made this using blender.. all by itself
English
89
128
2.1K
186.2K
selflearner
selflearner@fttt007·
@Jack_W_Lindsey This also feels like a useful engineering signal: for long-running agentic workflows, the core agent may benefit from staying on the same model. Not because of consciousness, but because post-training seems to induce model-specific behavioral signatures that affect coherence.
English
0
0
0
66
selflearner
selflearner@fttt007·
写得太真实了,看得我直叹气。 开源的底色就是信任和用爱发电,结果被一部分人当成短期收割的工具。Hunter连夜跑路、vLLM被迫加墙、天才少女被扒,这些事每出一件,后面所有认真做贡献的中国开发者都要多还一笔“信用债”。 短期看是聪明人占便宜,长期看是整个社区被一起惩罚。希望更多人能意识到:真正的开源红利,来自长期主义和口碑,而不是套利。
中文
1
0
33
5.3K
selflearner
selflearner@fttt007·
一家很有意思的公司
日本語
0
0
0
37
Orange AI
Orange AI@oran_ge·
AI 让软件开发的第一版变得极其容易 但是真正难的是后面的100个版本 而且越到后面越难怎么回事.... 软件工程依然有很多事情要做
中文
38
4
107
27.5K
Xu
Xu@xchase173294·
这就是又爱又恨吗
Xu tweet media
中文
1
0
0
126
selflearner
selflearner@fttt007·
@paulg 但能力往往不是均匀分布的,而且后天的教育环境也非常重要。
中文
0
0
0
6
Paul Graham
Paul Graham@paulg·
Some very simple math: if a country has 5% of the world's population and ability is evenly distributed, then 95% of the people who are best at any given thing will be born abroad.
English
957
605
11.9K
1.8M
selflearner
selflearner@fttt007·
@pankajkumar_dev Leaks are fun, but the real question is whether the next jump makes agentic coding/debugging meaningfully more reliable — not just more impressive in demos.
English
2
0
3
229
Pankaj Kumar
Pankaj Kumar@pankajkumar_dev·
GPT-5.6 Leaks : Coming in June - OpenAI researchers hinted that the model behind a recent major math breakthrough is already being used internally as a daily driver for debugging and technical work - Internal testing tags iris-alpha, ember-alpha, and beacon-alpha were spotted during development, potentially pointing toward multiple GPT-5.6 variants being tested - GPT-5.6 seems heavily focused on stronger multi-step reasoning, better agentic workflows, and improved frontend generation capabilities - Canary testing references are already appearing in developer environments, the same quiet rollout pattern seen before GPT-5.5 launched - Current leaks point toward two models arriving: GPT-5.6 and GPT-5.6 Pro - GPT-5.6, Sonnet 4.8, and Gemini 3.5 Pro are all expected in June, next month is looking like an AI festival
Pankaj Kumar tweet media
English
96
209
2.7K
277.3K