
selflearner
214 posts

selflearner
@fttt007
AI builder | 科普视频制作 合作&咨询 +V:flat036
เข้าร่วม Haziran 2014
410 กำลังติดตาม25 ผู้ติดตาม
ทวีตที่ปักหมุด

人的时间和注意力都是有限的,关注 AI 不能平均用力。
我觉得更好的方式是:重点关注真正产生一手变化的人和组织。
一类是 OpenAI、Anthropic、Google DeepMind/Gemini 这类前沿公司,它们往往决定模型能力、产品形态和行业议题的方向。
一类是 DeepSeek、Qwen、Llama、Mistral 这类开源或更开放的阵营,它们分享更充分,也更容易让人理解技术路径和真实可用性。
同时也要关注一线研究员、工程师、开发者社区,而不是只看媒体解读和KOL情绪。
AI 信息太多,真正重要的不是每天刷新闻,而是建立自己的过滤系统:少看噪音,多看一手材料;少追热点,多追能力如何迁移到真实工作流。
中文

@MaxForAI TS:
前端
Agent orchestrator
tool schema
streaming
workflow runtime
用户交互
插件系统
API layer
Python:
模型实验
数据处理
RAG pipeline
eval
embedding
fine-tuning
离线任务
复杂计算
中文

昨天见了一个非常牛逼的Agent团队,我敢说在国内绝对是T0的级别(之前DPSK还找他们搞了点Agent数据)
刚好聊到了这两天推上吵得非常热闹的AI产品(Agent)要不要用Python的话题
他们Founder说的很直接:SB才在Agent项目里用Python🤣
TS适合100%Agent项目,主要有几个原因:
第一,Agent最终大多时候会在产品里。
不管你做的是Chat界面、工作流面板、浏览器插件、Copilot,还是IDE扩展、Slack/Discord/网页工具,TS天然离这些更近。
前端是TS,后端也是TS,中间的tool schema、事件流、UI状态都能共用一套类型。
如果你用Python那就会变成:
模型服务在Py、后端在Node、前端在TS
一份schema要复制三份
如果某个字段名大小写错了,你的Agent马上就给死给你看。
第二,Agent很依赖异步和事件流。
Agent不是一次请求一次回答这么简单。
它要边想边输出,边调用工具,边等用户确认,边更新UI,边处理取消、重试、超时、恢复。
TS/Node在事件驱动、stream、WebSocket、server-sent events这些场景里很顺。
Python当然也能做,但你会更容易感受到「这东西本来不是为这类Web产品链路长出来的」。
第三,类型系统对Agent很重要。
Agent真正容易炸的地方不是「模型不会说话」,而是工具参数错、返回结构错、状态字段错、上下文对象变形。
TS可以把很多东西提前卡住:
tool input/output、agent state、message format、UI事件、workflow node、permission object、external API response
这对Agent很关键,因为Agent系统里有大量JSON对象在飞来飞去。
第四,TS更适合做「Agent runtime」。
如果你做的是一个Agent框架、SDK、运行时、插件系统,TS优势更明显。
因为使用者往往要把它接进:
网页、后台服务、Electron、浏览器插件、VS Code插件、API route、serverless、edge runtime
这些地方TS生态更统一。
所以很多Agent infra选TS,不是因为Python不行,是因为它们要服务的使用场景更接近Web开发者和产品团队。
第五,AI应用现在其实是拼系统。
早期大家用Python,是因为AI=模型。
现在很多AI产品已经演化到包含LLM API、tool calling、database、vector store、browser automation、workflow、UI、billing、auth、analytics
这已经不是研究工程了,是产品工程。
互联网产品工程的主语长期就是JS/TS。
很无聊,但世界就是这么没品😮💨
但他也表示Python不会消失。
更合理的分工其实是:
Python做模型层、数据层、eval、embedding pipeline、离线任务、实验脚本。
TS做产品层、Agent编排层、前端交互层、插件层、用户可见的runtime。
所以你如果做一个Agent产品,你最好:
MVP前端+Agent orchestrator用TS。
涉及模型训练、数据处理、复杂检索、评测系统,再上Python。
聊了一下午,真的学了太多了
才知道自己之前对于Agent的认知到底有多浅薄🧎
中文

/simplify is back in the latest Claude Code update
It's now an alias for /code-review --fix
Which applies review findings to your working tree after the review, surfacing reuse, simplification, and efficiency suggestions
Going to be testing it over the next few days, will report back on how it goes 🫡
English

Elon better land a Cybertruck on the Moon soon.
Would be an insanely aesthetic move.

NASA@NASA
We have awarded @AstroLab_Space with a lunar terrain vehicle award. Their Crewed Lunar Vehicle is a rover designed to transport astronauts and supplies across the lunar surface. This vehicle will be deployed to the Moon by 2028 through our commercial lunar payload services initiative.
English

🚀 SGLang v0.5.12.post1 is live
This is a stability patch on top of v0.5.12, with 12 cherry-picks focused on DeepSeek V4, NIXL PD disaggregation, and Blackwell.
DeepSeek V4
🔸 Fixed V4-Pro garbled text on single-token decode (B200/B300)
🔸 Fixed EAGLE/MTP disagg decode crash at ~2000 reqs (SWA allocator)
🔸 Fixed NSA prefill context-parallel scheduler crash at startup
🔸 Fixed HiSparse + Compressor V2 accuracy (GSM8K 0.825 → 0.960)
🔸 Enabled PD disaggregation under pp_size > 1
🔸 Fixed V4-Flash dummy-load + FlashInfer mxfp4 illegal memory access in CUDA-graph capture
🔸 Fixed HiCache + SWA stale translation indices after cache rebuild
NIXL PD
🔸 Fixed aux-state transfer (send on is_last, expect state only when truthy)
Blackwell / B300
🔸 Defaulted nvidia-cutlass-dsl to cu13, fixing Qwen 3.5 crash on sm_103 in FlashAttention-4
Performance
🔸 Eliminated 20–40s cold-bucket stalls on DSV4 via MHC token-count prewarm
🔸 Cut V4-Pro JIT cost by precompiling DeepGEMM bf16/fp32 dispatch branch
Other
🔸 Fixed missing group arg in get_dp_buffer

English

Perplexity 是一家很有意思的 AI 公司:估值很高,但它并不是典型的 foundation model company。
这件事说明了一个很重要的趋势:
AI 时代,价值不只在底层模型,也在 harness。
底层模型当然重要,它像发动机。但用户真正感受到的,往往不是发动机参数,而是整辆车能不能开得快、稳、顺。
Perplexity 做的就是这层东西:
把搜索、网页抓取、信息排序、引用、多模型路由、答案生成、延迟控制、成本控制和产品体验,编排成一个新的 AI-native search 入口。
它也有面向搜索优化的自有模型,但它真正有意思的地方不在于“从零训练出最强底层模型”,而在于把模型能力变成了一个稳定、可信、可规模化的搜索产品。
这不是简单套壳。
简单套壳是把问题转发给模型;harness 是把模型、工具、数据、流程和体验组织起来,让能力真正落到场景里。
尤其在搜索这种场景中,用户要的不是“哪个模型回答了我”,而是:
答案够不够快,来源够不够清楚,结果够不够可信,体验能不能替代原来的搜索习惯。
所以 Perplexity 的价值不只是用了谁家的模型,而是它证明了:
不一定要从零训练最强底层模型,也可以在模型之上做出非常有价值的 harness。
AI 时代会有 foundation model company,也会有 harness company。
前者创造能力,后者把能力产品化、场景化、入口化。
后者一样可以很值钱。
中文

@Jack_W_Lindsey This also feels like a useful engineering signal: for long-running agentic workflows, the core agent may benefit from staying on the same model.
Not because of consciousness, but because post-training seems to induce model-specific behavioral signatures that affect coherence.
English

Evidence that post-training gives models a "self-recognition" capability, manifesting as higher confidence when continuing their own text than reading others' text. I think this opens up an exciting line of inquiry into the emergence of "selfhood" in models via post-training!

Asvin G@asving94
New Anthropic Fellows paper with Jack Lindsey on agency in LLMs! 🧵 Paper link: arxiv.org/abs/2605.25459
English

@pankajkumar_dev Leaks are fun, but the real question is whether the next jump makes agentic coding/debugging meaningfully more reliable — not just more impressive in demos.
English

GPT-5.6 Leaks : Coming in June
- OpenAI researchers hinted that the model behind a recent major math breakthrough is already being used internally as a daily driver for debugging and technical work
- Internal testing tags iris-alpha, ember-alpha, and beacon-alpha were spotted during development, potentially pointing toward multiple GPT-5.6 variants being tested
- GPT-5.6 seems heavily focused on stronger multi-step reasoning, better agentic workflows, and improved frontend generation capabilities
- Canary testing references are already appearing in developer environments, the same quiet rollout pattern seen before GPT-5.5 launched
- Current leaks point toward two models arriving: GPT-5.6 and GPT-5.6 Pro
- GPT-5.6, Sonnet 4.8, and Gemini 3.5 Pro are all expected in June, next month is looking like an AI festival

English











