Marvin

2.4K posts

Marvin

@eeeelela

工程师，喜欢一点人文社科。有一辆小车。多多思考。

Katılım Şubat 2016

869 Takip Edilen176 Takipçiler

Marvin retweetledi

qinbafrank@qinbafrank·25 Nis

来读读论文，第一次从学术的角度明确了在处理阶段cpu占总延迟的比例在大幅度提高的论文，就是这篇佐治亚理工跟英特尔合作的论文，标题《理解、分析与优化代理AI执行：以CPU为中心的视角》论文摘要：代理型AI服务将基于大语言模型的单体推理转变为自主问题解决者，能够规划、调用工具、执行推理并动态适应环境。由于多样化的任务执行需求，此类服务严重依赖于异构的CPU–GPU系统，其中负责代理能力的大部分外部工具要么在CPU上运行，要么由CPU进行编排。为了更深入地理解其作用，本文旨在从一个很大程度上被忽视的、以CPU为中心的视角，来刻画和分析代理型AI工作负载所带来的系统瓶颈我们首先提出了对代理型AI执行的完整时间特征刻画，并选择了具有代表性的工作负载以捕捉其算法多样性。然后，我们对这些代表性工作负载进行运行时特征刻画，在两个不同的硬件系统上分析端到端延迟和吞吐量，以分别孤立出各自的架构瓶颈。基于对瓶颈的洞察，我们最后提出了两种调度优化方法，分别称为CPU感知的重叠微批处理和混合代理调度，分别应用于同质化和异构化的代理工作负载具体来说，这些方法旨在提高CPU-GPU并发利用率，同时减少异构执行中的资源倾斜分配。在两个硬件系统上的实验评估证明了CPU感知的重叠微批处理的有效性：在独立同质工作负载执行中，P50延迟降低高达1.7倍；在同质开环负载下，服务/总延迟降低高达3.9倍/1.8倍。此外，对于异构开环负载，混合代理调度在P50/P90分位数下可将少数请求类型的总延迟降低高达2.37倍/2.49倍

qinbafrank@qinbafrank

@mylifcc arxiv.org/pdf/2511.00739 乔治亚理工跟英特尔的合写的一篇报告有研究工具处理阶段cpu占总延迟比例。第二个我也没看到相关数据，

中文

166

34.9K

Marvin@eeeelela·24 Nis

无法平静下来

中文

Marvin@eeeelela·24 Nis

内心在煎熬，像刀子在心中搅动。别人羡慕的事情在我这如此痛苦，无法判断和抉择。

中文

Marvin retweetledi

Qwen@Alibaba_Qwen·22 Nis

🚀 Meet Qwen3.6-27B, our latest dense, open-source model, packing flagship-level coding power! Yes, 27B, and Qwen3.6-27B punches way above its weight. 👇 What's new: 🧠 Outstanding agentic coding — surpasses Qwen3.5-397B-A17B across all major coding benchmarks 💡 Strong reasoning across text & multimodal tasks 🔄 Supports thinking & non-thinking modes ✅ Apache 2.0 — fully open, fully yours Smaller model. Bigger results. Community's favorite. ❤️ We can't wait to see what you build with Qwen3.6-27B! 👀 🔗👇 Blog: qwen.ai/blog?id=qwen3.… Qwen Studio: chat.qwen.ai/?models=qwen3.… Github: github.com/QwenLM/Qwen3.6 Hugging Face: huggingface.co/Qwen/Qwen3.6-2… huggingface.co/Qwen/Qwen3.6-2… ModelScope: modelscope.cn/models/Qwen/Qw… modelscope.cn/models/Qwen/Qw…

English

522

1.7K

12.5K

3.6M

Marvin retweetledi

Jeff Bezos@JeffBezos·19 Nis

ZXX

11.5K

14.7K

205.3K

18.9M

Marvin@eeeelela·13 Nis

@andyz8818576155 很难理解你是如何道貌岸然评头论足的

中文

334

Andy O@andyz8818576155·13 Nis

中国A股已经被大资金玩坏了布伦特原油期货大涨7%,A股石油个股普跌! 真是奇葩啊.....😂 全球金融市场,独一份

中文

204

150.2K

Marvin retweetledi

二月花@hakai42038139·6 Nis

韩国人第一次吃到 #中国西瓜时的样子，尝了一口就甜哭了。目测这是吃的麒麟或8424，别哭了，别忘了感谢 #吴明珠奶奶。

中文

384

222.8K

Marvin@eeeelela·1 Nis

@xilihutu116 消息哪里开得

中文

446

mou@xilihutu116·1 Nis

国产EUV难度超过预期，时间有点延后。下半年进入商业验证。预计2027年下半年定型，2028年量产另外，国产EUV有2-3个路线，都跑的不错，可能都会推向市场。

中文

19.5K

Marvin@eeeelela·1 Nis

@Tz_2022 愚人节快乐

中文

Tz@Tz_2022·1 Nis

字节跳动宣布正式更名为“词元跳动”（TokenDance）重塑人类与AI交互新纪元发布时间：2026年4月1日发布地点：中国，北京发布机构：路边社北京，2026年4月1日 —— 全球领先的信息与科技公司字节跳动（ByteDance）今日正式宣布，公司将进行全面的品牌战略升级，即日起将公司名称正式更改为“词元跳动”（TokenDance）。此次更名旨在准确反映真实世界中人类与人工智能（AI）之间日益深刻的共生关系，并标志着公司核心战略向通用人工智能（AGI）时代的全面迈进。在过去的十余年中，“字节”（Byte）作为计算机信息存储与传输的基础单位，见证了公司在移动互联网时代的崛起，也代表了信息分发技术的黄金岁月。然而，随着大语言模型（LLM）和多模态生成式AI的爆发，人类计算的基石已经发生了根本性的范式转移。 “词元”（Token）是现代人工智能模型理解、处理和生成人类语言与思想的最小意义单位。从“字节”到“词元”的跨越，不仅是技术底层逻辑的迭代，更是公司哲学观的升华。词元跳动首席执行官在致全体员工的内部信中表示：“我们正处在一个人类认知与机器智能高度融合的历史节点。过去，我们通过处理‘字节’来连接人与信息；未来，我们将通过激发‘词元’来理解人类意图、扩展人类创造力，并重塑人机关系。‘词元跳动’代表着我们不再仅仅是信息的搬运工，而是人类与AI共同编织数字世界的舞蹈伙伴。” 配合此次更名，词元跳动（TokenDance）宣布了未来三大核心战略方向：从“信息分发”向“意图共创”转型：旗下的核心产品矩阵将全面引入深度重构的AI底层架构。未来的内容生态将不再单向依赖算法推荐，而是通过实时的“词元”交互，让用户与AI共同生成、演化和消费内容。构建“人机价值对齐”的计算平台：设立全新的“词元伦理与安全实验室”，确保在海量Token的生成与跳动中，AI的产出始终符合人类社会的道德直觉与真实世界的物理规律。赋能全行业的“词元化”升级：推出针对企业级的Token引擎，帮助各行各业在研发、生产、营销等环节实现从数字化向认知化的跨越。公司的新版Logo也于今日同步揭晓：原有的音符图形被解构为无数个代表Token的动态粒子，这些粒子在三维空间中不断聚合、重组，象征着语言大模型中信息的无尽生成与创意涌现。自2026年4月1日起，公司在全球范围内的官方网站、应用商店开发者名称、以及企业实体标识将陆续启动替换工作。公司财务状况、股权结构及现有用户的服务协议均不受此次更名影响。关于词元跳动（TokenDance）：词元跳动（原字节跳动）是一家致力于通过人工智能技术激发创造、丰富生活的全球科技公司。在AGI时代，我们以“Token”为基石，探索人类智能与机器智能的和谐共生，旗下拥有多款深受全球用户喜爱的现象级认知与内容互动平台。媒体联系人：词元跳动公共关系部 pr@tokendance.com

Orange AI@oran_ge

字节要被取代了，取代它的是 token。 Karpathy 昨天在推上回了 Python 之父 Guido 一句话： LLM = CPU，Agent = 操作系统内核。但他补了一个很关键的细节： LLM 处理的数据单位不是字节，是 token。这个操作系统的运行方式不是确定性的，而是统计性的。这是一种底层计算的范式转移。过去六十年，计算机的世界建立在字节上。一个字符 8 个 bit，精确，确定，不会出错。你写一个 1，存进去就是 1，读出来还是 1。整个互联网、所有软件、所有数据库，都建立在这种确定性上。现在 LLM 来了。它的基本单位是 token，不是字节。 token 是模糊的，一个词可能是一个 token，也可能被拆成两个。它的输出是概率性的，同一个输入跑两遍可能得到不同的结果。这就像从牛顿力学进入量子力学。精确让位于概率，确定让位于统计。 Karpathy 把 LLM 比作 CPU，Agent 比作操作系统内核。如果顺着这个类比往下推：传统计算机：CPU 处理字节 → 内核调度进程 → 操作系统服务用户 AI 时代：LLM 处理 token → Agent 编排任务 → AI OS 服务用户底层的数据单位变了，上面的一切都得跟着变。操作系统要重写，软件要重做，人和计算机的交互方式要重新设计。与其说是对上一代的升级，不如说是彻底换了轨道。字节的世界里，谁掌握更多的数据（字节）谁就赢。 token 的世界里，谁掌握更多的 token 谁就赢。字节的时代属于互联网，token 的时代属于 Agent。 BYTE ERA ➤ TOKEN ERA

中文

241

207.3K

Marvin retweetledi

猿子@Oo_Motoko·29 Mar

张雪机车820RR-RS，以领先近4秒的绝对优势拿下WSBK葡萄牙站冠军，全程碾压级领跑，杜卡迪拉爆缸了也没追上当年湖南卫视纪录片里的少年追梦成功了，牛逼👍🏽

中文

100

107

1.4K

281.7K

Marvin@eeeelela·29 Mar

@shaoxianduipai 这个人眼看就是下界总理了

中文

5.2K

京圈儿政经评论@shaoxianduipai·29 Mar

陈刚在全国人大会议上公开痛批前同事蓝天立会不会显得不太地道？完全不会！表面是批腐败，实际是剑指民族问题，来配合这次全国人大《民族团结进步促进法》的通过。壮族出身的蓝天立作为前广西自治区主席，有“壮王”之称。涉嫌走私稀土，贪腐和不忠诚往往是一体两面，陈刚的发言显然是受到更高层次授意…

中文

84.6K

Marvin retweetledi

Jianyang Gao@gaoj0017·27 Mar

The TurboQuant paper (ICLR 2026) contains serious issues in how it describes RaBitQ, including incorrect technical claims and misleading theory/experiment comparisons. We flagged these issues to the authors before submission. They acknowledged them, but chose not to fix them. The paper was later accepted and widely promoted by Google, reaching tens of millions of views. We’re speaking up now because once a misleading narrative spreads, it becomes much harder to correct. We’ve written a public comment on openreview (openreview.net/forum?id=tO3AS…). We would greatly appreciate your attention and help in sharing it.

Google Research@GoogleResearch

Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: goo.gle/4bsq2qI

English

976

6.5K

Marvin@eeeelela·25 Mar

@mengyan1234567 7