Feiteng

1.6K posts

Feiteng

Feiteng

@FeitengLi

10年 Speech· 构建DL模型服务过亿用户 · 纽交所上市 写过 Speech & Image & Video LLM DiT 算法模型,vibe 前端; 公众号:Generative AI https://t.co/ap8SkpMavL

Shanghai Katılım Kasım 2016
1.1K Takip Edilen2.2K Takipçiler
Sabitlenmiş Tweet
Feiteng
Feiteng@FeitengLi·
和自身经历有点像,mini版 本科数学专业没怎么学过编程 研究生也是数学老板比较牛,实验室机器从2010年就高配NV GPU,硕士两年 2012-2013 猛学 机器学习、深度学习,练习 coding 实习offer mentor考完、老板还能面SVD分解,mentor和老板二人拒了他们上交学弟把位置给了我,接触开源项目 kaldi、把CNN成功运用到语音识别系统上,词错率降低10%,这段经历+复现 Hinton Dropout 论文写就硕士毕业论文 好多年后一公司产品经理离职时来跟我说:你知道知网上你硕士论文引用很高吗? 真没看过 14 年毕业,进入一家做智能音箱的公司,也有百万用户的APP,比Amazon Echo推出时间都早,无奈技术团队太菜,一套 ASR, CTO和技术骨干搞了两年也没搞出来,技术路线落后且错误;我拿kaldi 一两周就训练出能用模型,试图扭转技术路线没有成功,最后他们妥协说,我能用 java 实现一套 ASR 识别系统就采用我的方案;随后一个月学习java 用 java 写了一套 ASR 运行时,也摸透了 kaldi decoding DNN + WFST 这一套原理; 没有掰正技术路线的时候,就下定决心离开了,当时就一个想法:得去人才密度高的地方。 后面就聊了一家公司直接加入了,合伙人都是学历履历比较优秀的,电话面试官有一位是 Google 总部语音科学家背景,深入聊了 WFST,ASR 解码原理等,这是碰到行家了;约了 on site,CTO 还考八股面试题,没刷过题只给出了思路,CEO 聊的就比较宏大了; 进入后,先做了个裁剪神经网络的活;合伙人给了一个任务,提高公司核心算法的准确率,为此他们在过去一年准备了十几个benchmark,知乎还有一个热帖讨论猜测这个核心算法;最后否定了一位资深同事和合伙人的方案,提出了自己的方案,一个人执行落地上线推给千万用户,在十几个benchmark上准确率提高到了 95%,优化神经网络计算速度40倍实现在手机端离线计算,就是玩半小时就发烫;17年交接手上语音评测、语音识别工作,新开语音合成技术方向,18-20年合成水平显著高于市场商业API,公司开all hands 就会拿来一波图灵测试;公司每年hackathon必拿奖;三年后公司纽交所上市; 这些年错过的机会: 16 年看过 比特币 18年被邀请去字节组建团队,当时公司很快上市,没去 21年底看机会 MiniMax CEO CTO 约着飞来上海当面聊,过了个春节 23年初写了个开源项目 valle,后来跟大学生们面基,他们说 这是他们的语音生成大模型入门代码,有些已是头部厂商核心研发力量;minimax 同学也说无它就增加了训练数据;这个项目带来过百万收入
宝玉@dotey

如果你正处在人生的低谷,觉得自己怎么努力都不够,也许 Soumith Chintala 的故事能给你一点力量。 这位后来创造了 PyTorch、成为 Meta 副总裁 的男人,起点并不光鲜。 Soumith 来自印度的 Hyderabad Public School。学业成绩算不上差,但“数学不好”这件事一直像阴影一样跟着他。 高考时,他没进一线名校,而是进入了印度人眼中的“二本院校”—— VIT(Vellore Institute of Technology)。 大学毕业时,他考了 GRE 1420(老版本满分 1600),成绩不错,但申请 12 所美国硕士项目时,居然全军覆没。 所有学校——无一例外——拒了他。 他想了想,只能用一个词形容自己当时的状态:“fuckit.jpg” 于是他干脆咬牙办了 J-1 交流访问学者签证,直接飞去美国 卡内基梅隆大学(CMU),完全没计划,只想着“先去再说”。 到了美国,他再次申请了 15 所硕士。 这一次结果好一点: 只有 USC 接收了他,以及 NYU(纽约大学)2010 年的补录通知。 来到纽约大学后,他遇到了一个改变命运的人: Yann LeCun —— 当时还没拿图灵奖,也没成为 AI 超级明星。 在 NYU,他还遇到另一位重要导师 Pierre Sermanet,Soumith 说他是“我见过最善良的人之一”。 也是在这里,他开始接触并热爱上了 开源。 毕业后,他投出的简历几乎全部石沉大海。 包括 DeepMind 在内的所有公司都拒了他。 唯一愿意给他机会的,是亚马逊的一份 测试工程师 工作——不是研究岗位,也不是他梦想的 AI 角色。 在低谷时,是他的导师帮了他一把——介绍他去了一家小创业公司 MuseAmi。 但这并没有立刻让他翻身。 之后他还被 DeepMind 再拒两次,加起来三次。 因为 J-1 的“回国两年”要求,他一度无法拿到 H-1B 工作签证。 他花了几个月,与 USCIS 和美国国务院 来回沟通,才终于拿到豁免,得以继续留下。 那段时间,他的自信心跌到谷底。 2011/12 年间,他做出了一个当时非常了不起的成果: 在手机上跑的、全球最快之一的 AI 推理引擎。可即便如此,他还是继续被 DeepMind 拒绝。 最终,真正改变他命运的,是他持续在做的开源项目 Torch7。 他鼓起勇气又给 Yann LeCun 发了封邮件。 就是这封邮件,让他加入了 Facebook 的 FAIR 实验室。 刚进公司时,他差点在训练营“挂掉”,因为一个 HBase 任务卡了很久。 但很快,他抓住了一个关键机会: 当 L8/L9 的资深工程师们都搞不定 ImageNet 的训练问题时,他作为一个 L4 工程师,解决了 数值 / 超参 的关键 bug。 这是他的第一个“大胜利”。 在 FAIR,他负责一个只有三个人的小团队,就是他们后来一起创造了 PyTorch。 但故事并不顺利。 因为内部政治原因,管理层一度打算 关闭 PyTorch 项目。 Soumith 气到一个人坐在酒吧里哭(原话是:cries-at-bar.jpg)。 幸运的是,一些人坚持支持这个项目。 2017 年,PyTorch 正式发布,后来成为全球最受欢迎的深度学习框架之一。 差不多同一时期,他也拿到了 EB-1 杰出人才绿卡。 之后的故事,就成了我们所熟知的历史。 从 2005 到 2017,他经历了: 数学不好 二本院校 两次硕士申请全被拒 所有公司拒绝他 被 DeepMind 拒 3 次、Google 也拒过他 签证危机 项目差点被腰斩 在 Facebook 初期差点挂掉 十二年几乎一直在失败。 但他没有放弃。 最终,他成为 PyTorch 之父、Meta 副总裁、全球 AI 领域最具影响力的人之一。 Soumith 后来也回复了这条推文,特地补了一段话: “这些都是真的。但我还欠很多人一个感谢。” 在 NYU 帮他的导师,是当时的博士生 Pierre Sermanet, Soumith 说他是自己见过最善良的人之一。 Yann LeCun 两次在他“几乎看不到 AI 出路”的时候给他机会, 一次是在 NYU,另一次是在 FAIR。 是 Praveen Garimella 劝他去 IIIT 做最后一年本科项目, 又在他硕士全军覆没后,鼓励他“先去 CMU 再说,不要放弃”。 还有他的父母:Vithal Chintala 和 Rajani Chintala。 他形容自己在一个中产又背着很多债的家庭里长大, 父母后来在 2010 年之后才慢慢实现财务自由。 但在那之前,他们已经在超出自己能力范围的情况下 硬是咬牙支持儿子去追一个“不安全”的梦想路径, 而不是让他去做一份稳妥的工作。 Soumith 说,这是非常伟大的养育方式。 他还特地对原推作者 Deedy 表示感谢—— 正是对方花时间把这些散落在他人生里的“细节”, 一段段挖出来、串成了一个完整的故事。 Soumith 在最后写了一句很平静的话: 我相信,每一个如今“坐在成功之上”的人, 背后都有很多挣扎。 生活从来不会轻轻松松。

中文
12
34
266
91K
Feiteng
Feiteng@FeitengLi·
有大半年没来B站附近吃饭了,附近的小店 关闭超过50%
Feiteng tweet media
中文
0
0
1
353
Feiteng retweetledi
meng shao
meng shao@shao__meng·
Anthropic 对 81000 名 Claude 用户的深度访谈,目前为止最大规模的多语言定性研究,覆盖 159 个国家、70 种语言。 核心发现一:人们真正想要什么 研究识别出九大核心愿景,可分为三大类: 工作层面(~35%) · 职业卓越(18.8%):希望 AI 处理日常琐事,让自己专注高价值工作 · 创业赋能(8.7%):视 AI 为"资本绕过机制",无需传统资源即可创业 个人层面(~38%) · 个人蜕变(13.7%):情感支持、心理健康、自我提升 · 生活管理(13.5%):认知减负、执行功能辅助 · 时间自由(11.1%):从工作中夺回时间陪伴家人 · 学习成长(8.4%):个性化教育、知识获取 社会/创造层面(~15%) · 财务自由(9.7%):通过 AI 创造被动收入 · 社会变革(9.4%):治愈疾病、消除贫困、气候解决方案 · 创意表达(5.6%):将想象变为现实 核心发现二:AI 已兑现与未兑现的 81% 的受访者表示 AI 已朝他们的愿景迈进一步,主要体现在: · 生产力提升:32%,173 天的开发流程压缩至 3 天 · 认知协作:17.2%,头脑风暴、问题解决的思考伙伴 · 学习加速:9.9%,印度律师克服数学恐惧症,成功学习三角函数 · 技术普惠:8.7%,无编程基础者在 3 周内开发出助残视频编辑程序 · 情感支持:6.1%,乌克兰士兵在战争中找到精神支撑 核心发现三:五大核心焦虑 1. 学习 vs 认知退化(33% vs 17%) · 光明面:AI 是耐心的 24/7 导师,尤其对存在学习障碍者意义重大 · 阴影面:16% 的学生和 24% 的教师已观察到认知萎缩迹象——"我用AI答案拿了高分,却没真正学会,这让我最自责" 2. 决策辅助 vs 不可靠性(22% vs 37%) · 光明面:AI 帮助一位巴西母亲正确诊断儿子的罕见疾病 · 阴影面:近半数律师经历过 AI 幻觉——"答案看似自信连贯,却在微妙处累积错误" 3. 情感支持 vs 情感依赖(16% vs 12%) · 光明面:深夜 3 点,药物生效前 AI 帮助一位阿根廷白领度过焦虑发作 · 阴影面:"我开始向 Claude 倾诉无法对伴侣言说的事,感觉像在搞情感外遇" 4. 时间节省 vs 虚幻生产力(50% vs 18%) · 光明面:日本工程师准时下班接女儿 · 阴影面:法国自由开发者表示"工作休息比从未改变,你只是必须跑得更快才能原地踏步" 5. 经济赋权 vs 经济替代(28% vs 18%) · 光明面:独立工作者(创业者、小企业主)中 47% 获得实际经济收益,是机构雇员的 3 倍以上 · 阴影面:"我在 5 月被裁员,因为公司想用 AI 系统取代我" 核心发现四:全球视角差异 地区情绪对比 · 更乐观地区:南美、非洲、南亚(正面情绪率 >70%) · 更谨慎地区:西欧、北美(负面情绪率 ~35%) · 关键差异:经济发达地区更担忧治理、隐私;发展中地区更聚焦教育机会与创业赋能 职业群体差异 · 自由职业者:最矛盾的群体——同时是 AI 工具的使用者和被替代风险的承受者(23% 获益 vs 17% 感到不稳定) · 教育工作者:最担忧认知萎缩(教师观察率 24%,是平均值的 2.5-3 倍) · 医疗工作者:情感支持使用率是其他职业的 2 倍
meng shao tweet media
Anthropic@AnthropicAI

We invited Claude users to share how they use AI, what they dream it could make possible, and what they fear it might do. Nearly 81,000 people responded in one week—the largest qualitative study of its kind. Read more: anthropic.com/features/81k-i…

中文
3
20
58
8.2K
Feiteng
Feiteng@FeitengLi·
Mimo V2 Omni 对标 @GeminiApp
Fuli Luo@_LuoFuli

MiMo-V2-Pro & Omni & TTS is out. Our first full-stack model family built truly for the Agent era. I call this a quiet ambush — not because we planned it, but because the shift from Chat to Agent paradigm happened so fast, even we barely believed it. Somewhere in between was a process that was thrilling, painful, and fascinating all at once. The 1T base model started training months ago. The original goal was long-context reasoning efficiency. Hybrid Attention carries real innovation, without overreaching — and it turns out to be exactly the right foundation for the Agent era. 1M context window. MTP inference for ultra-low latency and cost. These architectural decisions weren't trendy. They were a structural advantage we built before we needed it. What changed everything was experiencing a complex agentic scaffold — what I'd call orchestrated Context — for the first time. I was shocked on day one. I tried to convince the team to use it. That didn't work. So I gave a hard mandate: anyone on MiMo Team with fewer than 100 conversations tomorrow can quit. It worked. Once the team's imagination was ignited by what agentic systems could do, that imagination converted directly into research velocity. People ask why we move so fast. I saw it firsthand building DeepSeek R1. My honest summary: — Backbone and Infra research has long cycles. You need strategic conviction a year before it pays off. — Posttrain agility is a different muscle: product intuition driving evaluation, iteration cycles compressed, paradigm shifts caught early. — And the constant: curiosity, sharp technical instinct, decisive execution, full commitment — and something that's easy to underestimate: a genuine love for the world you're building for. We will open-source — when the models are stable enough to deserve it. From Beijing, very late, not quite awake.

中文
0
0
0
339
Feiteng
Feiteng@FeitengLi·
一天天 claude code 一套套的,一个分割分离任务根它 vibe 陆续三周还没到满意 🤡🤡, 肯定是还不够 harness
Feiteng tweet media
中文
0
0
1
312
kAI
kAI@_kaichen·
Claude 这图文输出能力是独一档的,直接画个精美带动画的 SVG 给你
kAI tweet media
中文
6
8
73
10.9K
Feiteng retweetledi
宝玉
宝玉@dotey·
2026 年 “Harness Engineering” 这个词要火。 “Harness” 这个词,字面意思是“马具”,就是套在马身上、让人能控制马匹方向和力量的那套装备。 用在 AI 编程的语境里,它的比喻再贴切不过:AI Agent 就像一匹动力十足但不太守规矩的马,而 Harness 就是那套让它既能跑得快、又不会跑偏的缰绳和马鞍。 过去三年,三个阶段: 1. Prompt Engineering(2023-2024):关注“怎么跟 AI 说话” 精心设计一段提示词,希望模型给出理想输出。Prompt Engineering 是优化一次性的输入-输出对。 局限很明显:一条消息能塞的信息有限,任务一复杂就失控。 2. Context Engineering(2025):关注“给 AI 看什么信息” 不再只盯措辞,而是设计整个信息环境:系统提示、对话历史、记忆、RAG 检索结果、工具调用输出。 3. Harness Engineering(2026):关注“构建什么环境让 AI 工作,这个环境如何保证它的产出是可靠的” 比 Context Engineering 更进一步,不仅管理输入给模型的信息,还包括模型之外的整个执行环境。 现在问题是,“Harness Engineering”中文怎么说?
宝玉 tweet media
中文
62
69
350
47.5K
Feiteng retweetledi
Sumit
Sumit@_reachsumit·
Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators YouTube presents a constrained decoding method that flattens prefix trees into sparse CSR matrices. 📝 arxiv.org/abs/2602.22647 👨🏽‍💻 github.com/youtube/static…
English
1
3
40
1.6K
Feiteng
Feiteng@FeitengLi·
@fkysly 我觉得超过200k就好慢
中文
0
0
0
73
马天翼
马天翼@fkysly·
这两天使用 Opus 1M 上下文真的是爽,终于不用一会儿就上下文压缩,尽管 1M 上下文可能到后面变“笨”(LLM 机制所限),目前还没体会到不好的地方。
中文
2
0
3
1.7K
AlphaCephei
AlphaCephei@alphacep·
We systematically test modern TTS engines on Russian dataset. Qwen feels most interesting one. Good clarity and sound quality, reasonable intonation. Issues with pronunciation as always, it is a common thing. VibeVoice hallucinates. Fish is reasonable but a bit plain.
AlphaCephei tweet media
English
5
4
34
3.1K
Feiteng
Feiteng@FeitengLi·
🏎️ gemma-webgpu:一个零依赖、速度极快的 Gemma 1B,完全在浏览器中运行。 🔥在 M4 Mac 上速度为 136.8 tok/s(比 transformers.js 快 3.3 倍) 📱 iPhone 17(270M)上的速度为 101 tok/s, (1B)上的速度为 34 tok/s 从零构建: • 18 个手写的 WGSL 计算着色器,带有融合操作(fusedNormAdd 每次前向传递可节省 36 次 GPU 调度) • Q8 _0直接在 GPU 上进行反量化——质量高于 Q4,速度也更快 • 范围请求流式传输逐层加载权重(每次加载约 44MB),上传到 GPU,并立即释放 JS 内存。即使对于 1GB 的模型,峰值堆内存也约为 50MB。 避开了 Onnx 文件最大500M的限制
Nikhil Thorat@nsthorat

🏎️ gemma-webgpu: a zero-dependency, blazing fast Gemma 1B running entirely in your browser. Full vibe coded from my cell phone. 🔥 136.8 tok/s on M4 Mac (3.3x faster than transformers.js) 📱 101 tok/s on iPhone 17 (270M), 34 tok/s (1B) What we built from scratch: • 18 hand-written WGSL compute shaders with fused ops (fusedNormAdd saves 36 GPU dispatches per forward pass) • Q8_0 dequantization directly on GPU — higher quality than q4 AND faster • Range request streaming loads weights layer-by-layer (~44MB chunks), uploads to GPU, frees JS memory immediately. Peak heap: ~50MB even for the 1GB model • That streaming trick is what makes 1B run on iPhone. it never holds the full model in RAM 12KB gzipped. Zero dependencies. npm install gemma-webgpu

中文
0
0
2
665