aki

459 posts

aki banner
aki

aki

@meta_fluid_

Hangzhou, China Katılım Ekim 2017
427 Takip Edilen59 Takipçiler
aki
aki@meta_fluid_·
@vista8 但凡懂一点ai都不会只用bm25…
中文
0
0
0
68
向阳乔木
向阳乔木@vista8·
读到一篇论文,解决如何查找、读论文的论文。。。 为了发现解读论文,他们搭建了5个agent的系统。 用BM25算法检索排序。 还搭了一个Vercel网站让大家使用,希望读论文的可以收藏下网址。 地址见评论区
向阳乔木 tweet media向阳乔木 tweet media
中文
5
9
50
6.7K
AlexSun
AlexSun@AlexSun530615·
@meta_fluid_ @myanTokenGeek 你这个回复挺暴露智商的,不过还是给你指个路,去查查AlphaEvolve解决了什么数学问题
中文
1
0
0
24
aki
aki@meta_fluid_·
@AlexSun530615 @myanTokenGeek 你是怎么判断数学好是大模型能力的表现的,难道就因为所谓中国人数学好吗🤣
中文
1
0
0
28
AlexSun
AlexSun@AlexSun530615·
@myanTokenGeek 前两名是OpenAI和Google,只要看看前沿数学能力就知道谁家的模型是真厉害了。Anthropic这种只想着靠代码和代理挣钱的,就别谈什么能力领先了。
中文
2
0
8
1.2K
aki retweetledi
aki
aki@meta_fluid_·
@geekplux vibe完了我去买Apple watch
中文
0
0
2
381
GeekPlux
GeekPlux@geekplux·
有没有哪一款 APP 可以记录每天久坐和站立的时长啊 🥹 搜了一圈没有满意的,是不是该 vibe 一个了 🥹
中文
23
0
19
21.2K
aki
aki@meta_fluid_·
@tualatrix 今天有点雾哇,湿度略大
中文
0
0
0
57
图拉鼎
图拉鼎@tualatrix·
今天出门,娃坐车上短暂感受了一下春光,之前几次出门都是阴雨天。
图拉鼎 tweet media
中文
8
0
51
5.8K
aki retweetledi
0n10n
0n10n@0xN10N·
这个推占据我的时间线一整天了,不过看大多数人都是在感叹它怎么『zero accuracy loss』地去压缩的,没有见到有人讲它背后的 Johnson-Lindenstrauss 定理,睡觉前简单写一下,应该能解答一些人的问题: 1. JL 定理牛逼在哪? 通常我们做降维(比如 PCA 等),一般是和数据相关的,算协方差、找主成分,这个过程重度依赖数据本身,且计算极慢。而 JL 定理非常暴力:不用管数据长什么样,只需要随便(符合正态分布,也没那么随便)构造一个投影矩阵,闭着眼睛把高维数据乘上去,降维后的数据点之间的L2相对距离基本和降维之前是一样的。 这个定理非常牛逼的一点在于,你能这么降维的幅度,跟你原来到底在多高的维度没关系,只取决于你能接受的误差,和所有数据的数量。 2. 『zero accuracy loss』指的是什么的 accuracy? 首先,把高精度的浮点数压缩这件事,绝对是有损的。但这篇博客里的“Zero Loss”指的是宏观的下游任务指标没有掉点。 也就是刚刚我们保证L2距离的前提下,降维带来的误差没怎么影响下游任务的表现。 3. 10000维的向量如果能降到1000维,那为什么不能继续降到100,10维? 这涉及到算法复杂度的“物理下界”。你能从 10000 降到 1000,是因为原来的高维空间太“空旷”了,数据其实高度集中在一个低维流形上,你挤掉的只是“水分”。 但是,JL 定理要求:降维后的目标维度,必须跟“数据点数量的对数 (log N)”成正比,跟“你允许的误差平方”成反比。这也符合压缩越多信息损失越大误差越大的直觉,只不过我们可以做到在可容忍的误差范围内做到最好。 JL定理的证明只涉及到本科的数学知识,建议没看过的人可以都去看看。它还有一些稀疏版本和其他度量下的变体,都挺有意思的,这里空白太小,我写不下。 晚安。
Google Research@GoogleResearch

Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: goo.gle/4bsq2qI

中文
13
36
215
34.2K
aki
aki@meta_fluid_·
@tualatrix 出太阳了,空气虽然没那么好,但也没那么坏,可以去简单遛一下娃
中文
0
0
1
89
图拉鼎
图拉鼎@tualatrix·
终于出太阳了🌞
图拉鼎 tweet media
中文
7
0
30
5.1K
aki
aki@meta_fluid_·
@tutulifestyle 赶紧搜了下发现泰版爱疯视频还在b站有
中文
0
0
0
638
TuTu生活志
TuTu生活志@tutulifestyle·
之前很多人都说我钩子歪,还去网信办举报过我,让我这次都想了下何以幸存。其实,我很早之前就在B站预防性下架过很多轮视频,大多是涉及到网络自由方面的...早年间B站是订阅增长最快的,但有次我吐槽了一下《流浪地球》被网暴,让我意识到如果有不正确内核被挖坟是早晚的事情,所以后来一直用过得去就行的标准在维护频道。导致了今天有胜于无,无也有备的稳定心态。 我顺带打开抖音创作者后台,发现审核一栏中“未通过”的视频已经达到30个,全部都是先发布后被审,也就是说这些内容要么是被举报了,要么当时没问题,但之后的尺度收紧,被回溯判定了,这几个月突然有很大的增长。给大家看几个: 1️⃣折腾 OpenClaw 崩溃时刻(不适宜公开):这是唯一一个发不出来的视频,可能里面提及翻墙 / 云端绕过限制等。 2️⃣泰版iPhone 17 Pro Max(不适宜公开):猜想是因为提及国际版 eSIM 功能。 3️⃣用Claude Code开发工具(不适宜公开):这就是纯分享使用过程,没提翻墙没提付款渠道。 4️⃣Unifi U7 Pro / WiFi 7(不适宜公开):只是单纯展示硬件性能和测试了下。 剩下的二十几个是 2022~2019 年发出来的老视频,内容涵盖小主机、NAS、装机、音箱、充电坞、DIY、箍牙、游记…从数码到生活,实在找不到任何共通点。现在能看到的结果分别是:1️⃣禁止播放、2️⃣限制自己可见。没有申诉途径,就是一种黑箱处理,其实就算有我也懒得申诉了,因为不知道是我箍的哪颗牙齿歪了,还是DIY的姿势不正确... 我之前一直以为审核是一个静态的东西,只要当时通过后续就没有问题了。但现在看来审查其实是一个动态的上查三代过程,类似吃鸡游戏里的毒圈机制,随着时间推进,可以活动的范围会不停缩小,超出圈外就会立即死亡。反正范围一直在,只是你不知道它什么时候又小了一圈。当在这个毒圈内闪转腾挪时,就应该意识到,这个游戏一开始就不值得参与。
中文
71
25
326
42.9K
aki
aki@meta_fluid_·
@Jiaxi_Cui 给他arxiv论文链接也有一定概率搞错,ChatGPT就不会....挺难绷的....给他音频他也能扯一大堆,后来发现根本没这个能力
中文
0
0
3
678
Panda
Panda@Jiaxi_Cui·
Gemini 的幻觉率一如既往的高,karpathy 的采访视频能说成是刻滑教程
Panda tweet mediaPanda tweet media
中文
21
0
81
31.1K
aki retweetledi
凡人小北
凡人小北@frxiaobei·
用 ChatGPT 的学习模式把这篇 paper 过了一遍,有个判断越来越清晰: 代码智能的问题,已经开始从模型大小迁移到信息有没有被用对 字节、阿里、腾讯 + 高校 50 多个研究者这篇综述,把 code LLM 这两年的核心问题基本梳了一遍。 里面有几个挺反直觉的点: 1. 小模型 + 对的 RL,能打大模型 2. 百万 token 上下文,很多信息在中间直接消失 3. Python 反而更难学,动态类型在放大不确定性 4. 对齐开始明显压制代码能力 这几个点看起来分散,其但都在说现在的上下文已经可以装下足够的代码量了,但是还用不好 现在大家都在卷 context length,但 lost in the middle 这种最基础的问题还没解。 再长的上下文,如果注意力和检索没做好,那也只是更大的噪声池。 某种程度上,我们在用堆硬件的方式,试图解决一个信息调度的问题。 所以必然的结果出现了,最近涌现出一批在做 coding agent harness 的团队。 大家不约而同的都在补这一层:怎么能更稳定的获取信息,用对了,然后再反馈回去,形成最终的闭环。
中文
11
4
67
10.9K
aki retweetledi
Mayank Pratap Singh
Mayank Pratap Singh@Mayank_022·
𝐕𝐢𝐬𝐮𝐚𝐥 𝐛𝐥𝐨𝐠 on Vision Transformers is live. vizuaranewsletter.com/p/vision-trans… Learn how ViT works from the ground up, and fine-tune one on a real classification dataset. CNNs process images through small sliding filters. Each filter only sees a tiny local region, and the model has to stack many layers before distant parts of an image can even talk to each other. Vision Transformers threw that whole approach out. ViT chops an image into patches, treats each patch like a token, and runs self-attention across the full sequence. Every patch can attend to every other patch from the very first layer. No stacking required. That global view from layer one is what made ViT surpass CNNs on large-scale benchmarks. 𝐖𝐡𝐚𝐭 𝐭𝐡𝐞 𝐛𝐥𝐨𝐠 𝐜𝐨𝐯𝐞𝐫𝐬: - Introduction to Vision Transformers and comparison with CNNs - Adapting transformers to images: patch embeddings and flattening - Positional encodings in Vision Transformers - Encoder-only structure for classification - Benefits and drawbacks of ViT - Real-world applications of Vision Transformers - Hands-on: fine-tuning ViT for image classification The Image below shows Self-attention connects every pixel to every other pixel at once. Convolution only sees a small local window. That's why ViT captures things CNNs miss, like the optical illusion painting where distant patches form a hidden face. The architecture is simple. Split image into patches, flatten them into embeddings (like words in a sentence), run them through a Transformer encoder, and the class token collects info from all patches for the final prediction. Patch in, class out. Inside attention: each patch (query) compares itself to all other patches (keys), softmax gives attention weights, and the weighted sum of values produces a new representation aware of the full image, visualizes what the CLS token actually attends to through attention heatmaps. The second half of the blog is hands-on code. I fine-tuned ViT-Base from google (86M params) on the Oxford-IIIT Pet dataset, 37 breeds, ~7,400 images. 𝐁𝐥𝐨𝐠 𝐋𝐢𝐧𝐤 vizuaranewsletter.com/p/vision-trans… 𝐒𝐨𝐦𝐞 𝐑𝐞𝐬𝐨𝐮𝐫𝐜𝐞𝐬 Dr @sreedathpanat Videos on ViT ViT paper dissection youtube.com/watch?v=U_sdod… Build ViT from Scratch youtube.com/watch?v=ZRo74x… Original Paper arxiv.org/abs/2010.11929 Next up: demystifying Low-Rank Adaptation (LoRA) in PEFT! Follow me @Mayank_022 along for more deep learning insights, cool fine-tuning projects, and updates from the upcoming blog posts.
YouTube video
YouTube
YouTube video
YouTube
GIF
English
14
340
2.2K
86.1K
aki
aki@meta_fluid_·
@xiongchun007 有氧无氧一起做了 很健康啊
中文
0
0
0
59
程序员老熊
程序员老熊@xiongchun007·
大龄程序员周末干兼职补贴家用!5 块钱送一桶水,今天干了 26 单了,晚上加鸡腿🍗(ꈍںꈍ) 赚点小钱,不丢脸!
程序员老熊 tweet media
中文
219
12
702
120K
aki retweetledi
马东锡 NLP
马东锡 NLP@dongxi_nlp·
如果要为这周的 AI 发展一个关键词,那就是自主进化。 从 Meta-Evolution、AutoHarness、SkillNet、SkillCraft MiniMax-M2.7 等一系列工作可以看到,AI 正在走向自主发现,自主约束,自主学习新 skills,甚至完成模型级别的自我进化。 其中 SkillCraft 给我的启示非常大:我们不需要也不应该为了某一个任务去安装第三方 skills,而应该直接从 tool call 的实践中抽象,构建和复用新的 skills。 今天,用 MiniMax-M2.7 复现了 SkillCraft 关于发现新的 skills 的方法。 几个重要的步骤: Observer -> 观察 tool call Pattern -> 从 tool call 中归纳规律,生成新的 skill Save -> 保存新 skill Reuse ->遇到类似问题时,直接复用 skill,而不再重复tool call MiniMax-M2.7 非常出色的完成了这个任务! Kudos to @MiniMax_AI @SkylerMiao7 Kudos to 做自主进化的AI 研究员,what a week!
中文
11
59
388
76.1K
aki retweetledi
Avishay Cohen
Avishay Cohen@avishic·
Big day for @AnimaApp: @IBM has made a strategic investment in Anima 🎉 AI brings a new era for design and product, where code is the new canvas. Design is no longer a static asset. It's living, interactive code connected to real data. Let’s go 🤘 siliconangle.com/2026/02/05/ibm…
English
53
116
1.4K
4.4M
Areter
Areter@Areter19·
@youy1qwq 1)因为5和7互素,所以根据欧拉定理5^φ(7) ≡1 (mod 7)。 2)因为有6个正整数和7互质,所以φ(7)=6。 3)由(1)+(2)可得:5^6 ≡1 (mod 7)。 4)5^141=5^(23*6+3) ≡ 5^3 ≡ 125 ≡ 6 (mod 7) 5)由于今天是周一,所以6天后是周日
中文
2
0
12
2K
由依🍥
由依🍥@youy1qwq·
这题怎么做啊,二项式定理?
由依🍥 tweet media
中文
40
1
68
50.3K
aki retweetledi
Lucky Iyinbor
Lucky Iyinbor@Luckyballa·
Imagine if all computer graphics papers were published like this 🥹
English
16
70
1K
57.2K
aki
aki@meta_fluid_·
@geekplux 可能皮质醇水平有点高
中文
0
0
1
11
GeekPlux
GeekPlux@geekplux·
不知道是不是年纪大了,半夜醒来不管几点再也睡不着了。
中文
13
0
20
4.1K
aki
aki@meta_fluid_·
@ZHO_ZHO_ZHO “理想状态就是 UI 是随着需求/交互实时生成,而不再是固定模式”,这个在claude现在发布的generative ui里实现了,大佬还是有预见性啊
中文
0
0
1
39