eraera

2K posts

eraera

eraera

@eraera

A blackbox is a network of blackboxes, the world is one such blackbox.

Seattle Katılım Aralık 2006
226 Takip Edilen1.2K Takipçiler
Sabitlenmiş Tweet
eraera
eraera@eraera·
把这个最早的号捡回来继续用,之前实名的号因为说了点实话被人私下敲打了,真烦。
中文
3
0
11
6.1K
eraera
eraera@eraera·
@SkylerMiao7 if I read your graph correctly, the speedup came from utilizing the sparsity of the model, rather than from reduced KV size?
English
0
0
0
519
Skyler Miao
Skyler Miao@SkylerMiao7·
Something BIG is coming
Skyler Miao tweet media
English
154
252
2.5K
469.9K
莫小白 Monica
莫小白 Monica@monicawhite0913·
印度也是牛B的,居然想对苹果罚380亿美元,这次印度专门为了罚款修改法律,把基数改成全球营业额,这种操作闻所未闻 苹果2025年在印度营收才90亿美元,净利润仅3.6亿美元,却面临380亿的罚单,相当于要白干105年才能赚回来 苹果被指控的”苹果税”问题在欧盟、美国、韩国同样面临类似指控,并非印度独有的打压,印度这次借势收割属实牛B plus~
中文
282
45
926
429.8K
Andy Stewart
Andy Stewart@manateelazycat·
那段岁月好的地方我都写在博客里面了,今天给你们讲一讲为什么叫做一腔热血喂了狗 那8年,我真的是把我的青春和我的所有一切都投入进去了,每天工作16个小时以上 但是后面换来的是什么呢? 每天,CEO住在北京,跑来武汉,每个月都要批判我,跟我说我不适合当总经理。整个团队是我从0开始建的,我遇到了技术大佬,我都说大佬,我们开不起你的工资,所以我不骗你,你不用来了。我为公司付出了一切,这个老板却听信这些在北京喝茶的人,每天污蔑我 然后每次去北京开会,都像岳飞去朝廷开会一样的,欲加之罪,何患无辞。我每天工作16个小时,最后换来的就是什么呢?奸臣当道。每天换着法子恶心我。我一个研发的负责人、产品的负责人,然后有时候还跑销售和售前喝酒,一天喝三场,扣无数次喉咙,你们相信吗?最后被这帮人整的,说图标怎么画,都要跟总经办汇报,当时我是性情中人,我说去你妈的,我直接从总经办的群退了,我说你们爱怎么办怎么办吧 我记得2016年,有一个项目是全公司努力的项目。做操作系统的移植,工作量巨大。传统的企业不做个三年都做不出来,然后甲方只有半年。我们拼尽了一年,每天16个小时加班。做到最后,兄弟们都跟我说一句话,他说老王不要提加班费了,我不要了,我只想休息。就是这样一堆拿着白菜的钱,做白粉生意的兄弟,在坚持理想。然后CFO有一天跑到行政的前台说,定了一个规矩,晚于10点钟加班的不算加班。当时我路过。我直接停下来说,你说什么?你再说一遍,你敢不敢再说一遍?我说我们这帮人为了公司浴血奋战,你们在北京天天喝茶的人,定的什么狗屁规矩!? 我记得武汉发大水那一年,我每天出差,然后一个月被偷了三辆电动车。那天下大雨,我记得特别清楚。那时候没有车,也打不了车,我的电动车也没有。我就推着自行车和我老婆把我小孩推了两公里到幼儿园。我们仨淋得全湿,然后到幼儿园以后,我从书包里面拿的干净的衣服跟小孩换的衣服。我当时特别的悲伤,我就觉得我跟公司奋斗了这么多年,连保护家庭的基本条件都没有。所以当时我跟公司离职。然后这个狗屁的CEO跑来武汉我们家楼下的麦当劳,骗我老婆说,因为我是公司的核心高管和创始人,投资人规定公司的核心高管不能涨工资。我当时真他妈的善良啊,我和我老婆都相信了,哭着相信了,因为我们真的走投无路了,每个月都月光,每一个月呀。然后我现在出来创业,我发现只要你想给你同事涨薪水、发奖金,你有一万种方法,一万种方法可以给他们钱 这个CEO干的事情还没有完,我记得2017年,我依然去朝廷开会。他约我谈,说我的综合评价是50%,所以不涨工资。我说,我作为创始已经习惯了,这个不涨工资没关系,我能理解公司难处。但是你这个50%,你跟我说一说怎么来的,他说,你做产品是200%,但是你跟同级的沟通是30%,所以综合评价50% 我说,我跟哪个同级的沟通是30%?那些奸臣吗?那些每天在北京坐着喝茶,每天只会诋毁我,每天不知道干活,每天不知道服务客户,每天跟客户扯皮的人吗?我为什么要跟这些不是创业者的人好好沟通?我作为创始人,我就应该监督他们,他们都是我招聘的,现在你作为CEO,你不去看真实的情况,北京那帮渣渣每天在你耳朵边子嚼我坏话,你就相信了吗? 最后我走是什么原因?我可以给你们今天爆料一下,2018年1月份到3月份,我为了支持全国的销售,整整60天没有休息。有一天突然就发高烧了,烧到39度多,人都烧迷糊了。然后我周六爬起来,我说,哎呀,这个星期睡了两三天,没给公司干活。我说我周末起来加个班。然后就看到公司扣了我2000块钱,我为公司奋斗了8年呀,创始人呐,你们都不知道,那时候我的税前工资都不到1万5,每个月都月光,扣了2000块钱。我就去问行政,我说这2000块钱为什么要扣我的,行政的小姑娘不敢跟我说,她让我去问财务总监。我就去问财务总监,我说你为什么扣我2000块钱。财务总监说,因为你没有写周报。我当时就火大了,第一周报机器人是我开发的,第二,周报机器人,我没有勾我自己,我每周都写周报,只是周报机器人没勾我。然后你是总经办的群,我每次写周报都会自动通知你们。你每天都可以看到,你都可以看到,即使机器人没有发邮件,你每天都可以看到,你来恶心我。你最恶心的是,你上个月的总经办的PPT还写的是,作为创始团队,大家要互相信任,这就是你的信任吗? 那一天是2018年的春天,我大病初愈,我真的被这个总经办团队恶心透了。我觉得这个总经办团队赚钱能力不行,恶心人能力一流,关键CEO就是一个糊涂蛋,CTMD 所以那天我跟公司发了一个邮件,我说第一,我离职不干了,净身出户。第二,我今天就发一个邮政快递,算是正式通知你们,不管你们同不同意,一个月后我滚蛋 我走之前没有说过任何话,只是请大家吃了顿饭,也没说我要走,只是伪装成一次普普通通的团建。我走之前把所有兄弟们都安顿好了,保证我走了不会影响他们的工作。等一个月以后,我就突然就走了 马上快超出推特大V的篇幅限制了,最后一句话,一腔热血喂了狗
Mutse Young@mutse_young

@manateelazycat 老板,开播客讲讲那段岁月

中文
103
21
295
95.7K
eraera
eraera@eraera·
@LucretianDelta 大部分人都是复读机,你写个押韵的他们就开始干活了
中文
1
0
1
58
eraera
eraera@eraera·
@rinickzhou @IctyeP 你自己控制模型的话,seed/temperature都是你自己控制,那点伪随机数也是可以预测的
中文
0
0
0
79
eraera
eraera@eraera·
@Necokeine @IctyeP JIT的bytecode还是比较好看的,hotspot以后的优化会稍微难一点,也不是特别难。GC这个事情跟语言代码生成关系不是很大,属于附加的
中文
0
0
0
126
知识和历史的半兽
@IctyeP C还是很容易的,基本上稍微有点水平的,一句C语言写出来,大概知道下面的汇编是怎么样的。 我觉得比较可怕的是,以前一个搞Java的前辈,宣称说自己能够根据Java语句,大概知道底下汇编是怎么跑的,据说正确率还挺高,有六七成把握。
中文
2
0
3
1.6K
Max Lv
Max Lv@m0d8ye·
@iamai_omni 没有突破性算法的话 HBM 会一直是瓶颈
中文
3
0
12
2.9K
✧ 𝕀𝔸𝕄𝔸𝕀 ✧
在完全不考虑推理需求的情况下,如果只按 EpochAI 的 2030 年单次训练趋势反推:GPU 需求大概是当前年产能的 0.3–1.5 倍,HBM 是当前年供给的 0.4–0.8 倍。 但如果把现实中的 5–10 个 frontier lab 并发训练、推理集群、长上下文、agentic token explosion 放进去,2030 年合理的产业级压力更像是:GPU 需要当前产能的 2–5 倍,HBM 需要当前产能的 3–8 倍。
中文
43
3
34
10.2K
eraera
eraera@eraera·
@howlemont 我是INFP:integer -> floating point
English
0
0
0
58
Rainier
Rainier@mtrainier2020·
看到一个神奇的规律,每周一都没有观察到Whale。 我就很好奇,问这边的工作人员,为什么whale 周一不会出现呢? 难道whale也有vocation。 工作人员笑着跟我说: 因为我们周一没有人观测。所以没有数据。🤣。
Rainier tweet media
中文
3
1
48
11.9K
eraera
eraera@eraera·
@snowboat84 很有可能目前这点所谓智能,最后还就是一个解空间搜索😆
中文
0
0
1
179
snowboat
snowboat@snowboat84·
补充说明一下,关于AI涌现出来的那些现象,scaling law、emergence、双重下降、表征几何,目前相关讨论的论文已经汗牛充栋。但这里有一个很大的问题:他们都在用计算机科学家的方式思考,而不是物理学家的方式思考。 什么是计算机科学家的思维方式?看到一个现象,挑一组数学工具,做一个小实验,去凑解释,可能抓到一点,也可能没抓到。然后再换一个工具,换一组数据,再凑一次。你问他们什么叫做充分必要条件,他们是不管的。这不是科学,这是建模。 物理学的方法完全不同。从一堆纷乱的现象里,提炼出你认为最fundamental的那一组,把它理想化,建立一个孤立的、几乎不存在但概念上清晰的"理想系统"。然后在这个理想系统里把规律彻底搞清楚,最后才一步一步扩张到真实世界。 牛顿第一定律就是这样建立的:"不受力的物体永远保持匀速直线运动。"但这条定律不是随便在哪里都成立的。地球上不行,因为地球在自转;太阳系里也不行,因为整个太阳系在绕银河系中心运动;你在跑步、在转椅上、在加速车里,都不是好的参考系,因为它们都在加速。牛顿的处理方式是:只有相对于无限远的恒星天空,才存在一个"绝对参考系",定律在这里才严格成立。这是一个悬在半空的理想态,现实中无法到达,但概念上必须存在。所有真实的力学问题都是"相对于这个理想态的偏离",重力,离心力、科里奥利力、摩擦力,都是因为我们所在的参考系不是惯性系才产生的。 没有这个悬在半空的理想态,整个经典力学就建立不起来。 这就是为什么我要引入Cyber Space这个概念。把AI现象放在Cyber Space这个独立世界里,我们才能用物理学家的方式问问题:Cyber Space的"惯性参考系"是什么?什么是它的"理想气体"?什么是它的理想态,那个Space中几乎不存在、但概念上必须首先确立的起点? 这个问题目前没人在认真问。但只有问出这个问题,新的数学和新的理论才有出发点。否则我们就只能继续看着AI论文堆成山,每一篇都"差不多解释了一点",但永远建不起新的基础理论。
snowboat@snowboat84

今天讨论点硬核的。一个问题:AI用到了什么程度的数学? 从工具和模型本身看,AI用到的数学平均年龄150岁,绝大部分是19世纪中叶之前就有的:矩阵乘法、梯度下降、链式求导、傅里叶、内积、概率,大都是本科前两年的内容。 但AI涌现出的一些现象,目前最高深的数学都解释不了。我整理了几个排名靠前的: - Scaling Law:把模型做大、数据加多、算力堆够,模型的损失会沿着一条极其干净的幂律曲线下降,log-log 图上几乎是一条直线。一个有几千亿参数、内部高度非线性的庞然大物,宏观行为竟然如此有规律。为什么会这么规则,没人知道。 - Emergent Abilities:三位数加法、多步推理、写代码这些能力,小模型几乎无能为力,但是模型参数量越过某个阈值,模型变得足够大,模型突然就都会了。这在物理上和水变成水蒸气是同一类现象——相变。但水的相变有完整理论,AI 的“能力相变”什么模型都没有, - Double Descent:传统的统计学习理论告诉我们:模型越大越容易过拟合,测试误差应该先降后升。实际观察到的误差曲线是:先降、再升、然后继续往下降,最终掉到比经典理论的最优点更低的位置。一整套统计学习理论被大模型颠覆,为什么?没有公认解释。 - In-Context Learning:GPT-3之后出现的新现象。给模型几个例子,它不更新任何参数就能完成新任务。按理说"学习"必须改变参数,可大模型在推理过程中能现学现用。这意味着模型内部藏着某种我们看不见的"学习的学习"。数学上这是什么?也没人能说清楚。 - Representation Geometry:模型内部到底学到了什么?A社的可解释性研究发现了一个奇怪的现象:单个神经元同时编码了好几个互不相关的概念,比如同一个神经元既对"金门大桥"有反应,也对"日语"有反应,还对"DNA 序列"有反应。按理说一个维度只能表达一件事,但神经网络似乎找到了某种"叠加"技巧,在有限的维度里塞进了远超维度数的特征。 为什么会这样?没有数学能解释。 类比一下物理,十九世纪末的物理学主要靠微积分就够用了。但当时天空中飘着几朵"乌云":黑体辐射、光速实验,当时的理论解释不了。这几朵乌云后来炸出了量子力学和相对论,逼出了20世纪最新的数学(泛函分析、微分几何、数学结构化)。 AI现在的处境很像1900年的物理学:工具老得不能再老,结果好得超出预期,但留下了一堆解释不了的现象,现有的数学工具完全无能为力。 如果历史会押韵,这些“AI的乌云”很可能正是21世纪数学下一次大发展的引爆点。

中文
8
8
84
15.9K
eraera
eraera@eraera·
@turingbook 一个组说普通话就大惊小怪了,看看这个房间里面真正的大象
eraera tweet media
中文
4
0
60
3.4K
刘江/LIU Jiang
刘江/LIU Jiang@turingbook·
“我所在的组织(Facebook广告)90%是中国人,整个领导链一直到VP级别都是中国人。普通话是办公室的主要语言”……
Jeremy Bernier@jeremybernier

Meta was easily the most toxic company I've worked for. There's a reason the Chinese call it "Squid Game". Others refer to it as "Hunger Games" or "Lord of the Flies". I think they're all accurate. The company culture is basically every man/woman for themselves. The performance review process (PSC) not only doesn't incentivize helping others, if anything it actually discourages it since everyone is stack ranked against each other. Imagine working on a team where every 6 months, one of you is going to get axed. Of course it's going to become toxic. "Bottoms up" culture is a complete farce - it's just a way for leadership to offload accountability. The Tech Leads (TLs) have all the power - owning the relationships and tribal knowledge to gatekeep projects to their buddies. Managers are "people managers" with limited technical understanding, who basically aggregate TL feedback and create performance review packets to calibrate with other managers and IC7+. The takeaway is that your destiny is in the hands of the TLs, and TLs unlike managers have no responsibility for your career. There are no repercussions for unethical behavior. I've seen managers and TLs throw others under the bus and get away with it. The only mission bonding the company together is individual self-preservation. Save your own ass to survive for another stock vesting, and throw someone else under the bus if you need to. That's why layoffs rarely impact directors/VPs or tenured IC7+ despite the fact that they're paid by far the most. Even this recent mass layoff that was supposed to "flatten" managers layers barely affected directors/VPs/IC7+, and fell predominantly on M1s - the lowest rung of the management chain. The culture is extremely performative and focused on box ticking and optics. Everything is about PSC (the performance review system) and perception. This means tons of meetings, useless AI slop posts, and top-down initiatives that don't benefit anyone but maybe help tick off the impact box of some go-getter at the top. Impact is not enough - it has to have sufficient complexity. So complexity is added for complexity's sake. The org I was in (Facebook ads) is 90% Chinese, and the entire leadership chain up to the VP level is Chinese. Mandarin is the primary language at the office, except in official meetings with non-speakers. Chinese work culture is very different from American work culture, with 996 (9am-9pm, 6 days/week), top-down nature, emphasis on saving face (eg. don't question your superiors), and toxicity being quite common. Naturally when an org is completely dominated by a single ethnicity that's notorious for not integrating, elements from their work culture seep in. Of the layoffs I witnessed in this org, 3/4 were not Chinese (just to be clear, most Chinese are very kind so don't take this as an attack. But it is a reality that I think most people outside this company are completely unaware of, and I question if leadership is even aware despite the fact that we're talking about the company HQ) I had the most toxic manager of my life here. I watched him deliberately set up a new hire to fail, driving them to needing to see a psychiatrist for anxiety + depression, and getting them fired. Then he suddenly disappeared for 8 months, before leaving the company. I could go on and on, but this is already pretty long and I think you get the point. Yes there are a lot of great, kind people here. I managed to transfer out of my first team into a new team with a great manager where everyone was very smart, supportive, and hardworking. But the company has its Squid Game reputation for a reason. Company culture comes from the top. It seems leadership is either too removed to notice, or maybe don't really care anymore because I guess they already made their billions and us plebs are expendable these days.

中文
15
9
90
60.3K
柴郡🔔|Crypto+AI Plus
彼得·蒂尔表示,6 位 PayPal 创始人中有 4 位在小时候造过炸弹: “我不在那几个造炸弹的人之列。” “那是在深夜进行的一次十分离奇的对话。当时大家纷纷聊起,‘你上高中时都干了些什么?’‘我造了一颗炸弹。’‘我也造过。’” “选择创业的人身上往往带有一种非常极端的特质。创办一家公司本身就是一件极其疯狂的事情。” “但只要你迈出了创业这一步,你就绝不会希望把过度疯狂当成一种优良品质,因为这种疯狂同样也会毁掉你的事业。”
柴郡🔔|Crypto+AI Plus@0xCheshire

彼得·蒂尔表示,当他在 2008 年投资马斯克的 SpaceX 时,人们发邮件给他,庆幸自己没有投资 Founders Fund ,因为“任何投资像火箭这种疯狂事物的人,都不该涉足风险投资”。 “伟大的投资表面上看似疯狂,但实则不然。”

中文
16
7
36
30.2K
铁手
铁手@0427SMtieshou·
什么玩意?
中文
50
42
308
42.2K