windyboy
822 posts

windyboy
@windysylph
CCF,DRL,RtCW,SY
23.12767,113.294753 Katılım Mayıs 2009
404 Takip Edilen65 Takipçiler

中国东方航空撞廊桥事件后续
有网友发布了相关数据,并表示:“制动系统完全失效。请查看故障信息……反推装置是唯一的救命稻草。五种冗余制动模式全部失效的情况几乎难以想象。
虽然每个轮组都是独立的,但所有系统却都出现了故障。空客公司面临着艰巨的任务。
我附上的最后两张图片是该系统的正常状态”



李老师不是你老师@whyyoutouzhele
5月2日,中国东方航空从成都双流到上海虹桥的MU5406 在上海虹桥机场进港时撞上了廊桥。 现场画面显示廊桥与飞机机翼多次发生触碰。 随后东航表示,事故系在靠近机位过程中,发生机械故障,事件具体原因正在调查中。对于此次事件深表歉意。
中文

@dachaoren 只要听到“老祖宗验证过”,我就知道骗子又来冲业绩了。😅 现在的骗术能不能稍微迭代一下?老祖宗表示这锅他不背。🙅♂️
中文

@realNyarime 实际上, 在数据包从你的手机传输到sim归属地运营商的过程中, 在IPX/GPX交换环节以前, 也就是基站和本地运营商是可以嗅听的. 虽然用了HTTPS/TLS这些加密了流量, 明文的SNI/DNS都是可以知道. 结合IMEI, 结合大数据, 你的手机硬件ID和曾经用过的卡历史记录, 嗯, 不可想象.
中文

新的《网络犯罪防治法》生效以后翻墙就是违法的了,因此我强烈推荐各位办理一张境外电话卡,使用国际漫游在中国大陆使用,尤其是港澳运营商的两地、三地套餐更为划算。
要想不出国办理,最方便的方式就是eSIM扫二维码直接下卡。不过大部分国行手机都不支持这个技术,因此配合可拔插实体eSIM卡(如eSTKme、9eSIM,使用优惠码naixi打9折),再把运营商提供的二维码添加到里面即可。
顺带一提,虽然eSTKme支持iPhone但我还是建议配个读卡器,正好过年套装也划算,用个优惠码抵运费。
对于运营商推荐,我个人建议是根据自身强度为准。
对于轻量用户没必要上台,随便一个之前推荐的一年期BananaTravelSIM(58HKD,10G后限速)、XPIN(9USD,20G亚太12国)、红茶移动RedteaGO(24.95USD,100GB中国大陆,优惠码SUJI0003领3刀)都能解决外网需求。
对于重度用户,就可以考虑上台港澳运营商的两地、三地套餐。老牌就中国移动香港(CMHK)和澳门电讯(CTM),他们也有一卡两号、家乡号托管之类的业务,甚至身处中国大陆也有SA漫游。就是需要跑线下门店、交押金,不过CTM可以SA的地方少,但带机计划买港版iPhone挺划算,并且港版目前已经支持eSIM,就无需再买可拔插eSIM了。不想跑香港门店,可以去开中国联通香港(CUniq HK)的月神卡,送内地号码。哪天不用了,随时取消套餐,每个月9HKD就能保号。
至于我自己,前几年拿着学生证到中国电信澳门(CTMO)老套餐还有半价优惠,三地5G每个月都是半价,我是188MOP那档所以每个月就93MOP,现在新的套餐只有寒暑假优惠。另外就是CMHK每个月68HKD的基础费用再加38HKD的自由圈A,覆盖两岸四地。最后是Google Fi,每个月大概45刀全球漫游,用100G后限速。总之我出国基本都用它,就不至于办当地卡了,也不知道为啥Google Voice要新用户上传身份证明,似乎在封车了。
我顺便推荐最近奶昔论坛超火的中国电信英国(CTExcel UK)作为流量卡,前阵子eSIM选项下掉了,不在英国论坛上也有介绍激活方式。
还是那句话,有些东西还是早开早享受,错过了就不会再有了,门槛肯定是越来越高。
即使总有一天eSIM也会像WiFi一样开放,除非那堵名叫GFW的墙拆掉,否则也没有那么快放开。这世界上最赚钱的方式就是“信息差”,当人们都知道外面的世界长什么样,就不会有人愿意花大钱当冤种了。




Yuen Long District, Hong Kong 🇭🇰 中文

一位投资人晚上向我展示他目前的AI使用情况。
他会自己写程序,一个月在AI订阅上花1000美元,从Claude、OpenAI、Gemini、Grok、Cursor等等全部顶配买一遍。他从七月开始游泳,用Cursor自己写了一整套数据检测程序,从距离、速度、心率、摆臂效率等等,极为详尽的数据分析,由程序自动生成。
他还有专门分析股票的专业程序,由多个模型配合;其中,需要实时分析的部分由Grok承担,因为Grok接入了实时社交媒体数据。每次看一家公司,他的AI程序会用巴菲特、彼得林奇、达里奥、芒格等传奇投资人的视角来给公司打分并进行分析。
他是程序员出身,私下仍是极客,比如私下他会改装自家音响,自己动手操作Cursor写码,给里面装上语音AI助手。
想想看,这两天Claude推出的Co-worker就是Anthropic程序员两天的机器代码做出来的产品,一推出就震撼全网。在人类向AGI转型的时代,可能不会操作AI coding tools就真的像文盲一样了,生产力是断崖式的不足。
作为一个文科生,今天我也有了去试试Cursor的动力。
中文

今天下午还没怎么关注这条新闻,到了晚上一看各种群,全炸了。
简单说,这个禁令给日本制造业和军工业带来的冲击,比当时中国遇到的《瓦森纳协定》还要严重,至于后面事态会如何演绎,真的值得期待。




外汇交易员@fxtrader
中国商务部决定加强两用物项对日本出口管制,禁止所有两用物项对日本军事用户、军事用途,以及一切有助于提升日本军事实力的其他最终用户用途出口。
中文

25 年最后一天, deepseek 奉上了新年礼物 mHC,又是新的网络结构
如果不负责任地猜一下,这种对底层架构的深度魔改,加上他们之前MoE的积累,没准DeepSeek V4真的要搞个大新闻。
DeepSeek是真的厉害,要搞就搞底层创新,搞完MoE,现在盯上Transformer最基础的下水道:残差连接(Residual Connection)。
1/ 为什么要搞mHC
自从ResNet出来以后,残差连接就是深度学习的标配。Identity Mapping(恒等映射)保证了信号能无损传到深层,模型才能堆得深。
24 年字节搞了个Hyper-Connections,觉得原来的残差流太细,信息不够跑。于是把残差流宽度扩大n倍(比如4倍),还加了各种可学习的线性映射矩阵(HH)来混合不同流的信息。这就好比把原来的单车道扩建成了四车道高速公路,不仅宽,车还能变道。
问题来了: 路是宽了,但车速控制不住了。原来那套完美的Identity Mapping属性被破坏了。当你层数一深,这些不受约束的矩阵乘起来,信号要么消失要么爆炸。图里HC跑到12k步loss直接起飞,梯度乱跳。显存访问开销也因为通道变宽暴增,撞上了Memory Wall。
2/ 核心思路:把矩阵关进“流形”里(Manifold Constraint)
这部分是论文的理论高光。DeepSeek这次的做法,给混合矩阵加约束,强制它必须是双随机矩阵(Doubly Stochastic Matrix)。
妙在哪里?1️⃣从几何角度,这相当于把信号的传递变成了一种“凸组合”。你可以把它想象成一种能量守恒系统,信号在层与层之间传递时,总量被严格控制住了,既不会凭空放大也不会莫名衰减。2️⃣ 双随机矩阵的谱范数≤1,意味着不会放大信号,梯度爆炸的风险大大降低。3️⃣多个双随机矩阵连乘,结果还是双随机矩阵,所以深层网络也能保持稳定
实现上用经典的Sinkhorn-Knopp算法,反复做行列归一化,迭代20次就够了。
3/ 工程优化
mHC显然需要大量对应的工程优化才能 work, 而且DeepSeek显然是要在实际生产环境里用这东西的,所以花了不少篇幅讲工程实现。
几个关键优化:Kernel Fusion(算子融合)、Recomputing(重计算)、DualPipe通信重叠(dualpipe 是 v3 提的) 等等。
最终效果:在n=4时,mHC只增加6.7%的训练时间开销。这个数字对于大规模训练来说是可以接受的。
主要看27B模型的结果:
loss比baseline降0.021,比HC稳
梯度范数平稳,HC则剧烈波动
BBH、DROP、GSM8K等benchmark全面超baseline,多数超HC
信号增益幅度从HC的约3000降到约1.6,三个数量级
在 scaling实验中还做了3B、9B的模型,说明这套方法在大模型上是通用的,且随着算力增加优势依然存在,期待在百 b 甚至 T 以上的模型效果
感觉又要搞一波大的(是不是今年春节,DeepSeek V4要来了?)
arxiv.org/pdf/2512.24880
#DeepSeek #DeepSeekV4 #模型结构 #transformer #AI大模型 #算法工程师 #Infra #论文 #深度学习 #深度学习和神经网络



中文












