1.2K posts

az

@WenzhangYang

Katılım Aralık 2020

383 Takip Edilen467 Takipçiler

az@WenzhangYang·11 Nis

@lemonhxmoe 这种明显ood的case肯定是写不好的

中文

305

LemonHX@lemonhxmoe·10 Nis

虽然我盯4个agent同时在跑虽然我3天干空copilot 但是不妨碍我觉得AI写代码能力还是一托，我不接受辩解，就算我给他写了算法.md 它依旧能写错比如说我现在在写multi shot delimited continuation lowering 到 SSA + heap，依旧给我写出UB，我发现还是因为我给他多加了一个单元测试😅

中文

39.4K

az@WenzhangYang·13 Mar

应用型计算机研究写青基完全是浪费时间，有这个精力vibe coding搞个demo拉投资去不香吗？

中文

126

az@WenzhangYang·12 Mar

@linexjlin 不如lecun的code world model

中文

134

Line@linexjlin·12 Mar

他们的做法相当于用一个有持续生成能力的 Transformer 做了一个图灵完备的 Wasm 解释器。目前的整个流程是：问题 -> 思考 -> 生成 wasm 原语程序（这部分现在是传统 LLM 实现） wasm 原语程序 -> 只有 2 维注意力 Transformer 模型（这个是高效的关键，通常注意力维度有几千维） -> 通过生成 token 的方式执行代码（他们这个项目已经实现的）这个基于 Transformer 的 Wasm 解释器是通过梯度下降获得的。他们说未来可以考虑： - 将传统 Transformer 与 2D Transformer 结合起来，做混合模型。 - 将 C 写的 Wasm 解释器源码翻译成权重

Christos Tzamos@ChristosTzamos

1/4 LLMs solve research grade math problems but struggle with basic calculations. We bridge this gap by turning them to computers. We built a computer INSIDE a transformer that can run programs for millions of steps in seconds solving even the hardest Sudokus with 100% accuracy

中文

11.1K

az@WenzhangYang·3 Oca

@txyyss 通过 monad 写命令式程序也很方便

中文

289

Shengyi Wang@txyyss·3 Oca

我觉得 Lean 4 作为一个全功能编程语言被低估了。大家只看到它被数学家用来形式化数学概念和定理，没看到它本身是个很不错的编程语言。在我看来它是 Rocq + Haskell + Scheme 的集合体，类型系统强大到可以做验证，通过 monad 写命令式程序也很方便，还带有非常强大的宏系统可以方便写 DSL。

中文

27.8K

az@WenzhangYang·16 Ara

@0xdeusyu 那是因为代码世界完全是人造的

中文

Rainman@0xdeusyu·14 Ara

今年都在喊“Agent 元年”，但真正落地还不错的，其实就一个——coding agent。原因很简单：写代码这事天然有裁判——编译器、单测、CI、回归测试、diff。所以 agent 能闭环、能自证、能迭代。一旦离开“可验证环境”，很多 agent 就变成：看起来会了，但你不敢给它权限。（尤其是跨系统流程、运营、管理、跟人打交道这种）所以我的翻译是：不是“人人都有 agent”，而是能被做成「可验证 + 可回滚 + 可观测」的流程，会先被 agent 吃掉。另外 Ilya 说“明年回归研究”，我理解也不是 scaling 结束了，而是需要新的配方/范式，让东西更安全、更可靠、更能投产。结论：明年别只看概念，得看自己去哪落地、做什么工作、哪个方向能闭环。对我来说方向反而很清晰：agent 不一定要通用，但必须进可验证的世界——代码、IaC、K8s、运维/告警、policy、成本治理。谁能把 agent 上生产，谁就赢。

中文

174

41.9K

az@WenzhangYang·12 Nis

Good for you, Quantum Compiler

English

298

az@WenzhangYang·13 Mar

@skywind3000 ai现在稍微做点严肃的事就做不好，c2rust都还在做呢，更别说js和rust并发模型，标准库之类的差异了

中文

192

LIN WEI@skywind3000·12 Mar

话说都到现在了，AGI 神棍们怎么还没有一人提出用 AI 去重写翻译 TypeScript 编译器的代码呢？不就三个小时的时间么？神棍们只要花一晚上的时间重写出来，第二天就可以去微软把 Anders 老爹给炒鱿鱼了，我都提示到这里了，三小时一战成名，然后震惊世界，数不完的流量和美刀，不比天天推特上吹牛逼强？

LIN WEI@skywind3000

But it’s SAFE !!!

中文

129

35K

az@WenzhangYang·11 Mar

@lidangzzz 大概率是看到宇树如日中天，急了……要么就是vc 给压力了

中文

481

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）@lidangzzz·11 Mar

为了防止再来问我，我提前说。稚晖君新发布的机器人，把一个运动控制，和一个VLM放在一个机器上面，两者并没有过多交集，你可以理解为，一个big dog上面驮着一个设备，设备上连着头部的摄像头、麦克风、音箱，跑着一个VLM，同时在交互的时候会指挥big dog进行一些简单的情绪动作。没什么新东西。

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人） tweet media

中文

139

115K

az@WenzhangYang·16 Şub

@JXQNHZr1yUAj5Be 弹窗卡住不让点，线性化不了代码，还化不了用户？😀

中文

az@WenzhangYang·31 Oca

@lidangzzz 确实，我第一个排除7

中文

420

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）@lidangzzz·31 Oca

总有人企图道德绑架中国的VC，说投资人都是傻逼，不懂远视，投不出来中国的OpenAI。假如你是投资人，2015年，手里1亿的现金，你会投哪个？ 1. 滴滴，让5亿中国人共享打车； 2. 抖音/快手，让5亿中国人刷短视频； 3. 蜜雪冰城，让10亿中国人喝到廉价柠檬水； 4. 深圳的商业地产，保守估计能涨5倍； 5. 富途，让5000万股民炒上美股； 6. 嘉立创，为全球电子厂画PCB； 7. 某AI，自称能改变人类100年，在北京不断屯GPU，沿着NLP的进展（当年连BERT都没有，只有transformer），实现通用人工智能； 8. 某个游戏开发者，说“斗战神失败了，我会做一个更好的斗战神，相信我们，我们是真的热爱《西游记》”。来，不谈道德绑架，假如你真有1个亿，你会投给哪几个项目？

中文

167

454

449.9K

az@WenzhangYang·27 Oca

@caiziboshi 魔怔了吧

日本語

392

蔡子博士Chris@caiziboshi·26 Oca

DeepSeek 核心成员赵成钢，曾是衡水中学信息学竞赛班成员，获得CCFNOI2016银牌，后进入清华大学，三次获得世界大学生超算竞赛冠军！小镇做题家的胜利！欢迎来美国读博深造！

中文

356

125

1.3K

698.7K

az@WenzhangYang·12 Oca

@traveluniver @roifex @JXQNHZr1yUAj5Be 是的，现在ai辅助证明比验证网络前景是不是更明朗一点？

中文

184

西湖没有中秋@traveluniver·12 Oca

@WenzhangYang @roifex @JXQNHZr1yUAj5Be 你说的是α,β-crown验证神经网络吧，楼上的AI+verification应该是ai辅助证明，例如Kaiyu Yang在coq和lean4上做的

中文

115

az@WenzhangYang·11 Oca

@JXQNHZr1yUAj5Be 啊？我的，没仔细看上下文

中文

az@WenzhangYang·11 Oca

@roifex @JXQNHZr1yUAj5Be 很难，有用的网络都太大了，要做量化，就算证出来bound对现实有没有用也不好说

中文

1.1K

roife@roifex·11 Oca

@JXQNHZr1yUAj5Be 我没一直关注这个的进展，不过直觉上我觉得这个是很 promising 的，而且可能是大规模铺开 verification 的最好方法

中文

601

az@WenzhangYang·23 Ara

@cloudwu 这种benchmark有挺多的，ai4se的圈子玩好久了

中文

196

云风@cloudwu·22 Ara

我想能不能这样验证 ai 是不是真的有能力写程序：1. 把一个完整项目代码的注释全部去掉（如果有），然后让 AI 给每个函数加上注释，作者检查一下理解是否正确。2. 在仓库找到一个有 bug 的版本，让 ai 推导 bug 在哪里，和人的 bugfix 比对。

中文

19.5K

az@WenzhangYang·12 Ara

@guyingjie129 @magic_akari 还得上个EGraph😅

中文

Jade Gu (工业聚)@guyingjie129·11 Ara

@magic_akari 看起来内部没有采用 Equality Saturation 这类技术，arxiv.org/pdf/1012.1802

中文

217

阿卡琳@magic_akari·11 Ara

把 ESLint 作为格式化工具，有个设计层面上的缺陷：它是由一系列规则构成。所以你看你会发现它的输出允许不满足幂等性，允许多次格式化结果不一致，甚至震荡。这在正经 formatter 中被视为 bug 需要被修复。但是在 ESLint 中却被视为规则冲突，「不被当作一个问题」。

中文

az@WenzhangYang·10 Ara

@jian_w3ng 评价一下软工和网络吧ap大哥哥

中文

121

ChatGPT辽太郎@jian_w3ng·9 Ara

我悟了！人工智能就是科研界的氪金手游，迭代更新快，但是咣咣砸钱；人机交互就是科研界的任天堂，有一定挑战，但是好玩受众广泛正反馈足；系统和架构就是科研界的魂，几万行代码下来一顿操作猛如虎，boss一套丝滑连招让你硬直直接毙掉🤦🏻‍♀️

中文

5.1K

az retweetledi

Mathias Payer@gannimo·30 Eki

The review process is under threat and we must make it resilient against adversarial attacks. Proud to be part of @TheOfficialACM PROTECT where we'll look into securing academic reviewing sigsac.org/protect.html

English

12.1K

az retweetledi

Lionel Parreaux@LParreaux·22 Eki

Today I talked at the IWACO workshop about my ideas on Modular Borrowing Without Ownership or Linear Types. You can check out the slides and recording on the website!

English

3.1K

az@WenzhangYang·15 Eki

@vanhoefm Only early rejected submission will receive the reviews at this time?

English

240

Mathy Vanhoef@vanhoefm·15 Eki

Who else received surprisingly disappointing USENIX Security reviews..? 🙋‍♂️

English

1.9K

Keşfet

@lemonhxmoe @linexjlin @txyyss @0xdeusyu @skywind3000 @lidangzzz @JXQNHZr1yUAj5Be @caiziboshi