az

1.2K posts

az

az

@WenzhangYang

az

Katılım Aralık 2020
383 Takip Edilen467 Takipçiler
az
az@WenzhangYang·
@lemonhxmoe 这种明显ood的case肯定是写不好的
中文
0
0
1
305
LemonHX
LemonHX@lemonhxmoe·
虽然我盯4个agent同时在跑 虽然我3天干空copilot 但是不妨碍我觉得AI写代码能力还是一托,我不接受辩解,就算我给他写了 算法.md 它依旧能写错 比如说我现在在写multi shot delimited continuation lowering 到 SSA + heap,依旧给我写出UB,我发现还是因为我给他多加了一个单元测试😅
中文
6
0
27
39.4K
az
az@WenzhangYang·
应用型计算机研究写青基完全是浪费时间,有这个精力vibe coding搞个demo拉投资去不香吗?
中文
0
0
1
126
az
az@WenzhangYang·
@linexjlin 不如lecun的code world model
中文
0
1
1
134
Line
Line@linexjlin·
他们的做法相当于用一个有持续生成能力的 Transformer 做了一个图灵完备的 Wasm 解释器。 目前的整个流程是: 问题 -> 思考 -> 生成 wasm 原语程序 (这部分现在是传统 LLM 实现) wasm 原语程序 -> 只有 2 维注意力 Transformer 模型 (这个是高效的关键,通常注意力维度有几千维) -> 通过生成 token 的方式执行代码 (他们这个项目已经实现的) 这个基于 Transformer 的 Wasm 解释器是通过梯度下降获得的。 他们说未来可以考虑: - 将传统 Transformer 与 2D Transformer 结合起来, 做混合模型。 - 将 C 写的 Wasm 解释器源码翻译成权重
Christos Tzamos@ChristosTzamos

1/4 LLMs solve research grade math problems but struggle with basic calculations. We bridge this gap by turning them to computers. We built a computer INSIDE a transformer that can run programs for millions of steps in seconds solving even the hardest Sudokus with 100% accuracy

中文
3
6
57
11.1K
az
az@WenzhangYang·
@txyyss 通过 monad 写命令式程序也很方便
中文
0
0
0
289
Shengyi Wang
Shengyi Wang@txyyss·
我觉得 Lean 4 作为一个全功能编程语言被低估了。大家只看到它被数学家用来形式化数学概念和定理,没看到它本身是个很不错的编程语言。在我看来它是 Rocq + Haskell + Scheme 的集合体,类型系统强大到可以做验证,通过 monad 写命令式程序也很方便,还带有非常强大的宏系统可以方便写 DSL。
中文
10
5
75
27.8K
az
az@WenzhangYang·
@0xdeusyu 那是因为代码世界完全是人造的
中文
0
0
0
40
Rainman
Rainman@0xdeusyu·
今年都在喊“Agent 元年”,但真正落地还不错的,其实就一个——coding agent。 原因很简单:写代码这事天然有裁判——编译器、单测、CI、回归测试、diff。 所以 agent 能闭环、能自证、能迭代。 一旦离开“可验证环境”,很多 agent 就变成: 看起来会了,但你不敢给它权限。 (尤其是跨系统流程、运营、管理、跟人打交道这种) 所以我的翻译是: 不是“人人都有 agent”,而是能被做成「可验证 + 可回滚 + 可观测」的流程,会先被 agent 吃掉。 另外 Ilya 说“明年回归研究”,我理解也不是 scaling 结束了, 而是需要新的配方/范式,让东西更安全、更可靠、更能投产。 结论:明年别只看概念,得看自己去哪落地、做什么工作、哪个方向能闭环。 对我来说方向反而很清晰:agent 不一定要通用,但必须进可验证的世界——代码、IaC、K8s、运维/告警、policy、成本治理。谁能把 agent 上生产,谁就赢。
中文
9
20
174
41.9K
az
az@WenzhangYang·
Good for you, Quantum Compiler
English
0
0
2
298
az
az@WenzhangYang·
@skywind3000 ai现在稍微做点严肃的事就做不好,c2rust都还在做呢,更别说js和rust并发模型,标准库之类的差异了
中文
0
0
4
192
LIN WEI
LIN WEI@skywind3000·
话说都到现在了,AGI 神棍们怎么还没有一人提出用 AI 去重写翻译 TypeScript 编译器的代码呢?不就三个小时的时间么?神棍们只要花一晚上的时间重写出来,第二天就可以去微软把 Anders 老爹给炒鱿鱼了,我都提示到这里了,三小时一战成名,然后震惊世界,数不完的流量和美刀,不比天天推特上吹牛逼强?
LIN WEI@skywind3000

But it’s SAFE !!!

中文
18
8
129
35K
az
az@WenzhangYang·
@lidangzzz 大概率是看到宇树如日中天,急了……要么就是vc 给压力了
中文
0
0
0
481
lidang 立党 (劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人)
为了防止再来问我,我提前说。 稚晖君新发布的机器人,把一个运动控制,和一个VLM放在一个机器上面,两者并没有过多交集, 你可以理解为,一个big dog上面驮着一个设备,设备上连着头部的摄像头、麦克风、音箱,跑着一个VLM,同时在交互的时候会指挥big dog进行一些简单的情绪动作。 没什么新东西。
lidang 立党 (劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人) tweet media
中文
26
5
139
115K
az
az@WenzhangYang·
@JXQNHZr1yUAj5Be 弹窗卡住不让点,线性化不了代码,还化不了用户?😀
中文
0
0
1
46
az
az@WenzhangYang·
@lidangzzz 确实,我第一个排除7
中文
0
0
0
420
lidang 立党 (劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人)
总有人企图道德绑架中国的VC,说投资人都是傻逼,不懂远视,投不出来中国的OpenAI。 假如你是投资人,2015年,手里1亿的现金,你会投哪个? 1. 滴滴,让5亿中国人共享打车; 2. 抖音/快手,让5亿中国人刷短视频; 3. 蜜雪冰城,让10亿中国人喝到廉价柠檬水; 4. 深圳的商业地产,保守估计能涨5倍; 5. 富途,让5000万股民炒上美股; 6. 嘉立创,为全球电子厂画PCB; 7. 某AI,自称能改变人类100年,在北京不断屯GPU,沿着NLP的进展(当年连BERT都没有,只有transformer),实现通用人工智能; 8. 某个游戏开发者,说“斗战神失败了,我会做一个更好的斗战神,相信我们,我们是真的热爱《西游记》”。 来,不谈道德绑架,假如你真有1个亿,你会投给哪几个项目?
中文
167
29
454
449.9K
蔡子博士Chris
蔡子博士Chris@caiziboshi·
DeepSeek 核心成员赵成钢,曾是衡水中学信息学竞赛班成员,获得CCFNOI2016银牌,后进入清华大学,三次获得世界大学生超算竞赛冠军!小镇做题家的胜利!欢迎来美国读博深造!
蔡子博士Chris tweet media蔡子博士Chris tweet media
中文
356
125
1.3K
698.7K
az
az@WenzhangYang·
@roifex @JXQNHZr1yUAj5Be 很难,有用的网络都太大了,要做量化,就算证出来bound对现实有没有用也不好说
中文
1
0
1
1.1K
roife
roife@roifex·
@JXQNHZr1yUAj5Be 我没一直关注这个的进展,不过直觉上我觉得这个是很 promising 的,而且可能是大规模铺开 verification 的最好方法
中文
1
0
2
601
az
az@WenzhangYang·
@cloudwu 这种benchmark有挺多的,ai4se的圈子玩好久了
中文
0
0
1
196
云风
云风@cloudwu·
我想能不能这样验证 ai 是不是真的有能力写程序:1. 把一个完整项目代码的注释全部去掉(如果有),然后让 AI 给每个函数加上注释,作者检查一下理解是否正确。2. 在仓库找到一个有 bug 的版本,让 ai 推导 bug 在哪里,和人的 bugfix 比对。
中文
21
2
63
19.5K
阿卡琳
阿卡琳@magic_akari·
把 ESLint 作为格式化工具,有个设计层面上的缺陷:它是由一系列规则构成。所以你看你会发现它的输出允许不满足幂等性,允许多次格式化结果不一致,甚至震荡。 这在正经 formatter 中被视为 bug 需要被修复。但是在 ESLint 中却被视为规则冲突,「不被当作一个问题」。
中文
4
2
29
3K
az
az@WenzhangYang·
@jian_w3ng 评价一下软工和网络吧ap大哥哥
中文
0
0
1
121
ChatGPT辽太郎
ChatGPT辽太郎@jian_w3ng·
我悟了!人工智能就是科研界的氪金手游,迭代更新快,但是咣咣砸钱;人机交互就是科研界的任天堂,有一定挑战,但是好玩受众广泛正反馈足;系统和架构就是科研界的魂,几万行代码下来一顿操作猛如虎,boss一套丝滑连招让你硬直直接毙掉🤦🏻‍♀️
中文
6
5
54
5.1K
az retweetledi
Mathias Payer
Mathias Payer@gannimo·
The review process is under threat and we must make it resilient against adversarial attacks. Proud to be part of @TheOfficialACM PROTECT where we'll look into securing academic reviewing sigsac.org/protect.html
English
3
9
92
12.1K
az retweetledi
Lionel Parreaux
Lionel Parreaux@LParreaux·
Today I talked at the IWACO workshop about my ideas on Modular Borrowing Without Ownership or Linear Types. You can check out the slides and recording on the website!
Lionel Parreaux tweet media
English
3
11
47
3.1K
az
az@WenzhangYang·
@vanhoefm Only early rejected submission will receive the reviews at this time?
English
1
0
1
240
Mathy Vanhoef
Mathy Vanhoef@vanhoefm·
Who else received surprisingly disappointing USENIX Security reviews..? 🙋‍♂️
English
3
0
7
1.9K