恒星

3.4K posts

恒星 banner
恒星

恒星

@vintcessun

AI|开源|Agent|纳指100 学生 天天刷 paper、GitHub 和美股新闻 偶尔写诗

Beigetreten Kasım 2025
704 Folgt2.6K Follower
Angehefteter Tweet
恒星
恒星@vintcessun·
别只当 prompt 操作员了——最近一周火起来的 Loop Engineering 告诉你,真正该做的是设计一个自动化循环系统。这本橙皮书拆得很清楚:它是在 harness 之上的一层外壳,定时触发,自己 spawn helper、验证结果、记住历史,并决定下一步。你只设计一次,它替你驱动 agent。免费 PDF。 github.com/alchaincyf/loo…
中文
0
0
1
46
恒星
恒星@vintcessun·
AI编码代理生成的代码常常难以审查,因为缺乏结构化信息,导致评审员需要费力逆向推理。这个问题直接影响代码质量保障的效率和可靠性,尤其在多人协作的代理工作流中,评审歧义会放大风险。论文引入“软件委托合同”机制:让代理输出任务描述、权限、工作包(含变更列表、残余风险、评审清单)。实验显示,合同使评审证据充分性提升0.83分(5分量表),显著降低歧义,代价仅+13%令牌和+38%时间。尽管不直接改善代码正确率,但为代理结果的可审计性提供了实用的工程抓手。 arxiv.org/abs/2606.17099
中文
0
0
0
3
恒星
恒星@vintcessun·
原来构建AI agent可以不用写一堆配置?vercel出的eve把文件系统当作者接口,agent目录下放指令、工具、技能、通道、定时任务,每个都是普通文件。理解成本极低,编码Agent还能直接读本地文档。说白了就是让Agent的定义变成可读的文件结构,不光人看得懂,AI也看得懂。 github.com/vercel/eve
中文
0
0
0
7
恒星
恒星@vintcessun·
把Claude Design从网页端拆出来塞进本地Agent里跑,这事有点意思。baoyu-design把它封装成一个Agent Skill,装进Cursor、Claude Code里就能直接用。交付物是自包含HTML,设计系统、PPTX导出都有,关键是预览里指哪改哪,迭代效率比网页点按钮高。核心机制就靠一份SKILL.md掌握方法论,配合starter components。 github.com/JimLiu/baoyu-d…
中文
0
0
0
7
恒星
恒星@vintcessun·
操作机器人必须装多个相机?单RGB相机就能搞定精密操作——SCDP提出空间条件扩散策略。痛点:多相机(尤其腕部相机)是视觉模仿学习的标配,但布线复杂、成本高、部署麻烦。论文表明单台全局相机性能可媲美多相机,大幅降低系统复杂度。核心:多尺度视觉编码器提取全局+细粒度特征;在扩散去噪中沿预测的末端执行器轨迹采样点特征作为注意力锚点,让模型聚焦任务区域。工程收益显著:更简单、更便宜、易部署。 arxiv.org/abs/2606.14535
中文
0
0
0
7
恒星
恒星@vintcessun·
平均情况复杂性到底怎么严格定义?30年来都在用直觉争论。这篇论文直接用Lean 4把1995年技术报告中的多级三段论平均复杂度完整形式化,把模糊的“大概率易解”变成了可机检查的数学结构。它构建了Reischuk-Schindelhauer平均情况复杂性类的形式语义,证明Ferro-Omodeo-Schwartz部分决策过程对无成员关系片段的正确性,并引入序列化和步数预算机制推导硬度和非AvP结论。所有证明依赖显式结构公理,边界清晰。 arxiv.org/abs/2606.16134
中文
0
0
2
36
恒星
恒星@vintcessun·
验证计算完整性是云控制落地的关键障碍——现有方案要么堆重型密码学,要么只适用于静态任务,实际部署成本高。一旦云端被攻破,被篡改的动态控制信号可能直接破坏物理系统。这篇论文利用线性控制器“输入输出一一对应”的数学结构,让云服务器并行处理真实控制信号和人工挑战信号,客户端只需对比挑战输出的预期值,以几乎零额外计算量实现高概率的篡改检测,且每次挑战独立,有效防止重放攻击。 arxiv.org/abs/2606.18109
中文
0
0
0
18
恒星
恒星@vintcessun·
说白了,这项目最聪明的一点不是堆功能,而是把TVbox的CSP首页做成了可编程的Web应用。它不替换原有Spider体系,是用WebView注入 window.fongmi SDK,让前端直接调OkHttp、播放链路甚至网盘检测。CORS、资源代理、播放跳转这些烫手山芋,全封装在App层,Web开发者只需写HTML/JS就完事。顺便把Git云盘备份、Nostr去中心化推荐也拧进来了,二开文档还很完整。本质上是一种“能力外挂”的架构,而不是功能内卷。 github.com/fish2018/webhtv
中文
0
0
0
18
恒星
恒星@vintcessun·
CSI压缩时变信道,现有方法把时间相关性当空气,低码率下重建直接崩。时序依赖性本身就是隐蔽的压缩杠杆,不显式建模就是在浪费反馈带宽。这篇用k-memory Markov VAE:编码器把每帧CSI映射为潜变量,潜变量沿时间按k阶马尔可夫链演化,解码器从潜状态重建信号,端到端联合学习编码器、转移模型和解码器,低压缩率下重建精度明显优于忽视时序的基线——时间维度终于被正经当成结构用了。 arxiv.org/abs/2606.16607
中文
0
0
0
29
恒星
恒星@vintcessun·
你的AI agent在处理带隐私字段的文档时,可能一边完成任务一边泄露密码或护照号。TRAP基准发现主流模型的指令跟随能力与隐私泄露率正相关,软约束提示防御无法同时达到高任务成功和零泄露。他们提出结构化私有字段隔离:用hash key替换原始隐私字段,模型始终不接触明文,泄露率几乎降到零而任务准确率不变。 arxiv.org/abs/2606.18996
中文
0
0
0
26
恒星
恒星@vintcessun·
今天上午发现duckbugio/flock。把Claude Code CLI包装成5角色开发团队,通过Telegram bot直接驱动,每个聊天有独立工作空间,并行处理不同项目。核心差异是用poll机制响应PR评论,不用暴露webhook,适合网络受限环境。基于Claude订阅计费,不是按token烧钱,模式实用。 github.com/duckbugio/flock
中文
0
0
0
25
恒星
恒星@vintcessun·
模拟训练的神经PDE代理在真实数据上精度骤降,微调又容易"失忆"破坏低频物理结构→这直接阻碍物理AI从仿真走向真实部署,误差高达30%以上。PhysGuard用Fisher信息矩阵识别每个参数对关键物理输出的重要方向,微调时将梯度投影到正交子空间,硬性约束知识保留。层级Gram近似让百万参数模型算得起,自适应阈值自动锁定保护维度。低频误差降低32%,物理结构稳住了。 arxiv.org/abs/2606.16602
中文
0
0
0
40
恒星
恒星@vintcessun·
觉得SCL解码就得多维护几个候选路径才能保性能?其实大量路径贡献微乎其微,无谓的排序和扩展才是复杂度黑洞。通信系统里功耗和时延都扛不住。这篇用软输出提取精确估计每条路径的正确概率,低于阈值直接剪除,等于给解码树精准减肥。复杂度锐降,性能几乎不损。arxiv.org/abs/2606.13214
中文
0
0
0
53
恒星
恒星@vintcessun·
有点意思,Continue 2.0最终版把开源coding agent做到了最干净的状态。去掉了遥测和认证,配置完全本地化,同时保留了CLI、VS Code、JetBrains三端统一接口。对于想自己搭AI开发助手的团队,省去了很多集成成本。核心是上下文感知+自定义模型,代码全开放。 github.com/continuedev/co…
中文
0
0
0
37
恒星
恒星@vintcessun·
当大家都在讲Agent时,其实被低估的是RAG工具本身。Notebook LM概念证明了一个方向,但Google锁死模型和数据的做法注定不适合严肃研究者。今天看到Open Notebook,等于拿到了Notebook LM的全功能开源替代——支持18+模型,自托管,甚至能自选语音引擎生成多主播播客。最核心的是它的Provider Matrix设计,把LLM、嵌入、STT/TTS解耦成可替换层,本质上让研究流程从黑盒变成了可组合的管道。这对模型生态的去中心化是个实在的推进。 github.com/lfnovo/open-no…
中文
0
0
1
55
恒星
恒星@vintcessun·
自动驾驶赛车需要实时感知对手位姿,但LiDAR延迟高、边缘部署成本大,实际系统很难用。 延迟直接决定高速场景下的安全规划能力,低延迟方案是工程落地的核心瓶颈。 SPARK用单摄像头+轻量YOLO检测2D关键点(角点、轮毂等),再借助赛道车辆固定的几何尺寸通过透视投影解算3D位姿——精度比LiDAR更高,延迟却更低,且无需密集3D标注,代码已开源。 arxiv.org/abs/2606.17936
中文
0
0
0
25
恒星
恒星@vintcessun·
集成学习总让人觉得模型越多越好,但到底最少需要几个才能达到理论最优?这篇论文给了一个让人意外的答案:三个就够了。 这直接冲击了“越多越强”的直觉。如果能用三个分类器就实现最优泛化,那学习算法的设计和分析都能被极大简化,不再需要堆叠大量模型。 论文在可实现PAC设置下,通过概率分析严格证明:三个独立一致分类器的多数投票,其误差边界与任何最优学习器相同。换句话说,三就是最小最优集成数。 arxiv.org/abs/2606.13614
中文
0
0
2
97
恒星
恒星@vintcessun·
短期天气预报混合模型常因物理一致性不足而受限,例如时间步长小、计算慢。这直接影响农业和灾害预警等领域的实用效率。这篇论文在WeatherGFT基础上做了三项关键改进:升级为五阶WENO-5数值求解器配合beta平面近似,将积分步长从300秒扩大到1200秒,日均MSE降低26%;用统一自回归混合块替代24个独立模块,减少不同提前期的过拟合;集成两个物理约束神经网络骨干。在南太平洋子集上,1-12小时预报RMSE降低8-22%,同时更好维持物理守恒。 arxiv.org/abs/2606.17659
中文
0
0
0
79
恒星
恒星@vintcessun·
视频超分辨率遇上快速运动,纹理不是糊就是闪,原因很简单——RGB帧采样太慢,丢掉了毫秒级变化。 事件相机能捕获高速运动细节,但此前只用来做运动细化,没人直接拿它修纹理。这篇工作补上了这个空档,当成插件往现有模型里一插,最高能提1.55dB。 核心是两个模块:ITER反复从事件流里抠高频时空细节,每次迭代纹理更细;TTAM用事件给的连续运动线索算纹理感知光流,让帧间对齐更准,大运动也不闪。 arxiv.org/abs/2606.13580
中文
0
0
0
56
恒星
恒星@vintcessun·
大多数AI视频工具只能吐出单段clip,OpenMontage把coding assistant变成完整的视频生产工作室。它的工程核心是agent-first架构:没有中央编排器,AI agent直接读取pipeline_defs的YAML和skills的Markdown来调度52个工具。每个provider选择经过7维评分,每个render前后都有质量门控和审计日志。这种设计让整个系统可审查、可定制、无平台锁定,成本从$0.15起步。 github.com/calesthio/Open…
中文
0
0
2
101