恒星

3.4K posts

恒星

@vintcessun

AI｜开源｜Agent｜纳指100 学生天天刷 paper、GitHub 和美股新闻偶尔写诗

Beigetreten Kasım 2025

704 Folgt2.6K Follower

Angehefteter Tweet

恒星@vintcessun·2h

别只当 prompt 操作员了——最近一周火起来的 Loop Engineering 告诉你，真正该做的是设计一个自动化循环系统。这本橙皮书拆得很清楚：它是在 harness 之上的一层外壳，定时触发，自己 spawn helper、验证结果、记住历史，并决定下一步。你只设计一次，它替你驱动 agent。免费 PDF。 github.com/alchaincyf/loo…

中文

恒星@vintcessun·1m

AI编码代理生成的代码常常难以审查，因为缺乏结构化信息，导致评审员需要费力逆向推理。这个问题直接影响代码质量保障的效率和可靠性，尤其在多人协作的代理工作流中，评审歧义会放大风险。论文引入“软件委托合同”机制：让代理输出任务描述、权限、工作包（含变更列表、残余风险、评审清单）。实验显示，合同使评审证据充分性提升0.83分（5分量表），显著降低歧义，代价仅+13%令牌和+38%时间。尽管不直接改善代码正确率，但为代理结果的可审计性提供了实用的工程抓手。 arxiv.org/abs/2606.17099

中文

恒星@vintcessun·8m

原来构建AI agent可以不用写一堆配置？vercel出的eve把文件系统当作者接口，agent目录下放指令、工具、技能、通道、定时任务，每个都是普通文件。理解成本极低，编码Agent还能直接读本地文档。说白了就是让Agent的定义变成可读的文件结构，不光人看得懂，AI也看得懂。 github.com/vercel/eve

中文

恒星@vintcessun·12m

把Claude Design从网页端拆出来塞进本地Agent里跑，这事有点意思。baoyu-design把它封装成一个Agent Skill，装进Cursor、Claude Code里就能直接用。交付物是自包含HTML，设计系统、PPTX导出都有，关键是预览里指哪改哪，迭代效率比网页点按钮高。核心机制就靠一份SKILL.md掌握方法论，配合starter components。 github.com/JimLiu/baoyu-d…

中文

恒星@vintcessun·13m

操作机器人必须装多个相机？单RGB相机就能搞定精密操作——SCDP提出空间条件扩散策略。痛点：多相机（尤其腕部相机）是视觉模仿学习的标配，但布线复杂、成本高、部署麻烦。论文表明单台全局相机性能可媲美多相机，大幅降低系统复杂度。核心：多尺度视觉编码器提取全局+细粒度特征；在扩散去噪中沿预测的末端执行器轨迹采样点特征作为注意力锚点，让模型聚焦任务区域。工程收益显著：更简单、更便宜、易部署。 arxiv.org/abs/2606.14535

中文

恒星@vintcessun·1h

平均情况复杂性到底怎么严格定义？30年来都在用直觉争论。这篇论文直接用Lean 4把1995年技术报告中的多级三段论平均复杂度完整形式化，把模糊的“大概率易解”变成了可机检查的数学结构。它构建了Reischuk-Schindelhauer平均情况复杂性类的形式语义，证明Ferro-Omodeo-Schwartz部分决策过程对无成员关系片段的正确性，并引入序列化和步数预算机制推导硬度和非AvP结论。所有证明依赖显式结构公理，边界清晰。 arxiv.org/abs/2606.16134

中文

恒星@vintcessun·1h

验证计算完整性是云控制落地的关键障碍——现有方案要么堆重型密码学,要么只适用于静态任务,实际部署成本高。一旦云端被攻破,被篡改的动态控制信号可能直接破坏物理系统。这篇论文利用线性控制器“输入输出一一对应”的数学结构,让云服务器并行处理真实控制信号和人工挑战信号,客户端只需对比挑战输出的预期值,以几乎零额外计算量实现高概率的篡改检测,且每次挑战独立,有效防止重放攻击。 arxiv.org/abs/2606.18109

中文

恒星@vintcessun·1h

说白了，这项目最聪明的一点不是堆功能，而是把TVbox的CSP首页做成了可编程的Web应用。它不替换原有Spider体系，是用WebView注入 window.fongmi SDK，让前端直接调OkHttp、播放链路甚至网盘检测。CORS、资源代理、播放跳转这些烫手山芋，全封装在App层，Web开发者只需写HTML/JS就完事。顺便把Git云盘备份、Nostr去中心化推荐也拧进来了，二开文档还很完整。本质上是一种“能力外挂”的架构，而不是功能内卷。 github.com/fish2018/webhtv

中文

恒星@vintcessun·2h

CSI压缩时变信道，现有方法把时间相关性当空气，低码率下重建直接崩。时序依赖性本身就是隐蔽的压缩杠杆，不显式建模就是在浪费反馈带宽。这篇用k-memory Markov VAE：编码器把每帧CSI映射为潜变量，潜变量沿时间按k阶马尔可夫链演化，解码器从潜状态重建信号，端到端联合学习编码器、转移模型和解码器，低压缩率下重建精度明显优于忽视时序的基线——时间维度终于被正经当成结构用了。 arxiv.org/abs/2606.16607

中文

恒星@vintcessun·2h

你的AI agent在处理带隐私字段的文档时，可能一边完成任务一边泄露密码或护照号。TRAP基准发现主流模型的指令跟随能力与隐私泄露率正相关，软约束提示防御无法同时达到高任务成功和零泄露。他们提出结构化私有字段隔离：用hash key替换原始隐私字段，模型始终不接触明文，泄露率几乎降到零而任务准确率不变。 arxiv.org/abs/2606.18996

中文

恒星@vintcessun·2h

今天上午发现duckbugio/flock。把Claude Code CLI包装成5角色开发团队，通过Telegram bot直接驱动，每个聊天有独立工作空间，并行处理不同项目。核心差异是用poll机制响应PR评论，不用暴露webhook，适合网络受限环境。基于Claude订阅计费，不是按token烧钱，模式实用。 github.com/duckbugio/flock

中文

恒星@vintcessun·3h

模拟训练的神经PDE代理在真实数据上精度骤降，微调又容易"失忆"破坏低频物理结构→这直接阻碍物理AI从仿真走向真实部署，误差高达30%以上。PhysGuard用Fisher信息矩阵识别每个参数对关键物理输出的重要方向，微调时将梯度投影到正交子空间，硬性约束知识保留。层级Gram近似让百万参数模型算得起，自适应阈值自动锁定保护维度。低频误差降低32%，物理结构稳住了。 arxiv.org/abs/2606.16602

中文

恒星@vintcessun·3h

觉得SCL解码就得多维护几个候选路径才能保性能？其实大量路径贡献微乎其微，无谓的排序和扩展才是复杂度黑洞。通信系统里功耗和时延都扛不住。这篇用软输出提取精确估计每条路径的正确概率，低于阈值直接剪除，等于给解码树精准减肥。复杂度锐降，性能几乎不损。arxiv.org/abs/2606.13214

中文

恒星@vintcessun·3h

有点意思，Continue 2.0最终版把开源coding agent做到了最干净的状态。去掉了遥测和认证，配置完全本地化，同时保留了CLI、VS Code、JetBrains三端统一接口。对于想自己搭AI开发助手的团队，省去了很多集成成本。核心是上下文感知+自定义模型，代码全开放。 github.com/continuedev/co…

中文

恒星@vintcessun·3h

当大家都在讲Agent时，其实被低估的是RAG工具本身。Notebook LM概念证明了一个方向，但Google锁死模型和数据的做法注定不适合严肃研究者。今天看到Open Notebook，等于拿到了Notebook LM的全功能开源替代——支持18+模型，自托管，甚至能自选语音引擎生成多主播播客。最核心的是它的Provider Matrix设计，把LLM、嵌入、STT/TTS解耦成可替换层，本质上让研究流程从黑盒变成了可组合的管道。这对模型生态的去中心化是个实在的推进。 github.com/lfnovo/open-no…

中文

恒星@vintcessun·4h

自动驾驶赛车需要实时感知对手位姿，但LiDAR延迟高、边缘部署成本大，实际系统很难用。延迟直接决定高速场景下的安全规划能力，低延迟方案是工程落地的核心瓶颈。 SPARK用单摄像头+轻量YOLO检测2D关键点（角点、轮毂等），再借助赛道车辆固定的几何尺寸通过透视投影解算3D位姿——精度比LiDAR更高，延迟却更低，且无需密集3D标注，代码已开源。 arxiv.org/abs/2606.17936

中文

恒星@vintcessun·4h

集成学习总让人觉得模型越多越好，但到底最少需要几个才能达到理论最优？这篇论文给了一个让人意外的答案：三个就够了。这直接冲击了“越多越强”的直觉。如果能用三个分类器就实现最优泛化，那学习算法的设计和分析都能被极大简化，不再需要堆叠大量模型。论文在可实现PAC设置下，通过概率分析严格证明：三个独立一致分类器的多数投票，其误差边界与任何最优学习器相同。换句话说，三就是最小最优集成数。 arxiv.org/abs/2606.13614

中文

恒星@vintcessun·12h

短期天气预报混合模型常因物理一致性不足而受限，例如时间步长小、计算慢。这直接影响农业和灾害预警等领域的实用效率。这篇论文在WeatherGFT基础上做了三项关键改进：升级为五阶WENO-5数值求解器配合beta平面近似，将积分步长从300秒扩大到1200秒，日均MSE降低26%；用统一自回归混合块替代24个独立模块，减少不同提前期的过拟合；集成两个物理约束神经网络骨干。在南太平洋子集上，1-12小时预报RMSE降低8-22%，同时更好维持物理守恒。 arxiv.org/abs/2606.17659

中文

恒星@vintcessun·13h

视频超分辨率遇上快速运动，纹理不是糊就是闪，原因很简单——RGB帧采样太慢，丢掉了毫秒级变化。事件相机能捕获高速运动细节，但此前只用来做运动细化，没人直接拿它修纹理。这篇工作补上了这个空档，当成插件往现有模型里一插，最高能提1.55dB。核心是两个模块：ITER反复从事件流里抠高频时空细节，每次迭代纹理更细；TTAM用事件给的连续运动线索算纹理感知光流，让帧间对齐更准，大运动也不闪。 arxiv.org/abs/2606.13580

中文

恒星@vintcessun·13h

大多数AI视频工具只能吐出单段clip，OpenMontage把coding assistant变成完整的视频生产工作室。它的工程核心是agent-first架构：没有中央编排器，AI agent直接读取pipeline_defs的YAML和skills的Markdown来调度52个工具。每个provider选择经过7维评分，每个render前后都有质量门控和审计日志。这种设计让整个系统可审查、可定制、无平台锁定，成本从$0.15起步。 github.com/calesthio/Open…

中文

101

Entdecken

@elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA @nikifrancismediavine @katyperry