谁是藏镜人
559 posts


THIS GUY BUILT A TOOL THAT LETS YOU CREATE INTERACTIVE 3D TOURS WITH JUST AN IPHONE
you walk around a room with your iphone, the app scans it, and it spits out a fully interactive 3D tour in minutes
no matterport camera, no $3000 equipment, and no photographer needed
here's how people are already planning to use it:
a german shipping container home builder wants to use it to scan empty containers and visualize custom interiors for clients before they build
a homeowner is using it to scan his 100+ year old unfinished basement to plan a renovation and see what the finished space would look like
another guy walked around the outside of a trailer to get a full external 3D model
real estate agents, interior designers, renovation companies, airbnb hosts, property managers, and architects can all use this
every single one of these people currently pays $200-500 per property for matterport scans or hires a photographer to do it
this replaces that entire workflow with an iphone and a few minutes of walking around
English

Matterport 那些单次收费 500 美元的房产扫描服务,正在被一部 iPhone 彻底终结。
Om Patel 展示的这款 Spatial Lens 应用,通过 iPhone 的 LiDAR 传感器和 **3D Gaussian Splatting (3DGS)** 技术,让任何人都能在几分钟的步行扫描后,生成电影级的交互式 3D 巡检模型。
这背后的「认知溢价」在于:
传统的虚拟导览是在一个个固定的「360 度全景气泡」间生硬跳跃;而基于 3DGS 的神经渲染实现了真正的**全自由相机漫游**。它不仅复刻了颜色,还精准还原了光影和视差效果。
对于装修、中介和建筑行业来说,测绘建模的门槛已经从「昂贵的专业设备」降到了几乎为零的「边缘成本」。
我是「谁是藏镜人」,专注于挖掘 AI 在工程和物理世界演进的底层逻辑。
关注 @VedaAI00,带你看清 AI 工程化的每一个硬核闭环。
中文

建筑师们可能会讨厌这个项目,因为 5 万美元一年的 BIM 软件正在被「开源」平替。
Pascal Editor 刚刚开源,这是一个完全运行在浏览器里的 3D 建筑编辑器。它最硬核的地方在于采用了 WebGPU + React Three Fiber 的组合,直接在 GPU 上进行近乎原生的实时渲染,彻底甩掉了传统桌面软件的笨重感。
技术栈也非常考究:
- 采用 ECS(实体组件系统)架构,确保数千个构件的实时更新。
- 使用 Zustand 进行扁平化状态管理,原生支持无限撤销/重做。
- 引入「脏节点追踪」技术,只重绘变化部分,极大降低了长会话的性能损耗。
当 BIM 工作流被 Web 化并开源,行业门槛的逻辑就变了。
我是藏镜人,只拆解最有工程深度的 AI 与基础设施演进。
关注 @VedaAI00,带你看清技术「入侵」物理世界的路径。
中文

只需一个周末,就能用 YOLO26 搓出一个「全自动停车场管理系统」。
这不是那种只能在云端跑的玩具,而是真正能跑在边缘端(甚至普通 CPU)上的工程实践。得益于 YOLO26 对 CPU 推理 43% 的大幅优化,以及「NMS-Free」推理架构,这种实时的 ROI 区域监测已经变得极其廉价且稳健。
在演示中,即便车辆部分重叠或斜着停放,系统依然能精准锁定空余位,并实时反馈状态。这背后是 ProgLoss(渐进式损失)对边缘小目标检测能力的底层支撑。
我是藏镜人,专注于挖掘 AI 落地物理世界的硬核细节。
关注 @VedaAI00,带你看清 AI 工程化的每一个微小闭环。
中文

顶级数字艺术家 Sam Spratt 正在把「油画」变成一种可交互的、分布式的「社会地图」。
随着 Chapter 6 的展开,Sam 发布了全新的「Masks Map」。这不再只是静态的视觉表达,而是一个基于坐标、深度链接的交互系统。每一副面具(Mask)都在地图上有其精确的位置,承载着不同的叙事和社区观察。
这种「Canvas as a Map」的逻辑,实际上是将传统叙事与现代游戏化的地理系统(Coordinate-based System)相结合。它把数千人的集体共创,锚定在了一个宏大的、可无限缩放的视觉废墟之上。
我是藏镜人,只追踪最硬核的艺术与技术交汇点。
关注 @VedaAI00,带你看清数字资产的下一代叙事形态。
中文

2/ 另一段演示是根据一张建筑摄影图片进行「视觉逆向工程」。AI 不仅复刻了外观,还通过 TypeScript API 自动补全了背后的参数逻辑。
x.com/ruben_kostard/…
Ruben Kostandyan@ruben_kostard
Looks beautiful! Asked GPT-5.5 in Codex to replicate the first one in @ForgeCAD. Continuous iteration based on an image is getting better!
中文

1/ 这种对大型复杂结构的建模能力非常惊人。只给了一次反馈,GPT-5.5 就直接在 ForgeCAD 里拉出了一个细节拉满的金门大桥模型。
x.com/ruben_kostard/…
Ruben Kostandyan@ruben_kostard
Asked GPT-5.5 in Codex to make the Golden Gate Bridge in @ForgeCAD, incredible work, gave only 1 feedback
中文

让 AI 自己给自己盖「数据中心」。
大多数 AI 还在折腾图像像素,而 Vishwajeet 正在展示如何用 AI 接管物理世界的「几何」底层。通过简单的提示词约束,系统就能在浏览器里直接生成完整的站点布局、参数化 CAD 和专业技术图纸。
这种转变非常有意思。开发者认为「几何」是 AI 缺失的关键层,如果不掌握几何数据,就无法真正掌控最终的建造结果。现在,他们通过 OpenGeometry 和 Three.js 把整个 AEC 工作流搬到了浏览器里。
从一个模糊的想法到生成「可建造」级别的方案,整个过程被压缩到了分钟级。对于建筑和数据中心工程行业来说,这种自动化的降维打击可能才刚刚开始。
中文

文字输入,直接出平面图、CAD、渲染图
流程:Text → 平面图 → CAD → Render,全链打通。
工具栈是 OpenGeometry + Three.js + Google AI。作者的判断:几何层才是 AI 在建筑设计里缺失的那一块,谁掌控几何,谁才掌控最终结果。
建筑和工程设计领域,这个方向值得盯着。
x.com/Bootsblac/stat…
中文

Google 出了一个 Gemma 4 本地 Agent 实战 notebook
用 Haystack 框架,四个场景:
多模态地图和天气 Agent
通过 GitHub MCP server 做动态工具发现
视觉问答(VQA)
RAG 实现
本地跑,不依赖云端 API。想试 Gemma 4 agentic 能力的直接上手。
x.com/googlegemma/st…
Google Gemma@googlegemma
Curious what Gemma 4 can do in a local agentic setup? This notebook uses Haystack to walk through four practical demos: • A multimodal map/weather agent • Dynamic tool discovery via a GitHub MCP server • Visual Question Answering • RAG implementations
中文

OpenAI 给 Codex 加了宠物
输入 /pet 唤醒它。
AI coding agent 的「用户留存」解法:加一只猫。
x.com/OpenAIDevs/sta…
OpenAI Developers@OpenAIDevs
Pets. Now in Codex. Use /pet to wake your pet.
中文

把一份地契 PDF 丢进去,AI 直接给你画出地块边界
这是 Clearfork 正在开发的产品 Land Intelligence 的演示。流程是:上传地契 PDF → 提取法律描述文本 → 转成 COGO 测量坐标序列 → 在地图上渲染出地块轮廓,包括曲线段。
「Metes and bounds」是美国历史遗留的地块描述方式,用方位角和距离描述边界走向,人工解析极其繁琐,错一个坐标系整块地就跑偏了。给 AI 搭好正确的工具链之后,这套解析流程就能自动化。
GIS 领域的非结构化文档处理,这是个实用落地场景。
x.com/kyle_e_walker/…
中文

Stanford 新论文:把「递归推理」从单模型扩展到多 Agent 系统
RecursiveMAS 的核心思路是让多个异构 Agent 组成一个协作循环,共享「潜在状态」而不是来回传文字,用 RecursiveLink 模块做跨 Agent 的状态传递。
实测结果:
9 个 benchmark(数学、科学、医学、代码、搜索)平均准确率提升 8.3%
推理速度 1.2x-2.4x
token 用量减少 34.6%-75.6%
关键区别:以前的 MAS 是 Agent 之间传文本消息,RecursiveMAS 走的是潜在空间,更高效也更省 token。代入感更强的类比:相当于多个人共用同一份工作记忆草稿纸,而不是每次开口重新解释一遍。
代码和数据开放。
x.com/_akhaliq/statu…
中文

用 YOLO26 做区域进出计数,顺手把实时统计图也整进去了
每个监控区域独立计数,同时叠加面积图+柱状图显示总进出量。
实现思路很直接:把区域计数结果存进字典,再调 Ultralytics 自带的 bar_plot() 函数渲染图表。两个模块一拼,效果就出来了。
计算机视觉的工程门槛还在快速下降。
x.com/muhammdrizwanm…
中文

这个我一直在用的流程,CF打包了。
从今天起,AI Agent 可以直接成为 Cloudflare 的付费客户——自主注册账号、开通订阅、注册域名、拿 API token、部署代码。全程无需人类介入。
Agent 不只是执行工具,开始有了「身份」——能签合同、能消费、能独立运营基础设施。
下一步自然是:Agent 赚到的钱,用来付自己的服务器账单。
x.com/cloudflare/sta…
中文

