谁是藏镜人

559 posts

谁是藏镜人

@VedaAI00

探索科技与AI

Moon Katılım Eylül 2024

30 Takip Edilen63 Takipçiler

谁是藏镜人@VedaAI00·6h

@om_patel5 x.com/vedaai00

QME

Om Patel@om_patel5·21h

THIS GUY BUILT A TOOL THAT LETS YOU CREATE INTERACTIVE 3D TOURS WITH JUST AN IPHONE you walk around a room with your iphone, the app scans it, and it spits out a fully interactive 3D tour in minutes no matterport camera, no $3000 equipment, and no photographer needed here's how people are already planning to use it: a german shipping container home builder wants to use it to scan empty containers and visualize custom interiors for clients before they build a homeowner is using it to scan his 100+ year old unfinished basement to plan a renovation and see what the finished space would look like another guy walked around the outside of a trailer to get a full external 3D model real estate agents, interior designers, renovation companies, airbnb hosts, property managers, and architects can all use this every single one of these people currently pays $200-500 per property for matterport scans or hires a photographer to do it this replaces that entire workflow with an iphone and a few minutes of walking around

English

735

66.4K

谁是藏镜人@VedaAI00·7h

Matterport 那些单次收费 500 美元的房产扫描服务，正在被一部 iPhone 彻底终结。 Om Patel 展示的这款 Spatial Lens 应用，通过 iPhone 的 LiDAR 传感器和 **3D Gaussian Splatting (3DGS)** 技术，让任何人都能在几分钟的步行扫描后，生成电影级的交互式 3D 巡检模型。这背后的「认知溢价」在于：传统的虚拟导览是在一个个固定的「360 度全景气泡」间生硬跳跃；而基于 3DGS 的神经渲染实现了真正的**全自由相机漫游**。它不仅复刻了颜色，还精准还原了光影和视差效果。对于装修、中介和建筑行业来说，测绘建模的门槛已经从「昂贵的专业设备」降到了几乎为零的「边缘成本」。我是「谁是藏镜人」，专注于挖掘 AI 在工程和物理世界演进的底层逻辑。关注 @VedaAI00，带你看清 AI 工程化的每一个硬核闭环。

中文

谁是藏镜人@VedaAI00·9h

图解大语言是如何生成文本的

中文

谁是藏镜人@VedaAI00·9h

建筑师们可能会讨厌这个项目，因为 5 万美元一年的 BIM 软件正在被「开源」平替。 Pascal Editor 刚刚开源，这是一个完全运行在浏览器里的 3D 建筑编辑器。它最硬核的地方在于采用了 WebGPU + React Three Fiber 的组合，直接在 GPU 上进行近乎原生的实时渲染，彻底甩掉了传统桌面软件的笨重感。技术栈也非常考究： - 采用 ECS（实体组件系统）架构，确保数千个构件的实时更新。 - 使用 Zustand 进行扁平化状态管理，原生支持无限撤销/重做。 - 引入「脏节点追踪」技术，只重绘变化部分，极大降低了长会话的性能损耗。当 BIM 工作流被 Web 化并开源，行业门槛的逻辑就变了。我是藏镜人，只拆解最有工程深度的 AI 与基础设施演进。关注 @VedaAI00，带你看清技术「入侵」物理世界的路径。

中文

谁是藏镜人@VedaAI00·10h

只需一个周末，就能用 YOLO26 搓出一个「全自动停车场管理系统」。这不是那种只能在云端跑的玩具，而是真正能跑在边缘端（甚至普通 CPU）上的工程实践。得益于 YOLO26 对 CPU 推理 43% 的大幅优化，以及「NMS-Free」推理架构，这种实时的 ROI 区域监测已经变得极其廉价且稳健。在演示中，即便车辆部分重叠或斜着停放，系统依然能精准锁定空余位，并实时反馈状态。这背后是 ProgLoss（渐进式损失）对边缘小目标检测能力的底层支撑。我是藏镜人，专注于挖掘 AI 落地物理世界的硬核细节。关注 @VedaAI00，带你看清 AI 工程化的每一个微小闭环。

中文

谁是藏镜人@VedaAI00·12h

顶级数字艺术家 Sam Spratt 正在把「油画」变成一种可交互的、分布式的「社会地图」。随着 Chapter 6 的展开，Sam 发布了全新的「Masks Map」。这不再只是静态的视觉表达，而是一个基于坐标、深度链接的交互系统。每一副面具（Mask）都在地图上有其精确的位置，承载着不同的叙事和社区观察。这种「Canvas as a Map」的逻辑，实际上是将传统叙事与现代游戏化的地理系统（Coordinate-based System）相结合。它把数千人的集体共创，锚定在了一个宏大的、可无限缩放的视觉废墟之上。我是藏镜人，只追踪最硬核的艺术与技术交汇点。关注 @VedaAI00，带你看清数字资产的下一代叙事形态。

中文

谁是藏镜人@VedaAI00·15h

2/ 另一段演示是根据一张建筑摄影图片进行「视觉逆向工程」。AI 不仅复刻了外观，还通过 TypeScript API 自动补全了背后的参数逻辑。 x.com/ruben_kostard/…

Ruben Kostandyan@ruben_kostard

Looks beautiful! Asked GPT-5.5 in Codex to replicate the first one in @ForgeCAD. Continuous iteration based on an image is getting better!

中文

谁是藏镜人@VedaAI00·15h

1/ 这种对大型复杂结构的建模能力非常惊人。只给了一次反馈，GPT-5.5 就直接在 ForgeCAD 里拉出了一个细节拉满的金门大桥模型。 x.com/ruben_kostard/…

Ruben Kostandyan@ruben_kostard

Asked GPT-5.5 in Codex to make the Golden Gate Bridge in @ForgeCAD, incredible work, gave only 1 feedback

中文

1.2K

谁是藏镜人@VedaAI00·15h

GPT-5.5 + ForgeCAD 的组合，正在把「Vibe Coding」的浪潮引向工业设计。 ForgeCAD 创始人 Ruben 最近展示了两段让人印象深刻的演示。当 AI 原生、代码优先的 CAD 系统遇到了具备强逻辑的 GPT-5.5，3D 建模的门槛正在被彻底重写。

中文

300

22.6K

谁是藏镜人@VedaAI00·22h

让 AI 自己给自己盖「数据中心」。大多数 AI 还在折腾图像像素，而 Vishwajeet 正在展示如何用 AI 接管物理世界的「几何」底层。通过简单的提示词约束，系统就能在浏览器里直接生成完整的站点布局、参数化 CAD 和专业技术图纸。这种转变非常有意思。开发者认为「几何」是 AI 缺失的关键层，如果不掌握几何数据，就无法真正掌控最终的建造结果。现在，他们通过 OpenGeometry 和 Three.js 把整个 AEC 工作流搬到了浏览器里。从一个模糊的想法到生成「可建造」级别的方案，整个过程被压缩到了分钟级。对于建筑和数据中心工程行业来说，这种自动化的降维打击可能才刚刚开始。

中文

谁是藏镜人@VedaAI00·1d

文字输入，直接出平面图、CAD、渲染图流程：Text → 平面图 → CAD → Render，全链打通。工具栈是 OpenGeometry + Three.js + Google AI。作者的判断：几何层才是 AI 在建筑设计里缺失的那一块，谁掌控几何，谁才掌控最终结果。建筑和工程设计领域，这个方向值得盯着。 x.com/Bootsblac/stat…

中文

谁是藏镜人@VedaAI00·1d

Google 出了一个 Gemma 4 本地 Agent 实战 notebook 用 Haystack 框架，四个场景：多模态地图和天气 Agent 通过 GitHub MCP server 做动态工具发现视觉问答（VQA） RAG 实现本地跑，不依赖云端 API。想试 Gemma 4 agentic 能力的直接上手。 x.com/googlegemma/st…

Google Gemma@googlegemma

Curious what Gemma 4 can do in a local agentic setup? This notebook uses Haystack to walk through four practical demos: • A multimodal map/weather agent • Dynamic tool discovery via a GitHub MCP server • Visual Question Answering • RAG implementations

中文

141

谁是藏镜人@VedaAI00·1d

OpenAI 给 Codex 加了宠物输入 /pet 唤醒它。 AI coding agent 的「用户留存」解法：加一只猫。 x.com/OpenAIDevs/sta…

OpenAI Developers@OpenAIDevs

Pets. Now in Codex. Use /pet to wake your pet.

中文

谁是藏镜人@VedaAI00·2d

把一份地契 PDF 丢进去，AI 直接给你画出地块边界这是 Clearfork 正在开发的产品 Land Intelligence 的演示。流程是：上传地契 PDF → 提取法律描述文本 → 转成 COGO 测量坐标序列 → 在地图上渲染出地块轮廓，包括曲线段。「Metes and bounds」是美国历史遗留的地块描述方式，用方位角和距离描述边界走向，人工解析极其繁琐，错一个坐标系整块地就跑偏了。给 AI 搭好正确的工具链之后，这套解析流程就能自动化。 GIS 领域的非结构化文档处理，这是个实用落地场景。 x.com/kyle_e_walker/…

中文

谁是藏镜人@VedaAI00·2d

Stanford 新论文：把「递归推理」从单模型扩展到多 Agent 系统 RecursiveMAS 的核心思路是让多个异构 Agent 组成一个协作循环，共享「潜在状态」而不是来回传文字，用 RecursiveLink 模块做跨 Agent 的状态传递。实测结果： 9 个 benchmark（数学、科学、医学、代码、搜索）平均准确率提升 8.3% 推理速度 1.2x-2.4x token 用量减少 34.6%-75.6% 关键区别：以前的 MAS 是 Agent 之间传文本消息，RecursiveMAS 走的是潜在空间，更高效也更省 token。代入感更强的类比：相当于多个人共用同一份工作记忆草稿纸，而不是每次开口重新解释一遍。代码和数据开放。 x.com/_akhaliq/statu…

中文

谁是藏镜人@VedaAI00·2d

通过Anthropic 博客的学习以帮助理解和解释 Agentic AI 的架构设计与原理

中文

谁是藏镜人@VedaAI00·2d

用 YOLO26 做区域进出计数，顺手把实时统计图也整进去了每个监控区域独立计数，同时叠加面积图+柱状图显示总进出量。实现思路很直接：把区域计数结果存进字典，再调 Ultralytics 自带的 bar_plot() 函数渲染图表。两个模块一拼，效果就出来了。计算机视觉的工程门槛还在快速下降。 x.com/muhammdrizwanm…

中文

谁是藏镜人@VedaAI00·3d

这个我一直在用的流程，CF打包了。从今天起，AI Agent 可以直接成为 Cloudflare 的付费客户——自主注册账号、开通订阅、注册域名、拿 API token、部署代码。全程无需人类介入。 Agent 不只是执行工具，开始有了「身份」——能签合同、能消费、能独立运营基础设施。下一步自然是：Agent 赚到的钱，用来付自己的服务器账单。 x.com/cloudflare/sta…

中文

Keşfet

@om_patel5 @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA @nikifrancismediavine