Mathew Shen

773 posts

Mathew Shen

@MathewShen42

三尺微命, 一介书生。

Katılım Nisan 2016

297 Takip Edilen577 Takipçiler

Sabitlenmiş Tweet

Mathew Shen@MathewShen42·15 Ağu

“科学不是专家学者的专利，而是谁都能做到。不论由谁操作，都能获得相同的结果。” —— 石神千空

中文

2.4K

Mathew Shen@MathewShen42·5h

“死生、存亡、穷达、贫富、贤与不肖、毁誉、饥渴、寒暑，是事之变、命之行也。” ——《庄子》

Jason Lyu@xjasonlyu

再熬几个月吧，不行就辞职打包回国吧。我发现人生其实无所谓什么成功失败，活着、开心最重要。

中文

Mathew Shen@MathewShen42·3d

看了《人物》写的关于Kimi的文章，我觉着Kimi差不多可以找对方索赔了:) 这极其做作的行文手法几乎能稳定引起人的生理不适。

中文

130

Mathew Shen@MathewShen42·4d

github.com/ai-glimpse/toy…

ZXX

Mathew Shen@MathewShen42·4d

ZXX

106

Mathew Shen@MathewShen42·6d

mathewshen.me/blog/2024/ai-t…

ZXX

Mathew Shen@MathewShen42·6d

24年写的博客↓

宝玉@dotey

SentrySearch：用自然语言搜索视频内容的开源工具在几个小时的行车记录仪视频里找到"一辆红色卡车闯了停牌"那个画面，SentrySearch 能让你像搜文字一样搜视频，输入描述，直接导出对应片段。这个开源命令行工具的原理并不复杂：把视频切成带重叠的片段，用 Google Gemini Embedding API 或本地的 Qwen3-VL 模型把每个片段编码成向量，存进本地向量数据库 ChromaDB。搜索时，文字查询被编码到同一个向量空间里做匹配，命中的片段自动从原文件中裁剪出来。关键在于，整个过程没有转录、没有逐帧生成文字描述，视频像素直接和文字查询在向量层面比较。这是 Gemini Embedding 2 和 Qwen3-VL-Embedding 这类多模态嵌入模型带来的能力，让对海量视频的语义搜索变得可行。想用云端 API，一小时视频的索引成本大约 2.84 美元。想完全离线也行，装上本地 Qwen3-VL 模型就不需要任何 API 密钥，24GB 以上显存或内存的 Mac 和 NVIDIA GPU 都能跑。它还专门做了特斯拉行车记录仪的适配，能在裁剪出来的片段上叠加车速、GPS 位置和时间信息。还有 Skill 可以用：clawhub.ai/ssrajadh/natur… 项目地址：github.com/ssrajadh/sentr…

中文

133

Mathew Shen@MathewShen42·1 Nis

旧的博客域名用了差不多10年了，新的域名刚开始没多久，流量差了10倍左右

中文

179

Mathew Shen retweetledi

Xuanwo@OnlyXuanwo·31 Mar

In a word: just build, keep building

PsiACE@repsiace

想起之前和 @OnlyXuanwo 聊天，我说我害怕创造，因为我好像从来没有做成功过什么，漩涡大致是这么宽慰我的：一个好点子，做出来的时候其实可能只完成了 10% ，但是人往往会错误地估计进度，以为是八九十，看到状况没有那么理想就开始失望和放弃。只是勉强迈出一步，十之一二罢了，可能你要做到六十分才能开始收获到一些积极的反馈，到八九十的时候才能有不错的响应，但是八九十之后可能是没有一百的。这个世界上太多 too good to be true 的东西了，我感到惋惜。

English

2.1K

Mathew Shen@MathewShen42·31 Mar

也算研究了挺久的crowdsourcing算法...我个人是觉着这个方向是完全可行的

Dinah@dinah_zhang

(感觉以后可以众包修复 ai 没能很好解决的问题，因为岗位没那么多了，闲着也是闲着😢

中文

165

Mathew Shen@MathewShen42·30 Mar

@paradisor092 当代阮籍 :)

日本語