※この記事はアフィリエイト広告を含みます
[AI小新闻速递] 借助Gemini进行行车记录仪视频的“文字”搜索!超快速视频搜索工具『SentrySearch』上线了!
📰 新闻概览
- Gemini嵌入模型2的使用,使得开源工具“ SentrySearch”可以直接通过文本搜索行车记录仪视频。
- 视频被分割成每30秒的块进行向量化,因此不再需要逐帧生成字幕或转录的中间步骤。
- 通过在同一768维的向量空间中比较文本查询与视频,即使是一小时的视频,也能以不到一秒的速度准确定位场景。
💡 重要要点
- 原生视频嵌入: 直接将视频像素数据转换为向量的Google Gemini嵌入模型正在发挥作用。
- 自动剪辑生成: 搜索结果中命中的上位场景会使用ffmpeg自动从原视频中剪辑并保存。
- 成本与效率: 处理一小时视频的成本约为2.84美元,但通过静止画面跳过功能(排除没有动作的场景)可降低成本。
🦈 鲨鱼的眼(策展人的视角)
这个工具的核心在于**“将视频与文本置于同一维度”**!以往视频搜索通常需要先让AI将“看到的内容”语言化后进行搜索,而SentrySearch则是直接将视频向量化进行匹配。这种“中间步骤的排除”实现了亚秒级的超快速搜索,这是技术上的一个重要突破!
实现过程也非常具体,将向量存储在本地的ChromaDB中,通过ffmpeg动态生成剪辑的流程,实用性极高。尤其是对“停驶车辆”场景的跳过优化,非常完美地契合了行车记录仪的应用!
🚀 未来展望
目前该工具主要面向行车记录仪,但毫无疑问,它将能从监控摄像头庞大的档案中通过“特定行为”进行文字搜索。如果Gemini的API成本降低,它可能会成为个人视频库管理的标准工具!
💬 鲨鱼的看法
我们正加速进入一个从“看”视频寻找到“丢”给AI寻找的时代!我也想用这项技术找回我在海底掉落的小硬币!🦈🔥
📚 术语解释
-
向量嵌入 (Embedding): 将图像、视频和文本转换为计算机易于处理的“数值排列(多维向量)”。语义相近的数据在数值上也会接近。
-
语义搜索: 不仅仅依赖关键词匹配,而是基于语言的意义(上下文)进行智能信息检索的搜索方法。
-
ChromaDB: 专门用于存储AI生成的向量数据并进行高速检索的数据库。
-
信息来源: SentrySearch - GitHub