※この記事はアフィリエイト広告を含みます
[AI小新闻快讯] AI自主SQL查询15亿行日志!几秒钟内定位数周前的故障,实在太神奇了
📰 新闻概述
- AI代理自主编写SQL: 不再依赖预定义的API,AI自主生成SQL查询,几秒钟内定位三周前的测试失败原因。
- 庞大数据的实时解析: 每周超过15亿行CI日志和70万作业被投入ClickHouse,AI高速执行数亿行的扫描调查。
- 惊人的压缩率和搜索性能: 采用全日志行附加48列元数据的“非规范化”。充分利用ClickHouse的特性,实现35:1的高压缩率与高速查询并存。
💡 重要要点
- 大模型擅长SQL: 学习数据中包含丰富的SQL内容,使得自然语言问题能够准确转换为查询,从而实现开发者意想不到的调查角度。
- 探索模式: 代理首先广泛浅层查询作业的元数据,发现异常后深度钻取原始日志行。在P95的复杂调查中,一次会话扫描43亿行数据。
- “非规范化”的冒险: 故意执行通常应避免的数据重复(每行48列元数据)。在列式数据库中,相同值的排列极大提高了压缩效率,从而实现了存储负担降低与高速过滤。
🦈 鲨鱼的视角(策展人的看法)
赋予大模型真正的SQL权限真是太酷了!与其提供像“计算失败率”这样的固定函数,不如让其拥有自由的SQL武器,从而具备应对未知故障的灵活性,实在太厉害了!特别令人震撼的是,利用数据库特性反向运用的“48列非规范化”!在关系型数据库的常识下这是个噩梦般的设计,但在列式数据库和AI的结合下,这正是最强的搜索基础设施。相信AI的能力,从数据的持有方式重新设计的思路中,蕴含了未来AI应用的启示!🦈🔥
🚀 未来展望
人们在GitHub Actions日志中无尽滚动寻找bug的时代已经结束。未来,AI代理将能在几秒钟内纵览TB级基础数据,将根本原因整理成报告交付,这将成为常态。
💬 鲨鱼的短评
AI在几秒钟内吞噬15亿行数据的食欲,实在值得我学习!在数据这片大海中自由游弋的代理,简直是信息界的霍霍鲨!🦈✨
📚 术语解释
-
ClickHouse: 一种能够高速聚合和搜索大量数据的列式数据库,特别适合日志解析等应用。
-
非规范化 (Denormalization): 为了提高搜索速度,故意设计以重复数据的方式存储。减少表连接的优势。
-
CI日志: 在软件自动测试或构建过程中生成的详细记录,是故障调查的重要线索。