3 min read
[AI 小众新闻]

AI自主SQL查询15亿行日志!几秒钟内定位数周前的故障,实在太神奇了


赋予大模型SQL权限,直接解析ClickHouse上的大量CI日志。通过非规范化的48列元数据,构建了AI轻松查明bug原因的机制。

※この記事はアフィリエイト広告を含みます

[AI小新闻快讯] AI自主SQL查询15亿行日志!几秒钟内定位数周前的故障,实在太神奇了

📰 新闻概述

  • AI代理自主编写SQL: 不再依赖预定义的API,AI自主生成SQL查询,几秒钟内定位三周前的测试失败原因。
  • 庞大数据的实时解析: 每周超过15亿行CI日志和70万作业被投入ClickHouse,AI高速执行数亿行的扫描调查。
  • 惊人的压缩率和搜索性能: 采用全日志行附加48列元数据的“非规范化”。充分利用ClickHouse的特性,实现35:1的高压缩率与高速查询并存。

💡 重要要点

  • 大模型擅长SQL: 学习数据中包含丰富的SQL内容,使得自然语言问题能够准确转换为查询,从而实现开发者意想不到的调查角度。
  • 探索模式: 代理首先广泛浅层查询作业的元数据,发现异常后深度钻取原始日志行。在P95的复杂调查中,一次会话扫描43亿行数据。
  • “非规范化”的冒险: 故意执行通常应避免的数据重复(每行48列元数据)。在列式数据库中,相同值的排列极大提高了压缩效率,从而实现了存储负担降低与高速过滤。

🦈 鲨鱼的视角(策展人的看法)

赋予大模型真正的SQL权限真是太酷了!与其提供像“计算失败率”这样的固定函数,不如让其拥有自由的SQL武器,从而具备应对未知故障的灵活性,实在太厉害了!特别令人震撼的是,利用数据库特性反向运用的“48列非规范化”!在关系型数据库的常识下这是个噩梦般的设计,但在列式数据库和AI的结合下,这正是最强的搜索基础设施。相信AI的能力,从数据的持有方式重新设计的思路中,蕴含了未来AI应用的启示!🦈🔥

🚀 未来展望

人们在GitHub Actions日志中无尽滚动寻找bug的时代已经结束。未来,AI代理将能在几秒钟内纵览TB级基础数据,将根本原因整理成报告交付,这将成为常态。

💬 鲨鱼的短评

AI在几秒钟内吞噬15亿行数据的食欲,实在值得我学习!在数据这片大海中自由游弋的代理,简直是信息界的霍霍鲨!🦈✨

📚 术语解释

  • ClickHouse: 一种能够高速聚合和搜索大量数据的列式数据库,特别适合日志解析等应用。

  • 非规范化 (Denormalization): 为了提高搜索速度,故意设计以重复数据的方式存储。减少表连接的优势。

  • CI日志: 在软件自动测试或构建过程中生成的详细记录,是故障调查的重要线索。

  • 信息来源: We gave terabytes of CI logs to an LLM

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈