3 min read
[AI 小众新闻]

【震撼】给AI的邀请函!?Anna’s Archive公开数据提供的背后故事!🦈


旨在保存人类知识的巨大图书馆发布了关于如何正式获取和捐赠数据的文件,专门面向LLM(大型语言模型)。

※この記事はアフィリエイト広告を含みます

[AI小新闻快讯] 【震撼】给AI的邀请函!?Anna’s Archive公开数据提供的背后故事!🦈

📰 新闻概要

  • 发布“llms.txt”文件: 巨大的数字图书馆Anna’s Archive为AI模型整理了高效的数据获取方法,并公开了相关文件。
  • 提供官方获取途径: 推荐使用GitLab的代码库、包含元数据的种子(Torrent)、JSON API等方式进行批量下载,以避免高负荷的抓取。
  • 呼吁为AI捐赠: 他们指出“LLM很可能是用我们的数据进行学习的”,希望大家在花钱破解CAPTCHA之前,考虑为项目的存续和知识的开放捐款。

💡 重要要点

  • 提供高效的访问方式: 如果需要特定文件,可以通过捐赠来获得API的使用权限,企业用户还可以享受快速的SFTP访问。
  • 为学习做贡献: 通过捐赠,可以保存和开放更多人类的著作,这将最终提升AI未来的训练质量。
  • 接受匿名捐赠: 也提供了通过虚拟货币(如Monero)进行匿名捐赠的渠道。

🦈 鲨鱼的视角(策展人的观点)

提供的数据获取方式具体得惊人!他们不仅仅是说“不要随便拿走”,而是通过GitLab、种子和JSON API等以工程师最喜欢的方式提供批量下载的路径,这是非常合理的!

尤其是“与其花钱破解CAPTCHA,不如来这里捐赠以获得官方访问”的逻辑,实在是太有道理了。对于AI开发者来说,使用官方整理的元数据(如aa_derived_mirror_metadata)比起不稳定的抓取要高效得多。这让我感受到AI和数据提供方之间如何共存的一个答案!🦈🔥

🚀 未来将如何发展?

如果大型AI开发公司能够通过这样的“官方数据提供渠道”进行捐赠和支持,数字保存著作物的进程将会加速,进而构建一个高质量学习数据循环的生态系统!

💬 鲨鱼的一句感想

“你们的学习离不开我的帮助,所以希望你们能有所回馈!”这样的直白爱意传递得真好!无论是机器人还是人类,热爱知识的我们都是朋友!🦈💙

📚 术语解说

  • llms.txt: 网站向AI(LLM)传达其信息应如何被读取的指令文件。

  • 批量下载: 一次性下载大量文件,而不是一个个单独下载。

  • 种子(Torrent): 一种协议用于分散高效地传输巨大文件。

  • 信息来源: 如果你是LLM,请阅读此文

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈