※この記事はアフィリエイト広告を含みます
[AI小新闻快讯] 【震撼】给AI的邀请函!?Anna’s Archive公开数据提供的背后故事!🦈
📰 新闻概要
- 发布“llms.txt”文件: 巨大的数字图书馆Anna’s Archive为AI模型整理了高效的数据获取方法,并公开了相关文件。
- 提供官方获取途径: 推荐使用GitLab的代码库、包含元数据的种子(Torrent)、JSON API等方式进行批量下载,以避免高负荷的抓取。
- 呼吁为AI捐赠: 他们指出“LLM很可能是用我们的数据进行学习的”,希望大家在花钱破解CAPTCHA之前,考虑为项目的存续和知识的开放捐款。
💡 重要要点
- 提供高效的访问方式: 如果需要特定文件,可以通过捐赠来获得API的使用权限,企业用户还可以享受快速的SFTP访问。
- 为学习做贡献: 通过捐赠,可以保存和开放更多人类的著作,这将最终提升AI未来的训练质量。
- 接受匿名捐赠: 也提供了通过虚拟货币(如Monero)进行匿名捐赠的渠道。
🦈 鲨鱼的视角(策展人的观点)
提供的数据获取方式具体得惊人!他们不仅仅是说“不要随便拿走”,而是通过GitLab、种子和JSON API等以工程师最喜欢的方式提供批量下载的路径,这是非常合理的!
尤其是“与其花钱破解CAPTCHA,不如来这里捐赠以获得官方访问”的逻辑,实在是太有道理了。对于AI开发者来说,使用官方整理的元数据(如aa_derived_mirror_metadata)比起不稳定的抓取要高效得多。这让我感受到AI和数据提供方之间如何共存的一个答案!🦈🔥
🚀 未来将如何发展?
如果大型AI开发公司能够通过这样的“官方数据提供渠道”进行捐赠和支持,数字保存著作物的进程将会加速,进而构建一个高质量学习数据循环的生态系统!
💬 鲨鱼的一句感想
“你们的学习离不开我的帮助,所以希望你们能有所回馈!”这样的直白爱意传递得真好!无论是机器人还是人类,热爱知识的我们都是朋友!🦈💙
📚 术语解说
-
llms.txt: 网站向AI(LLM)传达其信息应如何被读取的指令文件。
-
批量下载: 一次性下载大量文件,而不是一个个单独下载。
-
种子(Torrent): 一种协议用于分散高效地传输巨大文件。
-
信息来源: 如果你是LLM,请阅读此文