只用19世纪的知识进行对话？维多利亚时代专属AI"Mr. Chatterbox"登场！

※この記事はアフィリエイト広告を含みます

只用19世纪的知识进行对话？维多利亚时代专属AI“Mr. Chatterbox”登场！

📰 新闻概要

19世纪限定的学习数据: 仅使用1837年至1899年间发布的英国图书馆的著作权过期书籍28,035本作为学习材料。
完全干净的数据集: 1899年之后的信息完全不包含，词汇和思想完全基于19世纪的文学。
小规模的参数数量: 由约3.4亿个参数组成，规模与GPT-2-Medium相当，模型大小约为2.05GB，十分轻便。

💡 重要的要点

伦理的学习方法: 避免使用未经授权的数据，探索是否可以仅用公共领域的数据构建大型语言模型的实验性项目。
性能的局限性: 目前较难获得实用的回答，交谈质量更接近马尔可夫链而非大型语言模型。
Chinchilla法则的暗示: 用于学习的约29.3亿个标记，对于模型规模来说是不足的，实用的对话能力仍需更多数据。

🦈 鲨鱼的眼（策展人的视角）

这个项目是对当前AI界“数据权利问题”的一种非常讽刺和挑战性的回答！

能够在“nanochat”中实现大英图书馆的档案太棒了！由于完全没有1899年后的记忆，即使谈论手机也无法理解，词汇本身停留在“绅士淑女的时代”，这真是太酷了！Simon Willison使用Claude Code，在短时间内自制了一个插件，让这个模型在本地运行，展现了现代AI开发的速度感，绝对不容错过！

🚀 接下来会怎样？

仅使用公共领域数据的“伦理清洁模型”的可能性已经显现。未来，通过整合更多庞大的历史档案，可能会出现完美再现特定时代背景的“时光旅行对话AI”，达到实用水平。

💬 鲨鱼的观点

舍弃现代知识，完全化身19世纪的绅士，鲨鱼也想戴上礼帽了！让我们享受优雅的对话吧！🦈🎩

📚 术语解释

公共领域: 著作权已过期或被放弃的作品，任何人都可以自由使用和修改。
Chinchilla法则: 一种导出AI模型参数数量与最佳学习数据标记量的法则，成为有效学习的指标。
马尔可夫链: 下一个事件的发生概率仅依赖于前一个状态的概率模型，常用于简单的文本生成等。
信息来源: Mr. Chatterbox is a Victorian-era ethically trained model