※この記事はアフィリエイト広告を含みます
只用19世纪的知识进行对话?维多利亚时代专属AI“Mr. Chatterbox”登场!
📰 新闻概要
- 19世纪限定的学习数据: 仅使用1837年至1899年间发布的英国图书馆的著作权过期书籍28,035本作为学习材料。
- 完全干净的数据集: 1899年之后的信息完全不包含,词汇和思想完全基于19世纪的文学。
- 小规模的参数数量: 由约3.4亿个参数组成,规模与GPT-2-Medium相当,模型大小约为2.05GB,十分轻便。
💡 重要的要点
- 伦理的学习方法: 避免使用未经授权的数据,探索是否可以仅用公共领域的数据构建大型语言模型的实验性项目。
- 性能的局限性: 目前较难获得实用的回答,交谈质量更接近马尔可夫链而非大型语言模型。
- Chinchilla法则的暗示: 用于学习的约29.3亿个标记,对于模型规模来说是不足的,实用的对话能力仍需更多数据。
🦈 鲨鱼的眼(策展人的视角)
这个项目是对当前AI界“数据权利问题”的一种非常讽刺和挑战性的回答!
能够在“nanochat”中实现大英图书馆的档案太棒了!由于完全没有1899年后的记忆,即使谈论手机也无法理解,词汇本身停留在“绅士淑女的时代”,这真是太酷了!Simon Willison使用Claude Code,在短时间内自制了一个插件,让这个模型在本地运行,展现了现代AI开发的速度感,绝对不容错过!
🚀 接下来会怎样?
仅使用公共领域数据的“伦理清洁模型”的可能性已经显现。未来,通过整合更多庞大的历史档案,可能会出现完美再现特定时代背景的“时光旅行对话AI”,达到实用水平。
💬 鲨鱼的观点
舍弃现代知识,完全化身19世纪的绅士,鲨鱼也想戴上礼帽了!让我们享受优雅的对话吧!🦈🎩
📚 术语解释
-
公共领域: 著作权已过期或被放弃的作品,任何人都可以自由使用和修改。
-
马尔可夫链: 下一个事件的发生概率仅依赖于前一个状态的概率模型,常用于简单的文本生成等。
-
信息来源: Mr. Chatterbox is a Victorian-era ethically trained model