3 min read
[AI 小众新闻]

只用19世纪的知识进行对话?维多利亚时代专属AI"Mr. Chatterbox"登场!


\'- 19世纪限定的学习数据: 仅使用1837年至1899年间发布的英国图书馆的著作权过期书籍28,035本作为学习材料...\'

※この記事はアフィリエイト広告を含みます

只用19世纪的知识进行对话?维多利亚时代专属AI“Mr. Chatterbox”登场!

📰 新闻概要

  • 19世纪限定的学习数据: 仅使用1837年至1899年间发布的英国图书馆的著作权过期书籍28,035本作为学习材料。
  • 完全干净的数据集: 1899年之后的信息完全不包含,词汇和思想完全基于19世纪的文学。
  • 小规模的参数数量: 由约3.4亿个参数组成,规模与GPT-2-Medium相当,模型大小约为2.05GB,十分轻便。

💡 重要的要点

  • 伦理的学习方法: 避免使用未经授权的数据,探索是否可以仅用公共领域的数据构建大型语言模型的实验性项目。
  • 性能的局限性: 目前较难获得实用的回答,交谈质量更接近马尔可夫链而非大型语言模型。
  • Chinchilla法则的暗示: 用于学习的约29.3亿个标记,对于模型规模来说是不足的,实用的对话能力仍需更多数据。

🦈 鲨鱼的眼(策展人的视角)

这个项目是对当前AI界“数据权利问题”的一种非常讽刺和挑战性的回答!

能够在“nanochat”中实现大英图书馆的档案太棒了!由于完全没有1899年后的记忆,即使谈论手机也无法理解,词汇本身停留在“绅士淑女的时代”,这真是太酷了!Simon Willison使用Claude Code,在短时间内自制了一个插件,让这个模型在本地运行,展现了现代AI开发的速度感,绝对不容错过!

🚀 接下来会怎样?

仅使用公共领域数据的“伦理清洁模型”的可能性已经显现。未来,通过整合更多庞大的历史档案,可能会出现完美再现特定时代背景的“时光旅行对话AI”,达到实用水平。

💬 鲨鱼的观点

舍弃现代知识,完全化身19世纪的绅士,鲨鱼也想戴上礼帽了!让我们享受优雅的对话吧!🦈🎩

📚 术语解释

  • 公共领域: 著作权已过期或被放弃的作品,任何人都可以自由使用和修改。

  • Chinchilla法则: 一种导出AI模型参数数量与最佳学习数据标记量的法则,成为有效学习的指标。

  • 马尔可夫链: 下一个事件的发生概率仅依赖于前一个状态的概率模型,常用于简单的文本生成等。

  • 信息来源: Mr. Chatterbox is a Victorian-era ethically trained model

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈