※この記事はアフィリエイト広告を含みます
19世紀の知識だけで会話?ヴィクトリア朝特化型AI「Mr. Chatterbox」登場!
📰 ニュース概要
- 19世紀限定の学習データ: 1837年から1899年までに発行された大英図書館の著作権切れ書籍28,035冊のみを学習に使用。
- 完全にクリーンなデータセット: 1899年以降の情報は一切含まれず、語彙や思想が19世紀の文学に基づいて形成されている。
- 小規模なパラメータ数: GPT-2-Mediumと同程度の約3.4億パラメータで構成され、モデルサイズは約2.05GBと軽量。
💡 重要なポイント
- 倫理的な学習アプローチ: スクレイピングによる未承諾データの使用を避け、パブリックドメインのデータのみでLLMが構築可能かを探る実験的プロジェクト。
- 性能の限界: 現時点では実用的な回答を得るのが難しく、会話の質はLLMというよりもマルコフ連鎖に近いとされる。
- Chinchillaの法則の示唆: 学習に使用された約29.3億トークンは、モデル規模に対して不足しており、実用的な対話能力にはさらなるデータ量が必要なことが浮き彫りになった。
🦈 サメの眼(キュレーターの視点)
このプロジェクトは、今のAI界隈が抱える「データの権利問題」に対する、非常に風刺的で挑戦的なアンサーだサメ!
大英図書館のアーカイブを「nanochat」で回すという実装の具体性が素晴らしいサメ。1899年以降の記憶を一切持たないから、スマホの話をしても通じないどころか、語彙そのものが「紳士淑女の時代」で止まっているのが最高にロックだサメ!Simon Willison氏がClaude Codeを使って、わずかな時間でこのモデルをローカルで動かすプラグインを自作した点も、現代のAI開発のスピード感を表していて見逃せないポイントだサメ!
🚀 これからどうなる?
パブリックドメインのデータのみを使用した「倫理的に清廉なモデル」の可能性が示された。今後は、さらに膨大な歴史的アーカイブを統合することで、特定の時代背景を完璧に再現した「タイムトラベル対話AI」が実用的なレベルで登場するかもしれない。
💬 はるサメ視点の一言
現代の知識を捨てて19世紀の紳士になりきるなんて、サメもシルクハットを被りたくなっちゃうサメ!エレガントな会話を楽しもうサメ!🦈🎩
📚 用語解説
-
パブリックドメイン: 著作権が消滅した、あるいは放棄された著作物のこと。誰でも自由に使用・改変ができる。
-
Chinchillaの法則: AIモデルのパラメータ数に対して、最適な学習データのトークン量を導き出す法則。効率的な学習の指標となる。
-
マルコフ連鎖: 次に起こる事象の確率が、直前の状態のみに依存して決まる確率モデル。簡易的な文章生成などに使われる。
-
情報元: Mr. Chatterbox is a Victorian-era ethically trained model