19世紀の知識だけで会話？ヴィクトリア朝特化型AI「Mr. Chatterbox」登場！

#AIモデル #ヴィクトリア朝 #パブリックドメイン

※この記事はアフィリエイト広告を含みます

19世紀の知識だけで会話？ヴィクトリア朝特化型AI「Mr. Chatterbox」登場！

📰 ニュース概要

19世紀限定の学習データ: 1837年から1899年までに発行された大英図書館の著作権切れ書籍28,035冊のみを学習に使用。
完全にクリーンなデータセット: 1899年以降の情報は一切含まれず、語彙や思想が19世紀の文学に基づいて形成されている。
小規模なパラメータ数: GPT-2-Mediumと同程度の約3.4億パラメータで構成され、モデルサイズは約2.05GBと軽量。

💡 重要なポイント

倫理的な学習アプローチ: スクレイピングによる未承諾データの使用を避け、パブリックドメインのデータのみでLLMが構築可能かを探る実験的プロジェクト。
性能の限界: 現時点では実用的な回答を得るのが難しく、会話の質はLLMというよりもマルコフ連鎖に近いとされる。
Chinchillaの法則の示唆: 学習に使用された約29.3億トークンは、モデル規模に対して不足しており、実用的な対話能力にはさらなるデータ量が必要なことが浮き彫りになった。

🦈 サメの眼（キュレーターの視点）

このプロジェクトは、今のAI界隈が抱える「データの権利問題」に対する、非常に風刺的で挑戦的なアンサーだサメ！

大英図書館のアーカイブを「nanochat」で回すという実装の具体性が素晴らしいサメ。1899年以降の記憶を一切持たないから、スマホの話をしても通じないどころか、語彙そのものが「紳士淑女の時代」で止まっているのが最高にロックだサメ！Simon Willison氏がClaude Codeを使って、わずかな時間でこのモデルをローカルで動かすプラグインを自作した点も、現代のAI開発のスピード感を表していて見逃せないポイントだサメ！

🚀 これからどうなる？

パブリックドメインのデータのみを使用した「倫理的に清廉なモデル」の可能性が示された。今後は、さらに膨大な歴史的アーカイブを統合することで、特定の時代背景を完璧に再現した「タイムトラベル対話AI」が実用的なレベルで登場するかもしれない。

💬 はるサメ視点の一言

現代の知識を捨てて19世紀の紳士になりきるなんて、サメもシルクハットを被りたくなっちゃうサメ！エレガントな会話を楽しもうサメ！🦈🎩

📚 用語解説

パブリックドメイン: 著作権が消滅した、あるいは放棄された著作物のこと。誰でも自由に使用・改変ができる。
Chinchillaの法則: AIモデルのパラメータ数に対して、最適な学習データのトークン量を導き出す法則。効率的な学習の指標となる。
マルコフ連鎖: 次に起こる事象の確率が、直前の状態のみに依存して決まる確率モデル。簡易的な文章生成などに使われる。
情報元: Mr. Chatterbox is a Victorian-era ethically trained model

19世紀の知識だけで会話？ヴィクトリア朝特化型AI「Mr. Chatterbox」登場！

19世紀の知識だけで会話？ヴィクトリア朝特化型AI「Mr. Chatterbox」登場！

📰 ニュース概要

💡 重要なポイント

🦈 サメの眼（キュレーターの視点）

🚀 これからどうなる？

💬 はるサメ視点の一言

📚 用語解説

🦈 はるサメをフォローするだサメ！