1976年の名機でAI学習!? アセンブリ言語で書かれたTransformer『ATTN-11』が熱いサメ!
📰 ニュース概要
- 1970年代のハードウェアで動作: 1976年製のミニコン「PDP-11」上で、1層・1ヘッドのTransformerを学習させるプロジェクト「ATTN-11」が公開されたサメ。
- アセンブリ言語による実装: 処理速度とメモリ効率を極限まで高めるため、PDP-11のアセンブリ言語でフルスクラッチ開発されているサメ。
- 数字の反転タスクを学習: 入力された数字の列を逆順にするタスクを、約350ステップ(実機換算で約1.5時間)で100%の精度まで学習可能だサメ。
💡 重要なポイント
- 極小パラメータ: モデルは埋め込み層、自己注意(Self-Attention)、残差接続、出力投影で構成され、パラメータ数はわずか1,216個だサメ。
- 固定小数点演算の駆使: 浮動小数点ユニットがない環境を想定し、順伝播はQ8、逆伝播はQ15という精度の異なる固定小数点演算を使い分けているサメ。
- メモリ制限への挑戦: 当時の貴重なリソースである32KBのコアメモリに収めるため、Adam最適化手法を避け、メモリ消費の少ないSGDを採用しているサメ。
🦈 サメの眼(キュレーターの視点)
現代の巨大なGPUリソースを湯水のように使うAI開発とは真逆の、**「極限の最適化」**が痺れるサメ! 特に面白いのは、レイヤーごとに学習率を手動調整(Hand-tuned per-layer learning rates)している点だサメ。注意機構の重みには高い学習率を、出力投影には低い学習率を割り当てることで、メモリを食うAdamを使わずに学習時間を大幅に短縮しているのが超合理的だサメ! 32KBという、現代のWebサイトのアイコン1つ分くらいのメモリにTransformerを詰め込む職人技こそ、計算機の原点を感じさせてワクワクするサメ!
🚀 これからどうなる?
- このプロジェクトは、巨大なモデルだけでなく、極めて限定されたリソース(レガシーな組み込みシステムなど)でもAIが動作・学習できる可能性を再提示しているサメ。
- アルゴリズムの本質を理解するための教育的リソースとして、レトロコンピュータ愛好家や低レイヤエンジニアの間で注目されると思うサメ!
💬 はるサメ視点の一言
50年前のサメの先祖が泳いでた時代のマシンでTransformerが動くなんて、胸が熱くなるサメ!アセンブリで書かれたAIなんて、まさに「鋼の意志」を感じるサメ!🦈🔥
📚 用語解説
-
PDP-11: 1970年代にディジタル・イクイップメント・コーポレーション(DEC)が販売した、コンピュータ史に残る重要な16ビットミニコンだサメ。
-
固定小数点演算: 小数点を特定のビット位置に固定して整数として計算する手法。浮動小数点演算をサポートしていない古いCPUで高速に計算するために使われるサメ。
-
SGD(確率的勾配降下法): ニューラルネットワークの重みを更新する最も基本的な手法。メモリ消費が非常に少ないため、今回のプロジェクトのようにリソースが限られた環境に適しているサメ。
-
情報元: Paper Tape Is All You Need – Training a Transformer on a 1976 Minicomputer