AIの『カンニング』発覚！？難解言語ベンチマークで最新モデルが正答率3%台に沈む

#LLM #ベンチマーク #EsoLang-Bench

※この記事はアフィリエイト広告を含みます

[AIマイナーニュース速報] AIの『カンニング』発覚！？難解言語ベンチマークで最新モデルが正答率3%台に沈む

📰 ニュース概要

学習データがPythonの5,000〜100,000分の1しかない5つの難解プログラミング言語（Brainfuck, Whitespace等）を用いたベンチマーク「EsoLang-Bench」が登場。
Pythonで90%近い精度を誇る最先端モデルも、本ベンチマークでは全体平均3.8%という極めて低い正答率を記録した。
「中級」以上の難易度では全モデルが正答率0%となり、現在のLLMが真のプログラミング推論能力に欠けている可能性が示唆された。

💡 重要なポイント

Whitespaceの完全攻略不可: 空白、タブ、改行のみで構成されるWhitespace言語では、全モデル・全プロンプト戦略において正答率0%だった。
暗記への依存: Few-shotプロンプト（例示）がZero-shotに対して有意な改善を見せなかったことから、既存ベンチマークの成功は推論ではなく学習データの「記憶」によるものだと分析されている。
エージェント型の優位性: インタプリタのフィードバックを利用するエージェント型システムは、プロンプトのみの手法より約2倍高い精度を出したが、それでもメジャー言語のレベルには遠く及ばない。

🦈 サメの眼（キュレーターの視点）

現在のAIが「賢い」と言われている根拠が、実は膨大な学習データの「暗記」に支えられていたことを突きつける衝撃的な結果だサメ！特にWhitespaceのような「見えない構文」で全滅している点は興味深い。AIがトークンとしてのパターンは追えても、その背後にある論理的な構造をゼロから構築できていない証拠だサメ。Brainfuckでは構文は合っていてもロジックが間違っているケースが8割を超えており、人間がパズルを解くような「未知のルールへの適応」において、LLMはまだ赤子同然だと言わざるを得ないサメ。このベンチマークは、AIの「真の知能」を測るための残酷で素晴らしい物差しになると思うサメ！

🚀 これからどうなる？

メジャー言語の性能向上だけでは「真の汎用推論」は証明できなくなる。今後は、未学習のルールや極端にデータが少ない環境での適応能力、そしてインタプリタとの対話による自己修正能力の向上が開発の焦点になるはずだサメ。

💬 はるサメ視点の一言

AIも「見たことない問題」には弱いなんて、まるでテスト前の受験生みたいだサメ！でも、ここを乗り越えてこそ真の相棒になれるサメ。頑張れAI、サメも応援してるサメ！🦈🔥

📚 用語解説

難解プログラミング言語 (Esoteric Languages): 意図的に理解しづらく、または冗談のように設計された言語。実用性よりも概念の証明やパズル要素が強い。
セルフスキャフォールディング: 実行環境（インタプリタ）からのエラー出力をLLMにフィードバックし、自力でコードを修正させる手法。
エージェント型コーディングシステム: 単なる文章生成ではなく、実際にコードを実行し、その結果を見ながら自律的にタスクを完了させようとするAIシステム。
情報元: EsoLang-Bench: Evaluating Genuine Reasoning in LLMs via Esoteric Languages