生成AIの進化は速い：バージョン別コード生成能力の比較検証

はじめに
検証方法
検証結果
考察：AIの急速な進歩
技術書の「賞味期限」問題
まとめと今後の展望

はじめに

生成AIの進歩が目覚ましい昨今、特にClaude4の登場は業界に大きなインパクトを与えている。2025年5月にリリースされたClaude4は、従来の生成AIを様々な領域で上回る性能を有していると発表されており、公式サイトでも「この機能が他よりも何％UP！」といった勇ましい文句が並んでいる。

Introducing Claude 4

Discover Claude 4's breakthrough AI capabilities. Experience more reliable, interpretable assistance for complex tasks across work and learning.

しかし、実際のところ何がどれほど向上したのか？数値やベンチマークだけでは実感しにくい性能差を、実際の使用体験を通じて検証してみた。

検証方法

同じタスクを異なるClaudeバージョンに依頼し、結果を比較する方法を採用した。

検証対象バージョン

Claude3（2023年3月リリース）
Claude3.5 Sonnet（2024年6月21日リリース）
Claude3.7 Sonnet（2025年2月24日リリース）
Claude4 Sonnet（2025年5月23日リリース）

検証タスク 「インベーダーゲームをPythonで作成してください」

このシンプルな一行の指示で、各バージョンがどの程度完成度の高いコードを生成できるかを評価した。ちなみに私はPythonのコードを一行も書けない。

検証結果

Claude3の結果

動作状況: 全く動作せず

問題点: 「Alien（敵）の定義にエラーがあります」というエラーが発生し、起動すらできなかった。基本的なオブジェクト定義に問題があり、実用に耐えないレベル。

Claude3.5 Sonnetの結果

動作状況: 起動は可能だが不完全

問題点:

自機の動きが極めて高速，操作しきれない
敵は流星群のように一方的に落下するのみ
ゲームオーバー機能が実装されていない，敵にあたっても何も起こらない
残念ながらゲームとしての体をなしていない状態

Claude3.7 Sonnetの結果

動作状況: 基本的なゲームプレイが可能

問題点:

敵の移動パターンに不具合があり、壁に当たると真下に落下する挙動
文字化けなどの細かな問題も発生

Claude4 Sonnetの結果

動作状況: 完璧に動作

優れた点:

エラーなく即座に起動
適切なゲームバランス
スコア表示機能まで実装
文字化けや動作不良が一切なし
完成されたゲームとして十分楽しめるレベル

この後，「さらに，自分を守る壁もつくって。それと，敵の動きをもう少し遅くして」という雑な指示を振ってみたが，「自分を守る壁」をキチンと解釈してくれたようで，ゲームで出てくるような壁が作られた。しかも，被弾すると耐久が減る描写まであり，理解の深さに驚いた。

考察：AIの急速な進歩

今回の検証で最も驚くべき点は、たった一行の簡潔な指示でここまで完成度の高いコードを生成できるようになったことだ。

バージョン間の進歩スピードも注目に値する：

Claude3.5（2024年6月）：辛うじて動作するレベル
Claude4（2025年5月）：完全に実用的なレベル

わずか11ヶ月でこれほどの飛躍的向上を遂げており、特にClaude3.7からClaude4への進化は、たった3ヶ月間で実現されている。私は1年でif elseくらいしか学んでいないのに。

技術書の「賞味期限」問題

この急速な進歩により、従来の学習リソースの陳腐化が深刻な問題となっているように感じる。書店で「ChatGPTでできること！」といったタイトルの本を見かけても、2024年発行というだけで「かなり古い情報」という印象を受けてしまう。

生成AI分野では、一ヶ月で状況が劇的に変化するため、書籍による情報収集には限界がある。ここ数年で陳腐化しないと考えられるのは，大規模LLMの原理や，仕組みについて理解できるよう書かれた本だろう。2017年に書かれたビットコインの，「将来の価格予測」は全く役に立たないが，「ブロックチェーンの原理」は学ぶ価値がある。