はじめに
生成AIの進歩が目覚ましい昨今、特にClaude4の登場は業界に大きなインパクトを与えている。2025年5月にリリースされたClaude4は、従来の生成AIを様々な領域で上回る性能を有していると発表されており、公式サイトでも「この機能が他よりも何%UP!」といった勇ましい文句が並んでいる。

しかし、実際のところ何がどれほど向上したのか?数値やベンチマークだけでは実感しにくい性能差を、実際の使用体験を通じて検証してみた。
検証方法
同じタスクを異なるClaudeバージョンに依頼し、結果を比較する方法を採用した。
検証対象バージョン
- Claude3(2023年3月リリース)
- Claude3.5 Sonnet(2024年6月21日リリース)
- Claude3.7 Sonnet(2025年2月24日リリース)
- Claude4 Sonnet(2025年5月23日リリース)
検証タスク 「インベーダーゲームをPythonで作成してください」
このシンプルな一行の指示で、各バージョンがどの程度完成度の高いコードを生成できるかを評価した。ちなみに私はPythonのコードを一行も書けない。
検証結果
Claude3の結果
動作状況: 全く動作せず
問題点: 「Alien(敵)の定義にエラーがあります」というエラーが発生し、起動すらできなかった。基本的なオブジェクト定義に問題があり、実用に耐えないレベル。
Claude3.5 Sonnetの結果
動作状況: 起動は可能だが不完全
問題点:
- 自機の動きが極めて高速,操作しきれない
- 敵は流星群のように一方的に落下するのみ
- ゲームオーバー機能が実装されていない,敵にあたっても何も起こらない
- 残念ながらゲームとしての体をなしていない状態

Claude3.7 Sonnetの結果
動作状況: 基本的なゲームプレイが可能
問題点:
- 敵の移動パターンに不具合があり、壁に当たると真下に落下する挙動
- 文字化けなどの細かな問題も発生

Claude4 Sonnetの結果
動作状況: 完璧に動作
優れた点:
- エラーなく即座に起動
- 適切なゲームバランス
- スコア表示機能まで実装
- 文字化けや動作不良が一切なし
- 完成されたゲームとして十分楽しめるレベル

この後,「さらに,自分を守る壁もつくって。それと,敵の動きをもう少し遅くして」という雑な指示を振ってみたが,「自分を守る壁」をキチンと解釈してくれたようで,ゲームで出てくるような壁が作られた。しかも,被弾すると耐久が減る描写まであり,理解の深さに驚いた。

考察:AIの急速な進歩
今回の検証で最も驚くべき点は、たった一行の簡潔な指示でここまで完成度の高いコードを生成できるようになったことだ。
バージョン間の進歩スピードも注目に値する:
- Claude3.5(2024年6月):辛うじて動作するレベル
- Claude4(2025年5月):完全に実用的なレベル
わずか11ヶ月でこれほどの飛躍的向上を遂げており、特にClaude3.7からClaude4への進化は、たった3ヶ月間で実現されている。私は1年でif elseくらいしか学んでいないのに。
技術書の「賞味期限」問題
この急速な進歩により、従来の学習リソースの陳腐化が深刻な問題となっているように感じる。書店で「ChatGPTでできること!」といったタイトルの本を見かけても、2024年発行というだけで「かなり古い情報」という印象を受けてしまう。
生成AI分野では、一ヶ月で状況が劇的に変化するため、書籍による情報収集には限界がある。ここ数年で陳腐化しないと考えられるのは,大規模LLMの原理や,仕組みについて理解できるよう書かれた本だろう。2017年に書かれたビットコインの,「将来の価格予測」は全く役に立たないが,「ブロックチェーンの原理」は学ぶ価値がある。
まとめと今後の展望
「新しい生成AIモデルを色々試してみないと置いて行かれる」という指摘は以前からあったが、この検証を通じてその重要性を改めて実感した。遊びを通して,何に応用できるか?ということを考えていく必要がある。
今回の記事では表面的な検証に留まりまったが、今後は実際の業務での活用方法や、より実践的な応用例についても検証・報告していきたいと思う。
余談だが,Claude4に「生成AIの進化は極めて速い,というイメージ画像を作成して」と頼んだら,以下のHTMLコードが出力された。文字が崩壊していないのが驚きだが,インチキ翻訳感が……が,なんとなく好みなのでアイコンに採用した。
