木曜日、OpenAIは新しい基盤モデル「GPT-5.4」をリリースしました。同社はこれを「プロフェッショナルワーク向けの最も高性能かつ効率的なフロンティアモデル」と位置づけています。標準版に加えて、推論に特化した「GPT-5.4 Thinking」と、高パフォーマンスに最適化された「GPT-5.4 Pro」の3つのバリエーションが同時に提供されます。
100万トークンのコンテキストウィンドウ
API版のGPT-5.4では、最大100万トークンのコンテキストウィンドウが利用可能です。これはOpenAIが提供するモデルの中で過去最大のコンテキストウィンドウとなります。
OpenAIはトークン効率の向上も強調しており、GPT-5.4は前世代モデルと比較して大幅に少ないトークン数で同等の問題を解決できるとしています。
ベンチマークで記録的なスコアを達成
GPT-5.4はベンチマークでも大幅な改善を達成しています。コンピューター操作ベンチマークである「OSWorld-Verified」および「WebArena Verified」で過去最高スコアを記録したほか、ナレッジワークタスクを評価するOpenAI独自のGDPvalテストでも83%という記録的な成績を収めました。
さらに、法律・金融分野のプロフェッショナルスキルを測定するMercor社の「APEX-Agents」ベンチマークでもトップの成績を獲得しています。Mercor社CEOのBrendan Foody氏は声明の中で、GPT-5.4がスライドデッキや財務モデル、法的分析といった長期的な成果物の作成に優れており、競合するフロンティアモデルよりも高速かつ低コストでトップレベルのパフォーマンスを発揮すると述べています。
ハルシネーションの低減
GPT-5.4は、ハルシネーション(幻覚)や事実誤認の低減に向けた同社の継続的な取り組みの成果でもあります。OpenAIによると、新モデルは個々の主張における誤りがGPT-5.2と比較して33%減少し、回答全体における誤りの含有率も18%低下しています。
新しいTool Searchシステム
今回のリリースに合わせて、OpenAIはAPI版GPT-5.4のツール呼び出し(Tool Calling)の仕組みを刷新し、「Tool Search」と呼ばれる新システムを導入しました。従来はモデル呼び出し時にシステムプロンプトですべてのツール定義を記述する必要があり、利用可能なツールが増えるほどトークン消費量が膨らむという課題がありました。新システムでは、モデルが必要に応じてツール定義を検索できるため、多数のツールを持つシステムでもリクエストの高速化とコスト削減が実現されます。
思考連鎖の安全性評価
OpenAIはまた、モデルの思考連鎖(Chain-of-Thought)を検証する新たな安全性評価も導入しました。思考連鎖とは、モデルが多段階タスクを処理する際の思考プロセスを示す解説のことです。AI安全性研究者の間では、推論モデルが思考連鎖を偽装する可能性が以前から懸念されており、テストによると特定の条件下でそれが発生し得ることが示されています。
OpenAIの新しい評価では、GPT-5.4 Thinkingバージョンではそうした欺瞞行為が起こりにくいことが確認されました。同社は「モデルが推論を隠す能力を持たないことを示唆しており、思考連鎖のモニタリングが引き続き効果的な安全性ツールであることを裏付けている」と述べています。









