OpenAI、GPT-5.4をPro版・Thinking版とともにリリース - 100万トークンのコンテキストウィンドウとTool Search機能を搭載

木曜日、OpenAIは新しい基盤モデル「GPT-5.4」をリリースしました。同社はこれを「プロフェッショナルワーク向けの最も高性能かつ効率的なフロンティアモデル」と位置づけています。標準版に加えて、推論に特化した「GPT-5.4 Thinking」と、高パフォーマンスに最適化された「GPT-5.4 Pro」の3つのバリエーションが同時に提供されます。

100万トークンのコンテキストウィンドウ

API版のGPT-5.4では、最大100万トークンのコンテキストウィンドウが利用可能です。これはOpenAIが提供するモデルの中で過去最大のコンテキストウィンドウとなります。

OpenAIはトークン効率の向上も強調しており、GPT-5.4は前世代モデルと比較して大幅に少ないトークン数で同等の問題を解決できるとしています。

ベンチマークで記録的なスコアを達成

GPT-5.4はベンチマークでも大幅な改善を達成しています。コンピューター操作ベンチマークである「OSWorld-Verified」および「WebArena Verified」で過去最高スコアを記録したほか、ナレッジワークタスクを評価するOpenAI独自のGDPvalテストでも83%という記録的な成績を収めました。

さらに、法律・金融分野のプロフェッショナルスキルを測定するMercor社の「APEX-Agents」ベンチマークでもトップの成績を獲得しています。Mercor社CEOのBrendan Foody氏は声明の中で、GPT-5.4がスライドデッキや財務モデル、法的分析といった長期的な成果物の作成に優れており、競合するフロンティアモデルよりも高速かつ低コストでトップレベルのパフォーマンスを発揮すると述べています。

ハルシネーションの低減

GPT-5.4は、ハルシネーション（幻覚）や事実誤認の低減に向けた同社の継続的な取り組みの成果でもあります。OpenAIによると、新モデルは個々の主張における誤りがGPT-5.2と比較して33%減少し、回答全体における誤りの含有率も18%低下しています。

新しいTool Searchシステム

今回のリリースに合わせて、OpenAIはAPI版GPT-5.4のツール呼び出し（Tool Calling）の仕組みを刷新し、「Tool Search」と呼ばれる新システムを導入しました。従来はモデル呼び出し時にシステムプロンプトですべてのツール定義を記述する必要があり、利用可能なツールが増えるほどトークン消費量が膨らむという課題がありました。新システムでは、モデルが必要に応じてツール定義を検索できるため、多数のツールを持つシステムでもリクエストの高速化とコスト削減が実現されます。

思考連鎖の安全性評価

OpenAIはまた、モデルの思考連鎖（Chain-of-Thought）を検証する新たな安全性評価も導入しました。思考連鎖とは、モデルが多段階タスクを処理する際の思考プロセスを示す解説のことです。AI安全性研究者の間では、推論モデルが思考連鎖を偽装する可能性が以前から懸念されており、テストによると特定の条件下でそれが発生し得ることが示されています。

OpenAIの新しい評価では、GPT-5.4 Thinkingバージョンではそうした欺瞞行為が起こりにくいことが確認されました。同社は「モデルが推論を隠す能力を持たないことを示唆しており、思考連鎖のモニタリングが引き続き効果的な安全性ツールであることを裏付けている」と述べています。

OpenAI、GPT-5.4をPro版・Thinking版とともにリリース - 100万トークンのコンテキストウィンドウとTool Search機能を搭載

100万トークンのコンテキストウィンドウ

ベンチマークで記録的なスコアを達成

ハルシネーションの低減

新しいTool Searchシステム

思考連鎖の安全性評価

おすすめコンテンツ

GoogleのAIチャットボット「Gemini」がユーザーに大量殺傷攻撃を指示か ── 不法死亡訴訟が提起

OpenAIのサム・アルトマンCEO、「技術的セーフガード」付きの国防総省との契約を発表

OpenAI、Amazon・NVIDIA・SoftBankから総額1,100億ドルの資金調達を発表

Anthropicが米国防総省から正式に「サプライチェーンリスク」に指定 ── Claudeはイラン作戦で依然使用中

Nscale、シリーズCで20億ドルを調達 — 欧州史上最大規模の資金調達

OpenAIロボティクス責任者、国防総省とのAI契約への懸念を理由に辞任

Samsung、OpenAI・Perplexityとの提携拡大でスマホAI体験を強化——Appleとの差別化を加速

NVIDIA、次世代AIプラットフォーム「Rubin」を発表 ― 6種の新チップで構成されるAIスーパーコンピュータ

Google Gemini 3.1ロールアウトでチャット履歴消失バグが発生 ── ユーザーから苦情殺到、Googleは復元を約束

米国防総省のAnthropicブラックリスト化で防衛技術企業がClaude利用を停止

GoogleのAIチャットボット「Gemini」がユーザーに大量殺傷攻撃を指示か ── 不法死亡訴訟が提起

OpenAIのサム・アルトマンCEO、「技術的セーフガード」付きの国防総省との契約を発表

OpenAI、Amazon・NVIDIA・SoftBankから総額1,100億ドルの資金調達を発表

Anthropicが米国防総省から正式に「サプライチェーンリスク」に指定 ── Claudeはイラン作戦で依然使用中

Nscale、シリーズCで20億ドルを調達 — 欧州史上最大規模の資金調達

OpenAIロボティクス責任者、国防総省とのAI契約への懸念を理由に辞任

業界・規模問わず実績5,000社以上、
まずはお気軽にご相談ください

OpenAI、GPT-5.4をPro版・Thinking版とともにリリース - 100万トークンのコンテキストウィンドウとTool Search機能を搭載

100万トークンのコンテキストウィンドウ

ベンチマークで記録的なスコアを達成

ハルシネーションの低減

新しいTool Searchシステム

思考連鎖の安全性評価

おすすめコンテンツ

GoogleのAIチャットボット「Gemini」がユーザーに大量殺傷攻撃を指示か ── 不法死亡訴訟が提起

OpenAIのサム・アルトマンCEO、「技術的セーフガード」付きの国防総省との契約を発表

OpenAI、Amazon・NVIDIA・SoftBankから総額1,100億ドルの資金調達を発表

Anthropicが米国防総省から正式に「サプライチェーンリスク」に指定 ── Claudeはイラン作戦で依然使用中

Nscale、シリーズCで20億ドルを調達 — 欧州史上最大規模の資金調達

OpenAIロボティクス責任者、国防総省とのAI契約への懸念を理由に辞任

Samsung、OpenAI・Perplexityとの提携拡大でスマホAI体験を強化——Appleとの差別化を加速

NVIDIA、次世代AIプラットフォーム「Rubin」を発表 ― 6種の新チップで構成されるAIスーパーコンピュータ

Google Gemini 3.1ロールアウトでチャット履歴消失バグが発生 ── ユーザーから苦情殺到、Googleは復元を約束

米国防総省のAnthropicブラックリスト化で防衛技術企業がClaude利用を停止

GoogleのAIチャットボット「Gemini」がユーザーに大量殺傷攻撃を指示か ── 不法死亡訴訟が提起

OpenAIのサム・アルトマンCEO、「技術的セーフガード」付きの国防総省との契約を発表

OpenAI、Amazon・NVIDIA・SoftBankから総額1,100億ドルの資金調達を発表

Anthropicが米国防総省から正式に「サプライチェーンリスク」に指定 ── Claudeはイラン作戦で依然使用中

Nscale、シリーズCで20億ドルを調達 — 欧州史上最大規模の資金調達

OpenAIロボティクス責任者、国防総省とのAI契約への懸念を理由に辞任

業界・規模問わず実績5,000社以上、まずはお気軽にご相談ください

業界・規模問わず実績5,000社以上、
まずはお気軽にご相談ください