Claude Opus 4.7の調査結果
リリース背景と概要
Anthropicは2026年4月16日、同社の最上位モデル「Claude Opus 4.7」を公開しました。これは約2か月ごとに更新されるOpusシリーズの最新版で、性能を大きく伸ばしたにもかかわらず、料金は従来のOpus 4.6と同じままです。Opus 4.7は高度なコーディングや長時間のエージェント作業、より高解像度の視覚入力に対応するために設計されたモデルであり、開発者が最も時間を要する領域(複雑なソフトウェア開発やマルチステップタスク)を効率化することを目指しています。
主なアップグレード点
ソフトウェアエンジニアリングとエージェント性能向上
Opus 4.7はコード生成やバグ修正などのソフトウェアエンジニアリング能力が大幅に向上しました。SWE‑bench Proでは従来版の53.4 %から64.3 %へと改善し、ライバルであるGPT‑5.4(57.7 %)やGemini 3.1 Pro(54.2 %)を上回りました。SWE‑bench Verifiedでは87.6 %(前版は80.8 %)に達し、コーディング課題に対する解決数も約3倍に増えています。また、CursorBenchでは12ポイントの向上(58 %→70 %)が報告され、Opus 4.7は長時間のエージェント型コーディングや複雑な開発タスクにおいてより信頼できるモデルになりました。
高解像度ビジョン機能
新しいビジョンエンジンは高解像度画像の読み込みに対応し、最大2,576ピクセル、約3.75メガピクセルの画像を1:1ピクセルマッピングで処理できます。これにより文書や図表の細かな要素を正確に読み取り、スライド・文書生成やプロフェッショナルなデザインの質が向上しました。早期テストでは視覚的な精度が従来の54.5 %から98.5 %に大幅向上し、大きな画像を使ったナビゲーションやコンピュータビジョンタスクで高い評価を得ています。
長期コンテキストとメモリ強化
Opus 4.7は100万トークンのコンテキストウィンドウと最大128kトークンの出力をサポートします。長文の報告書やコードベースを丸ごと保持しながら会話できるため、長期的なエージェントタスクやドキュメント分析に適しています。また、ファイルシステムベースのメモリ機能を導入し、セッションをまたいでメモや進捗を記憶できるため、連続的な作業が容易になったと報告されています。
新機能: xhigh労力レベル、タスク予算、ultrareview・Autoモード
Anthropicはモデルに投入する計算コスト(内部思考量)を制御する「労力 (effort) レベル」に新しいxhighを追加しました。これは従来のhighとmaxの中間で、複雑な問題に対してより長い内部推論を行い精度を高めます。Claude Codeではデフォルト労力がxhighに設定されており、推論品質向上の代わりにトークン消費が10〜40 %増加する場合があります。
マルチステップのエージェントループが暴走して大量のトークンを消費するのを防ぐため、タスク予算 (task budgets) がβ機能として導入されました。開発者はタスク全体のトークン上限を指定し、モデルは残りの予算を見ながら作業の優先度を調整し、予算が尽きると適切に終了します。さらに、Claude Codeには**/ultrareview**コマンドが新設され、コード変更を読み込み人間による丁寧なレビューに近い指摘を行うセッションを実行できます。ProおよびMaxプランのユーザーにはこのウルトラレビューが試用回数として提供されます。Maxプラン利用者にはClaudeが自律的に意思決定を行う「Auto モード」も解禁されました。
新しいトークナイザーとコストへの影響
Opus 4.7では新しいトークナイザーが採用され、従来のトークナイザーに比べ同じテキストを1.0〜1.35倍多くのトークンに分割します。このため、利用料金は入力・出力とも1トークンあたり$0.000005(100万入力トークンあたり$5)、出力100万トークンあたり$25と従来と同じでも、実際のトークン消費が増える可能性がある点に注意が必要です。
変更点と移行における注意
Opus 4.7への移行では下記の破壊的変更が発生します。まず、従来のextended_thinkingなどの拡張思考予算パラメータは削除され、adaptive思考モードのみ利用可能になりました。また、**温度 (temperature)、top_p、top_k**などのサンプリングパラメータが廃止され、出力のランダム性を調整できなくなっています。モデル識別子はclaude-opus-4-6からclaude-opus-4-7に変更する必要があります。
新しいトークナイザーによりトークン数が増えるため、移行後は実環境でのトークン使用量を測定し、必要に応じてプロンプトや出力量を最適化することが推奨されます。特にxhigh労力レベルは出力トークン数を増やす傾向があるため、コスト管理のためにはタスク予算機能の併用が有効です。
振る舞いの変化
AnthropicはOpus 4.7でモデルの振る舞いを調整しました。最も顕著なのは指示の逐語的解釈で、以前のモデルのように曖昧な指示を補完することが少なくなっています。例えば「JSON形式で返答して下さい」と指示すると、前置きの文章なしにJSONのみを返します。このため既存のプロンプトは再調整が必要です。さらに、タスクの複雑さに応じて応答の長さを調整し、必要のないツール呼び出しや冗長な思考を避けるようになりました。
安全面では、AnthropicがProject Glasswingを通じて導入したサイバーセキュリティ対策が組み込まれており、高リスクなサイバー攻撃用途を自動的に検出・遮断します。セキュリティ専門家はCyber Verification Programに申請することで、合法的なペネトレーションテストや脆弱性評価にOpus 4.7を利用できます。
価格・利用方法
料金体系はOpus 4.6から変更されていません。入力トークン100万あたり$5、出力トークン100万あたり$25という定額制で、長コンテキスト利用に追加料金はありません。Claudeプラットフォームに加え、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryなど各クラウド経由で利用できます。長期的なエージェントタスクでコスト管理を行う場合、タスク予算機能を活用しつつ、出力制御やプロンプトの簡素化によりトークン消費を抑えることが推奨されます。
評価とベンチマーク比較
Opus 4.7は、いくつかのベンチマークで他社モデルと比較され、以下のような特徴が報告されています:
| ベンチマーク | Opus 4.7 | Opus 4.6 | GPT‑5.4 (参考) | 内容 |
|---|---|---|---|---|
| SWE‑bench Pro | 64.3 % | 53.4 % | 57.7 % | ソフトウェア課題解決の精度 |
| SWE‑bench Verified | 87.6 % | 80.8 % | 80.6 % | コーディング課題の正確性 |
| CursorBench | 70 % | 58 % | – | 開発環境での長時間利用評価 |
| Visual Navigation | 79.5 % | 57.7 % | – | 大規模画像を用いた視覚ナビゲーション |
| GPQA Diamond | 94.2 % | – | ≈94 % | 大学院レベルの推論能力 |
| Terminal‑Bench 2.0 | 69.4 % | – | 75.1 % | ターミナル自動化能力 |
Labellerrの調査によると、Opus 4.7はBrowseCompベンチマークでは前バージョンより少し低下するものの、総合的にはOpus 4.6やGPT‑5.4より優れ、公開されているモデルの中で最も高い性能を提供しています。ただし、Anthropicが限定公開しているClaude Mythos Previewは、さらに高い性能を示しており、Opus 4.7は安全性検証のために能力を抑えたテストベッドと位置付けられています。
安全性とMythosとの関係
Anthropicは先進モデル「Mythos Preview」を一部パートナーにのみ提供しており、Opus 4.7はその前哨モデルとして位置付けられています。Opus 4.7は高度なサイバーセーフガードを実装し、危険なサイバー攻撃用途を自動的にブロックする仕組みを初めて実運用しています。Anthropicは実世界での安全運用から得られる知見を基に、今後Mythosクラスのモデルの公開範囲を拡大する計画であると述べています。
Opus 4.7の適用例とアドバイス
Opus 4.7は以下のような用途で特に高い効果を発揮します:
- 高度なソフトウェア開発と自律エージェント:コード生成・デバッグ・リファクタリングや長期的なマルチステップタスクにおいて、複雑な問題を自律的に解決できるため、開発者は監督を減らし高難度タスクを委任できます。
- 高解像度画像や長文ドキュメントの解析:3.75 MPの高解像度画像を扱えるため、細かい図表や設計図の理解、スライドやプレゼン資料の作成などに適しています。
- 長期間のプロジェクトやドキュメント作成:100万トークンのコンテキストとファイルベースのメモリにより、セッションをまたいで情報を保持し、継続的な作業に活用できます。
利用に際しては、プロンプトの具体性を高めることが不可欠です。Opus 4.7は曖昧な指示を補完しなくなったため、「何文字以内で」「JSONのみで」など形式や条件を明示すると意図した出力が得られます。また、新トークナイザーによるトークン増加とxhigh労力のコスト増を考慮し、タスク予算機能で上限を設定したり、プロンプトや出力を適切に切り詰めるなどのコスト管理が重要です。
まとめ
Claude Opus 4.7はOpus 4.6から大幅に進化し、ソフトウェアエンジニアリング、視覚理解、長期的なエージェント運用で顕著な性能向上を示しました。高解像度画像処理や1Mトークンのコンテキスト、xhigh労力レベル、タスク予算といった新機能により、長時間の複雑なタスクをより正確に、そして安全に遂行できるモデルに仕上がっています。一方で、トークナイザーの変更によるコスト増や、指示の逐語的な解釈によって既存のプロンプトが動作しなくなる可能性もあり、移行には慎重な検証が必要です。
現在はMythos Previewほどの能力は解放されておらず、安全性を優先した設計となっていますが、それでも公開モデルの中では最高レベルの総合力を持ち、特に長期的で複雑な作業を必要とするビジネスや開発者にとって有力な選択肢となります。




