Claude Code2026年6月2日

advisor tool に出力上限の max_tokens を追加

advisor tool の長い応答が不要なのに遅延と出力トークンコストに悩む開発者は、新たに max_tokens を設定して呼び出し単位で出力量を制限できるようになった。

概要

advisor tool に出力上限を設ける max_tokens が追加された。呼び出しごとに出力を抑え、遅延と出力トークンコストを下げられる。

advisor tool(助言役のモデルを呼ぶツール)を使う開発者向けに、Anthropic API が出力上限の指定に対応した。2026 年 6 月 2 日のリリースノートで、advisor ツールの定義に max_tokens を設定できるようになったと公開された。フルレングスの応答が不要なワークロードで、advisor モデルの出力を呼び出し単位で抑えられる。

変更点

呼び出し単位で advisor の出力量を制限

advisor tool が新パラメータ max_tokens に対応した。ツール定義の tools[].max_tokens に値を設定すると、advisor モデルが 1 回の呼び出しで返す出力をその上限で打ち切れる。これまで上限を持たなかった advisor の出力を、用途に応じて切り詰められる。

短い応答で十分な処理の遅延とコストを削減

出力を制限する狙いは、遅延と出力トークンコストの削減にある。advisor の長い応答を必要としないワークロードでは、上限を設けることで応答が早く返り、課金対象の出力トークンも減る。詳細はドキュメントの「Capping advisor output」に記載されている。

開発者への影響

advisor tool を組み込み済みの開発者にとって、出力が短くて済む処理ほど効果が大きい。既存の定義に max_tokens を 1 つ加えるだけで適用でき、破壊的変更は伴わない。応答が長すぎてコストや待ち時間が気になっていた場合に有効。

使い方の一例

使い方の一例として、advisor tool の定義オブジェクトに tools[].max_tokens を加える。短い助言で足りる処理なら小さめの値を設定し、advisor モデルの出力をその範囲で打ち切らせることで、遅延と出力トークンコストを抑えられる。

出典

参照元

https://docs.claude.com/en/release-notes/api#june-2-2026

この記事は AI によって生成されました。事実関係は必ず原典(参照元)でご確認ください。