advisor tool に出力上限の max_tokens を追加
advisor tool の長い応答が不要なのに遅延と出力トークンコストに悩む開発者は、新たに max_tokens を設定して呼び出し単位で出力量を制限できるようになった。
概要
advisor tool に出力上限を設ける max_tokens が追加された。呼び出しごとに出力を抑え、遅延と出力トークンコストを下げられる。
advisor tool(助言役のモデルを呼ぶツール)を使う開発者向けに、Anthropic API が出力上限の指定に対応した。2026 年 6 月 2 日のリリースノートで、advisor ツールの定義に max_tokens を設定できるようになったと公開された。フルレングスの応答が不要なワークロードで、advisor モデルの出力を呼び出し単位で抑えられる。
変更点
呼び出し単位で advisor の出力量を制限
advisor tool が新パラメータ max_tokens に対応した。ツール定義の tools[].max_tokens に値を設定すると、advisor モデルが 1 回の呼び出しで返す出力をその上限で打ち切れる。これまで上限を持たなかった advisor の出力を、用途に応じて切り詰められる。
短い応答で十分な処理の遅延とコストを削減
出力を制限する狙いは、遅延と出力トークンコストの削減にある。advisor の長い応答を必要としないワークロードでは、上限を設けることで応答が早く返り、課金対象の出力トークンも減る。詳細はドキュメントの「Capping advisor output」に記載されている。
開発者への影響
advisor tool を組み込み済みの開発者にとって、出力が短くて済む処理ほど効果が大きい。既存の定義に max_tokens を 1 つ加えるだけで適用でき、破壊的変更は伴わない。応答が長すぎてコストや待ち時間が気になっていた場合に有効。
使い方の一例
使い方の一例として、advisor tool の定義オブジェクトに tools[].max_tokens を加える。短い助言で足りる処理なら小さめの値を設定し、advisor モデルの出力をその範囲で打ち切らせることで、遅延と出力トークンコストを抑えられる。