5万回の評価で判明　VS Code開発チームが明かす「小型AI」の罠：30種類のモデルを検証　理論値の...

5万回の評価で判明　VS Code開発チームが明かす「小型AI」の罠：30種類のモデルを検証　理論値の「約74倍」トークンを浪費したモデルも - ＠IT

要約:

■ 1. 背景: AIエージェントとトークンコストの課題

生成AIによるソフトウェア開発が標準化する中、LLM APIのコストが課題として顕在化している

主要モデルのAPIは従量課金制であり、ループ処理や複雑なツール呼び出しでコストが急増する

コスト・利用上限はトークン数（入出力）とコンテキストウィンドウの制限に依存する

トークン数をいかに抑えるかがエージェント開発・運用において極めて重要とされる

■ 2. VS Code Eval Teamによる「say_hello」検証の概要

検証内容: 「HELLO.txtを作成し『HELLO』と書き込む」という最小タスクを繰り返し実行

実施規模: 30種類のモデルで累計5万974回を検証

理論値: ファイル作成ツール1回の呼び出し（約50トークン）が最短実行ルート

結果: 一部モデルはタスク成功にもかかわらず、平均3676トークン（理論値の約74倍）を浪費

■ 3. トークンを浪費するモデルの4つの行動パターン

空のワークスペースを「探索」し続ける:

「空のワークスペース」とコンテキストで共有済みにもかかわらず、96%の確率でディレクトリ検索を開始

不要なAPIコールが繰り返し発生する

思考プロセスのナレーションを延々と出力する:

ツール実行の指示に対し、エージェント自身のリーズニングプロセスをそのままテキスト出力する

数千トークン規模の浪費に直結する

タスクに対して「高機能過ぎるツール」を選択する:

テキストファイル作成の指示に対し、差分修正ツールを呼び出すなど手段のミスマッチが発生する

1ステップの作業に4工程の計画を策定する:

1アクションで完了するタスクに対し、チェックリストや計画書を自ら作成してステップを細分化する

共通の問題点:

これらは実行エラーとして検出されない

外部からは正常動作に見えるが、裏側で想定外のトークン課金が発生する

■ 4. 「小型モデル＝低コスト」という誤解

モデルサイズが小さいほど低コストという先入観を捨てる必要がある

同一ファミリー内での比較結果:

大規模モデル（Model-F）: 平均160トークン（規律正しく処理）

小規模モデル（Model-H）: 平均485トークン

ミニモデル（Model-AB）: 平均3676トークン（最大の浪費）

パラメーター数の少なさがトークン節約に直結しないことが実証された

■ 5. コスト最適化のための3つの推奨アプローチ

アプローチ1: タスクに合ったモデルを選択する:

トークン単価ではなく、実際のトークン消費量を基準にモデルを評価する

アプローチ2: 最小タスクによる継続的な測定を実施する:

曖昧さがなく結果が固定された最小タスクを定義し、毎晩のテストやインフラ変更時に一貫して実行する

タスクを極小・安定させることで、合格率・レイテンシ・トークン消費量の変化をシステムやモデルの純粋な変調として可視化できる

アプローチ3: ツール呼び出しのシーケンス（順序）をログに記録する:

単なる成否や回数ではなく、詳細な行動プロセスの履歴を残す

オーバーヘッドの正体を特定し、コスト増加の原因究明が可能になる

VS CodeのChat Debug Viewなどを活用してツール呼び出しを検査することを推奨している

■ 6. 記者による考察

トークン単価の安さだけでモデルを選定すると、消費量の膨張でコストメリットが相殺されるリスクがある

過剰思考は課金額の問題にとどまらず、実行速度の低下や処理の不確実性によるUX・システム信頼性へのリスクも伴う

ツール呼び出しの「軌跡」を評価すること、および設計初期段階から評価基盤を組み込む重要性はVS Codeチームの事例でも裏付けられた

評価環境の構築・運用に人的リソースを割けない企業にとっては、「LLM-as-a-Judge」のようなエコシステムの自社構築がAI活用の成否を分けるポイントとなる

MEMO:

要するに頭の悪いLLMは無駄なタスクを繰り返してトークンを浪費するということだろうか
ハーネスでなんとかならんもんか？

(2026/06/30)

/note/tech

5万回の評価で判明 VS Code開発チームが明かす「小型AI」の罠：30種類のモデルを検証 理論値の...

要約:

MEMO:

5万回の評価で判明　VS Code開発チームが明かす「小型AI」の罠：30種類のモデルを検証　理論値の...