feat: capture and expose thinking tokens

devversion · devversion · commit bbb5d3cc061c · 2025-11-24T11:58:20.000+01:00
Properly captures and exposes thinking tokens in WCS.
diff --git a/examples/environments/remote_env/fake-executor.ts b/examples/environments/remote_env/fake-executor.ts
@@ -29,7 +29,7 @@ export class FakeRemoteExecutor implements Executor {
       outputFiles: [{code: 'angular.dev Works', filePath: 'main.ts'}],
       reasoning: '',
       errors: [],
-      usage: {inputTokens: 0, totalTokens: 0, outputTokens: 0},
+      usage: {inputTokens: 0, totalTokens: 0, outputTokens: 0, thinkingTokens: 0},
     };
   }
 
diff --git a/report-app/src/app/pages/report-viewer/report-viewer.html b/report-app/src/app/pages/report-viewer/report-viewer.html
@@ -140,6 +140,12 @@ <h3>Usage Details</h3>
             Output tokens: {{ details.summary.usage.outputTokens | number }}
           </li>
 
+          @if (details.summary.usage.thinkingTokens != null) {
+            <li class="status-badge neutral">
+              Thinking tokens: {{ details.summary.usage.thinkingTokens | number }}
+            </li>
+          }
+
           @if (details.summary.usage.totalTokens != null) {
             <li class="status-badge neutral">
               Total tokens: {{ details.summary.usage.totalTokens | number }}
diff --git a/runner/codegen/ai-sdk-runner.ts b/runner/codegen/ai-sdk-runner.ts
@@ -64,7 +64,12 @@ export class AiSDKRunner implements LlmRunner {
     return {
       reasoning: response.reasoningText ?? '',
       text: response.text,
-      usage: response.usage,
+      usage: {
+        inputTokens: response.usage.inputTokens ?? 0,
+        outputTokens: response.usage.outputTokens ?? 0,
+        thinkingTokens: response.usage.reasoningTokens ?? 0,
+        totalTokens: response.usage.totalTokens ?? 0,
+      },
       // TODO: Consider supporting `toolLogs` and MCP here.
     };
   }
@@ -85,7 +90,12 @@ export class AiSDKRunner implements LlmRunner {
     return {
       reasoning: response.reasoning ?? '',
       output: response.object,
-      usage: response.usage,
+      usage: {
+        inputTokens: response.usage.inputTokens ?? 0,
+        outputTokens: response.usage.outputTokens ?? 0,
+        thinkingTokens: response.usage.reasoningTokens ?? 0,
+        totalTokens: response.usage.totalTokens ?? 0,
+      },
       // TODO: Consider supporting `toolLogs` and MCP here.
     };
   }
diff --git a/runner/codegen/genkit/genkit-runner.ts b/runner/codegen/genkit/genkit-runner.ts
@@ -27,7 +27,7 @@ import {GenkitLogger} from './genkit-logger.js';
 import {MODEL_PROVIDERS} from './models.js';
 import {UserFacingError} from '../../utils/errors.js';
 import {GenkitModelProvider, PromptDataForCounting} from './model-provider.js';
-import {ToolLogEntry} from '../../shared-interfaces.js';
+import {ToolLogEntry, Usage} from '../../shared-interfaces.js';
 import {combineAbortSignals} from '../../utils/abort-signal.js';
 import {toToolDefinition} from 'genkit/tool';
 
@@ -58,7 +58,12 @@ export class GenkitRunner implements LlmRunner {
 
     return {
       output: result.output,
-      usage: result.usage,
+      usage: {
+        inputTokens: result.usage.inputTokens ?? 0,
+        outputTokens: result.usage.outputTokens ?? 0,
+        thinkingTokens: result.usage.thoughtsTokens ?? 0,
+        totalTokens: result.usage.totalTokens ?? 0,
+      },
       reasoning: result.reasoning,
     };
   }
@@ -93,7 +98,12 @@ export class GenkitRunner implements LlmRunner {
 
     return {
       files,
-      usage: result.usage,
+      usage: {
+        inputTokens: result.usage.inputTokens ?? 0,
+        outputTokens: result.usage.outputTokens ?? 0,
+        thinkingTokens: result.usage.thoughtsTokens ?? 0,
+        totalTokens: result.usage.totalTokens ?? 0,
+      },
       reasoning: result.reasoning,
       toolLogs: this.flushToolLogs(),
     };
@@ -111,7 +121,12 @@ export class GenkitRunner implements LlmRunner {
 
     return {
       text: result.text,
-      usage: result.usage,
+      usage: {
+        inputTokens: result.usage.inputTokens ?? 0,
+        outputTokens: result.usage.outputTokens ?? 0,
+        thinkingTokens: result.usage.thoughtsTokens ?? 0,
+        totalTokens: result.usage.totalTokens ?? 0,
+      },
       reasoning: result.reasoning,
       toolLogs: this.flushToolLogs(),
     };
diff --git a/runner/codegen/llm-runner.ts b/runner/codegen/llm-runner.ts
@@ -136,15 +136,15 @@ export interface LocalLlmConstrainedOutputGenerateResponse<T extends z.ZodTypeAn
   /** Result generated by the LLM. */
   output: z.infer<T> | null;
   /** Token usage data, if available. */
-  usage?: Partial<Usage>;
+  usage?: Usage;
   /** Reasoning messages from the LLM. */
   reasoning: string;
 }
 
 /** LLM response. */
 interface BaseLlmGenerateResponse {
   /** Token usage data, if available. */
-  usage?: Partial<Usage>;
+  usage?: Usage;
   /** Reasoning messages from the LLM. */
   reasoning: string;
   /** Tool requests and responses. */
diff --git a/runner/orchestration/build-serve-test-loop.ts b/runner/orchestration/build-serve-test-loop.ts
@@ -78,7 +78,7 @@ export async function attemptBuildAndTest(
   const initialAttempt = {
     outputFiles: initialResponse.files,
     usage: {
-      ...{inputTokens: 0, outputTokens: 0, totalTokens: 0},
+      ...{inputTokens: 0, outputTokens: 0, totalTokens: 0, thinkingTokens: 0},
       ...initialResponse.usage,
     },
     reasoning: initialResponse.reasoning,
diff --git a/runner/orchestration/codegen.ts b/runner/orchestration/codegen.ts
@@ -48,6 +48,7 @@ export async function generateCodeWithAI(
       inputTokens: response.usage?.inputTokens ?? 0,
       outputTokens: response.usage?.outputTokens ?? 0,
       totalTokens: response.usage?.totalTokens ?? 0,
+      thinkingTokens: response.usage?.thinkingTokens ?? 0,
     };
     reasoning = response.reasoning;
     toolLogs = response.toolLogs ?? [];
@@ -65,7 +66,7 @@ export async function generateCodeWithAI(
 
     success = true;
   } catch (error) {
-    usage = {inputTokens: 0, outputTokens: 0, totalTokens: 0};
+    usage = {inputTokens: 0, outputTokens: 0, totalTokens: 0, thinkingTokens: 0};
     success = false;
     reasoning = '';
     toolLogs = [];
@@ -161,7 +162,20 @@ export function prepareContextFilesMessage(
 }
 
 export function createLlmResponseTokenUsageMessage(response: LlmResponse): string | null {
-  return response.usage.inputTokens || response.usage.outputTokens || response.usage.totalTokens
-    ? `(input tokens: ${response.usage.inputTokens}, output tokens: ${response.usage.outputTokens}, total tokens: ${response.usage.totalTokens})`
-    : null;
+  const usage = response?.usage;
+  if (!usage) {
+    return null;
+  }
+
+  // 2. Build the token detail string parts
+  const input = usage.inputTokens !== undefined ? `input tokens: ${usage.inputTokens}` : '';
+  const output = usage.outputTokens !== undefined ? `output tokens: ${usage.outputTokens}` : '';
+  const thinking =
+    usage.thinkingTokens !== undefined ? `thinking tokens: ${usage.thinkingTokens}` : '';
+  const total = usage.totalTokens !== undefined ? `total tokens: ${usage.totalTokens}` : '';
+
+  // 3. Filter out empty strings and join with a separator
+  const parts = [input, output, thinking, total].filter(part => part !== '');
+
+  return parts.length > 0 ? `(${parts.join(', ')})` : null;
 }
diff --git a/runner/orchestration/generate-initial-files.ts b/runner/orchestration/generate-initial-files.ts
@@ -55,6 +55,8 @@ export async function generateInitialFiles(
       usage: {
         inputTokens: 0,
         outputTokens: 0,
+        thinkingTokens: 0,
+        totalTokens: 0,
       } satisfies Usage,
       // TODO: We could also try save/restore reasoning locally.
       reasoning: '',
diff --git a/runner/orchestration/generate-summary.ts b/runner/orchestration/generate-summary.ts
@@ -18,22 +18,25 @@ export async function prepareSummary(
 ): Promise<RunSummary> {
   let inputTokens = 0;
   let outputTokens = 0;
+  let thinkingTokens = 0;
   let totalTokens = 0;
 
   assessments.forEach(result => {
     // Incorporate usage from running raters.
     if (result.score.tokenUsage) {
       inputTokens += result.score.tokenUsage.inputTokens;
       outputTokens += result.score.tokenUsage.outputTokens;
-      totalTokens += result.score.tokenUsage.totalTokens ?? 0;
+      totalTokens += result.score.tokenUsage.totalTokens;
+      thinkingTokens += result.score.tokenUsage.thinkingTokens;
     }
 
     // Incorporate usage numbers from all generate + build attempts.
     result.attemptDetails.forEach(attempt => {
       if (attempt.usage) {
-        inputTokens += attempt.usage.inputTokens ?? 0;
-        outputTokens += attempt.usage.outputTokens ?? 0;
-        totalTokens += attempt.usage.totalTokens ?? 0;
+        inputTokens += attempt.usage.inputTokens;
+        outputTokens += attempt.usage.outputTokens;
+        totalTokens += attempt.usage.totalTokens;
+        thinkingTokens += attempt.usage.thinkingTokens;
       }
     });
   });
@@ -45,6 +48,7 @@ export async function prepareSummary(
       const result = await summarizeReportWithAI(generateAiSummaryLlm, abortSignal, assessments);
       inputTokens += result.usage.inputTokens;
       outputTokens += result.usage.outputTokens;
+      thinkingTokens += result.usage.thinkingTokens;
       totalTokens += result.usage.totalTokens;
       aiSummary = result.responseHtml;
       console.log(`✅ Generated AI summary.`);
@@ -78,6 +82,7 @@ export async function prepareSummary(
     usage: {
       inputTokens,
       outputTokens,
+      thinkingTokens,
       totalTokens,
     },
     runner: {
diff --git a/runner/orchestration/user-journeys.ts b/runner/orchestration/user-journeys.ts
@@ -131,6 +131,7 @@ Create a modern, single-page web application that allows users to find recipes b
       inputTokens: result.usage?.inputTokens ?? 0,
       outputTokens: result.usage?.outputTokens ?? 0,
       totalTokens: result.usage?.totalTokens ?? 0,
+      thinkingTokens: result.usage?.thinkingTokens ?? 0,
     },
     result: result.output,
   };
diff --git a/runner/ratings/autoraters/code-rater.ts b/runner/ratings/autoraters/code-rater.ts
@@ -104,6 +104,7 @@ export async function autoRateCode(
       inputTokens: result.usage?.inputTokens ?? 0,
       outputTokens: result.usage?.outputTokens ?? 0,
       totalTokens: result.usage?.totalTokens ?? 0,
+      thinkingTokens: result.usage?.thinkingTokens ?? 0,
     },
     details: result.output!,
   };
diff --git a/runner/ratings/autoraters/visuals-rater.ts b/runner/ratings/autoraters/visuals-rater.ts
@@ -75,6 +75,7 @@ export async function autoRateAppearance(
       inputTokens: result.usage?.inputTokens ?? 0,
       outputTokens: result.usage?.outputTokens ?? 0,
       totalTokens: result.usage?.totalTokens ?? 0,
+      thinkingTokens: result.usage?.thinkingTokens ?? 0,
     },
     details: output,
   };
diff --git a/runner/ratings/rate-code.ts b/runner/ratings/rate-code.ts
@@ -9,6 +9,7 @@ import {
   PromptDefinition,
   AssessmentCategory,
   TestExecutionResult,
+  Usage,
 } from '../shared-interfaces.js';
 import {
   RatingState,
@@ -71,7 +72,8 @@ export async function rateGeneratedCode(
     inputTokens: 0,
     outputTokens: 0,
     totalTokens: 0,
-  };
+    thinkingTokens: 0,
+  } satisfies Usage;
 
   progress.log(currentPromptDef, 'eval', 'Rating generated code');
 
@@ -132,9 +134,10 @@ export async function rateGeneratedCode(
     }
 
     if (result.state === IndividualAssessmentState.EXECUTED && result.usage) {
-      tokenUsage.inputTokens += result.usage.inputTokens;
-      tokenUsage.outputTokens += result.usage.outputTokens;
+      tokenUsage.inputTokens += result.usage.inputTokens ?? 0;
+      tokenUsage.outputTokens += result.usage.outputTokens ?? 0;
       tokenUsage.totalTokens += result.usage.totalTokens ?? 0;
+      tokenUsage.thinkingTokens += result.usage.thinkingTokens ?? 0;
     }
 
     const category = categories.find(c => c.id === result.category);
diff --git a/runner/reporting/report-ai-chat.ts b/runner/reporting/report-ai-chat.ts
@@ -120,6 +120,7 @@ ${serializeReportForPrompt(assessmentsToProcess, contextFilters)}
       inputTokens: result.usage?.inputTokens ?? 0,
       outputTokens: result.usage?.outputTokens ?? 0,
       totalTokens: result.usage?.totalTokens ?? 0,
+      thinkingTokens: result.usage?.thinkingTokens ?? 0,
     },
   };
 }
diff --git a/runner/reporting/report-logging.ts b/runner/reporting/report-logging.ts
@@ -266,6 +266,7 @@ export function logReportToConsole(runInfo: RunInfo): void {
     'Usage info:',
     ` - Input tokens: ${formatTokenCount(usage.inputTokens)}`,
     ` - Output tokens: ${formatTokenCount(usage.outputTokens)}`,
+    ` - Thinking tokens: ${formatTokenCount(usage.thinkingTokens)}`,
     ` - Total tokens: ${formatTokenCount(usage.totalTokens)}`,
   ].filter(line => line != null);
 
diff --git a/runner/shared-interfaces.ts b/runner/shared-interfaces.ts
@@ -108,14 +108,21 @@ export interface Usage {
   inputTokens: number;
   /** Number of output tokens produced. */
   outputTokens: number;
+  /**
+   * Thinking tokens.
+   *
+   * This could be `0` for models not using thinking, or model providers
+   * that include tokens directly in `outputTokens`.
+   */
+  thinkingTokens: number;
   /**
    * Number of total tokens involved.
    *
    * This number can be different from `input + output`. Presumably
    * due to e.g. thinking process of models. See:
    * https://ai.google.dev/gemini-api/docs/thinking.
-   * */
-  totalTokens?: number;
+   */
+  totalTokens: number;
 }
 
 /**

Original file line number	Diff line number	Diff line change
`@@ -29,7 +29,7 @@ export class FakeRemoteExecutor implements Executor {`
`29`	`29`	`outputFiles: [{code: 'angular.dev Works', filePath: 'main.ts'}],`
`30`	`30`	`reasoning: '',`
`31`	`31`	`errors: [],`
`32`		`- usage: {inputTokens: 0, totalTokens: 0, outputTokens: 0},`
	`32`	`+ usage: {inputTokens: 0, totalTokens: 0, outputTokens: 0, thinkingTokens: 0},`
`33`	`33`	`};`
`34`	`34`	`}`
`35`	`35`