fix: enable handleLLMNewToken events for useResponsesApi=true (#8578)

ninjudd · hntrl · web-flow · commit cc4ff80fe1fc · 2025-08-04T00:36:19.000-07:00
Co-authored-by: Hunter Lovell &lt;hunter@hntrl.io&gt;
diff --git a/libs/langchain-openai/src/chat_models.ts b/libs/langchain-openai/src/chat_models.ts
@@ -1544,7 +1544,8 @@ export class ChatOpenAIResponses<
 
   async *_streamResponseChunks(
     messages: BaseMessage[],
-    options: this["ParsedCallOptions"]
+    options: this["ParsedCallOptions"],
+    runManager?: CallbackManagerForLLMRun
   ): AsyncGenerator<ChatGenerationChunk> {
     const streamIterable = await this.completionWithRetry(
       {
@@ -1559,6 +1560,17 @@ export class ChatOpenAIResponses<
       const chunk = this._convertResponsesDeltaToBaseMessageChunk(data);
       if (chunk == null) continue;
       yield chunk;
+      await runManager?.handleLLMNewToken(
+        chunk.text || "",
+        {
+          prompt: options.promptIndex ?? 0,
+          completion: 0,
+        },
+        undefined,
+        undefined,
+        undefined,
+        { chunk }
+      );
     }
   }
 
@@ -3377,7 +3389,8 @@ export class ChatOpenAI<
     if (this._useResponsesApi(options)) {
       yield* this.responses._streamResponseChunks(
         messages,
-        this._combineCallOptions(options)
+        this._combineCallOptions(options),
+        runManager
       );
       return;
     }
diff --git a/libs/langchain-openai/src/tests/chat_models_responses.int.test.ts b/libs/langchain-openai/src/tests/chat_models_responses.int.test.ts
@@ -766,3 +766,60 @@ describe("reasoning summaries", () => {
     expect(response).toBeDefined();
   });
 });
+
+// https://github.com/langchain-ai/langchainjs/issues/8577
+test("useResponsesApi=true should emit handleLLMNewToken events during streaming", async () => {
+  // This test demonstrates that when useResponsesApi=true is enabled,
+  // the ChatOpenAI class properly passes the runManager parameter to
+  // ChatOpenAIResponses._streamResponseChunks, allowing handleLLMNewToken
+  // events to be emitted during streaming.
+
+  const model = new ChatOpenAI({
+    model: "gpt-4o-mini",
+    useResponsesApi: true,
+  });
+
+  const messages = [new HumanMessage("Say 'Hello world' in 3 words.")];
+
+  // Track handleLLMNewToken events
+  const newTokenEvents: string[] = [];
+  let handleLLMNewTokenCalled = false;
+
+  const stream = model.streamEvents(messages, {
+    version: "v2",
+    callbacks: [
+      {
+        handleLLMNewToken(token: string) {
+          handleLLMNewTokenCalled = true;
+          newTokenEvents.push(token);
+        },
+      },
+    ],
+  });
+
+  // Collect all events
+  const events = [];
+  for await (const event of stream) {
+    events.push(event);
+  }
+
+  // Verify that handleLLMNewToken was called with individual tokens
+  expect(handleLLMNewTokenCalled).toBe(true);
+  expect(newTokenEvents.length).toBeGreaterThan(0);
+
+  // Verify we have streaming events
+  const streamingEvents = events.filter(
+    (event) => event.event === "on_chat_model_stream"
+  );
+  expect(streamingEvents.length).toBeGreaterThan(0);
+
+  // Verify we have the start and end events
+  const startEvents = events.filter(
+    (event) => event.event === "on_chat_model_start"
+  );
+  const endEvents = events.filter(
+    (event) => event.event === "on_chat_model_end"
+  );
+  expect(startEvents.length).toBeGreaterThan(0);
+  expect(endEvents.length).toBeGreaterThan(0);
+});