[#11992][fix] Support include_stop_token_in_output in gRPC request manager (#12517)

CatherineSue · web-flow · commit db1c637007b0 · 2026-03-30T06:21:36.000-04:00
Signed-off-by: Chang Su &lt;chang.s.su@oracle.com&gt;
diff --git a/tensorrt_llm/grpc/grpc_request_manager.py b/tensorrt_llm/grpc/grpc_request_manager.py
@@ -246,6 +246,7 @@ def create_sampling_params_from_proto(
     bad_token_ids: Optional[List[int]] = None,
     guided_decoding: Optional[pb2.GuidedDecodingParams] = None,
     embedding_bias: Optional[List[float]] = None,
+    include_stop_token_in_output: bool = False,
 ) -> SamplingParams:
     """Convert protobuf configuration to TensorRT-LLM SamplingParams.
 
@@ -332,6 +333,8 @@ def create_sampling_params_from_proto(
         kwargs["stop_token_ids"] = stop_token_ids
     if ignore_eos:
         kwargs["ignore_eos"] = True
+    if include_stop_token_in_output:
+        kwargs["include_stop_str_in_output"] = True
 
     # Bad words (TRT-LLM's _setup() tokenizes bad word strings)
     if bad:
diff --git a/tensorrt_llm/grpc/grpc_servicer.py b/tensorrt_llm/grpc/grpc_servicer.py
@@ -106,6 +106,7 @@ async def Generate(
                 if request.HasField("guided_decoding")
                 else None,
                 embedding_bias=list(request.embedding_bias) if request.embedding_bias else None,
+                include_stop_token_in_output=request.include_stop_token_in_output,
             )
 
             # Build LoRA request if present

Original file line number	Diff line number	Diff line change
`@@ -106,6 +106,7 @@ async def Generate(`
`106`	`106`	`if request.HasField("guided_decoding")`
`107`	`107`	`else None,`
`108`	`108`	`embedding_bias=list(request.embedding_bias) if request.embedding_bias else None,`
	`109`	`+ include_stop_token_in_output=request.include_stop_token_in_output,`
`109`	`110`	`)`
`110`	`111`
`111`	`112`	`# Build LoRA request if present`