Fix early CUDA initialisation (#41409)

hmellor · web-flow · commit 88e946e06233 · 2025-10-07T14:37:17.000+01:00
Signed-off-by: Harry Mellor &lt;19981378+hmellor@users.noreply.github.com&gt;
diff --git a/src/transformers/generation/continuous_batching/continuous_api.py b/src/transformers/generation/continuous_batching/continuous_api.py
@@ -27,7 +27,6 @@
 
 from ...configuration_utils import PreTrainedConfig
 from ...generation.configuration_utils import GenerationConfig
-from ...integrations.hub_kernels import load_and_register_kernel
 from ...utils.logging import logging
 from ...utils.metrics import ContinuousBatchProcessorMetrics, attach_tracer, traced
 from .cache import PagedAttentionCache
@@ -609,6 +608,8 @@ def __init__(
         """
         self.model = model.eval()
         if "paged|" not in model.config._attn_implementation:
+            from ...integrations.hub_kernels import load_and_register_kernel
+
             attn_implementation = "paged|" + self.model.config._attn_implementation
             load_and_register_kernel(attn_implementation)
             model.set_attn_implementation(attn_implementation)