Avoid aliasing in cond's branches for torch 2.8 (#39488)

ydwu4 · ydshieh · web-flow · commit 78ef84921bca · 2025-08-05T11:18:11.000+02:00
Avoid alaising in cond's branches

Co-authored-by: Yih-Dar &lt;2521628+ydshieh@users.noreply.github.com&gt;
diff --git a/src/transformers/generation/utils.py b/src/transformers/generation/utils.py
@@ -507,21 +507,22 @@ def _cache_dependant_input_preparation_exporting(
             #     else:
             #         if input_ids.shape[1] != cache_position.shape[0]:
             #             input_ids = input_ids[:, cache_position]
+            # We need to clone the outputs to avoid aliasing.
             def branch_1(inputs_embeds, cache_position):
-                return inputs_embeds[:, -cache_position.shape[0] :]
+                return inputs_embeds[:, -cache_position.shape[0] :].clone()
 
             def branch_2(input_ids, cache_position):
-                return input_ids[:, -cache_position.shape[0] :]
+                return input_ids[:, -cache_position.shape[0] :].clone()
 
             def branch_3(input_ids, cache_position):
-                return input_ids[:, cache_position]
+                return input_ids[:, cache_position].clone()
 
             inputs_embeds, input_ids = torch.cond(
                 input_ids.shape[1] == 0,
                 (
                     lambda input_ids, inputs_embeds, cache_position: (
                         branch_1(inputs_embeds, cache_position),
-                        input_ids,
+                        input_ids.clone(),
                     )
                 ),
                 (
@@ -534,7 +535,7 @@ def branch_3(input_ids, cache_position):
                                 torch.cond(
                                     input_ids.shape[1] != cache_position.shape[0],
                                     branch_3,
-                                    (lambda input_ids, cache_position: input_ids),
+                                    (lambda input_ids, cache_position: input_ids.clone()),
                                     [input_ids, cache_position],
                                 )
                             ),