Fix Gemma3N audio notebooks to use reentrant checkpointing

danielhanchen · danielhanchen · commit 977485822d05 · 2026-03-27T06:35:07.000Z
Non-reentrant gradient checkpointing (use_reentrant=False) causes AOT autograd stride assertion failures during backward pass with Gemma3N audio conformer due to variable-length audio tensors: AssertionError: expected size 2==2, stride 1928==1936 at dim=0 Switch to use_reentrant=True which avoids AOT autograd compilation of the backward pass entirely. Companion to unslothai/unsloth#4629 which adds a server-side guard.
diff --git a/nb/Gemma3N_(4B)-Audio.ipynb b/nb/Gemma3N_(4B)-Audio.ipynb
@@ -646,8 +646,8 @@
     "    args = SFTConfig(\n",
     "        per_device_train_batch_size = 2,\n",
     "        gradient_accumulation_steps = 1,\n",
-    "        # use reentrant checkpointing\n",
-    "        gradient_checkpointing_kwargs = {\"use_reentrant\": False},\n",
+    "        # Gemma3N audio requires reentrant checkpointing\n",
+    "        gradient_checkpointing_kwargs = {\"use_reentrant\": True},\n",
     "        warmup_ratio = 0.1,\n",
     "        #max_steps = 60,\n",
     "        num_train_epochs = 1,          # Set this instead of max_steps for full training runs\n",
diff --git a/nb/Kaggle-Gemma3N_(4B)-Audio.ipynb b/nb/Kaggle-Gemma3N_(4B)-Audio.ipynb
@@ -646,8 +646,8 @@
     "    args = SFTConfig(\n",
     "        per_device_train_batch_size = 2,\n",
     "        gradient_accumulation_steps = 1,\n",
-    "        # use reentrant checkpointing\n",
-    "        gradient_checkpointing_kwargs = {\"use_reentrant\": False},\n",
+    "        # Gemma3N audio requires reentrant checkpointing\n",
+    "        gradient_checkpointing_kwargs = {\"use_reentrant\": True},\n",
     "        warmup_ratio = 0.1,\n",
     "        #max_steps = 60,\n",
     "        num_train_epochs = 1,          # Set this instead of max_steps for full training runs\n",