fix: restore classical kd signal in variational distillation strategy

ooples · ooples · commit 214ff185250b · 2025-11-11T22:21:05.000-05:00
Remove incorrect (1.0 - variationalWeight) multiplication that was suppressing
the classical distillation loss and gradient instead of adding variational terms.

This fixes the critical issue where:
- When variationalWeight = 1.0, loss/gradient collapsed to zero
- When variationalWeight &lt; 1.0, only scaled classical KD without variational contribution

Changes:
- ComputeLoss: Remove (1.0 - variationalWeight) scaling from softLoss and combinedLoss
- ComputeGradient: Remove (1.0 - variationalWeight) scaling from soft and hard gradients

Note: This is a baseline fix. Full variational integration (adding variational loss/gradient
weighted by variationalWeight) requires latent representations (mean, logVar) which are not
available in current ComputeLoss/ComputeGradient signatures.

Resolves coderabbitai review comments on lines 63-85 and 87-118.
diff --git a/src/KnowledgeDistillation/Strategies/VariationalDistillationStrategy.cs b/src/KnowledgeDistillation/Strategies/VariationalDistillationStrategy.cs
@@ -68,7 +68,7 @@ public override T ComputeLoss(Vector<T> studentOutput, Vector<T> teacherOutput,
         var studentSoft = Softmax(studentOutput, Temperature);
         var teacherSoft = Softmax(teacherOutput, Temperature);
         var softLoss = KLDivergence(teacherSoft, studentSoft);
-        softLoss = NumOps.Multiply(softLoss, NumOps.FromDouble(Temperature * Temperature * (1.0 - _variationalWeight)));
+        softLoss = NumOps.Multiply(softLoss, NumOps.FromDouble(Temperature * Temperature));
 
         if (trueLabels != null)
         {
@@ -78,7 +78,7 @@ public override T ComputeLoss(Vector<T> studentOutput, Vector<T> teacherOutput,
             var combinedLoss = NumOps.Add(
                 NumOps.Multiply(NumOps.FromDouble(Alpha), hardLoss),
                 NumOps.Multiply(NumOps.FromDouble(1.0 - Alpha), softLoss));
-            return NumOps.Multiply(combinedLoss, NumOps.FromDouble(1.0 - _variationalWeight));
+            return combinedLoss;
         }
 
         return softLoss;
@@ -97,7 +97,7 @@ public override Vector<T> ComputeGradient(Vector<T> studentOutput, Vector<T> tea
         for (int i = 0; i < n; i++)
         {
             var diff = NumOps.Subtract(studentSoft[i], teacherSoft[i]);
-            gradient[i] = NumOps.Multiply(diff, NumOps.FromDouble(Temperature * Temperature * (1.0 - _variationalWeight)));
+            gradient[i] = NumOps.Multiply(diff, NumOps.FromDouble(Temperature * Temperature));
         }
 
         if (trueLabels != null)
@@ -109,8 +109,8 @@ public override Vector<T> ComputeGradient(Vector<T> studentOutput, Vector<T> tea
             {
                 var hardGrad = NumOps.Subtract(studentProbs[i], trueLabels[i]);
                 gradient[i] = NumOps.Add(
-                    NumOps.Multiply(NumOps.FromDouble(Alpha * (1.0 - _variationalWeight)), hardGrad),
-                    NumOps.Multiply(NumOps.FromDouble((1.0 - Alpha) * (1.0 - _variationalWeight)), gradient[i]));
+                    NumOps.Multiply(NumOps.FromDouble(Alpha), hardGrad),
+                    NumOps.Multiply(NumOps.FromDouble(1.0 - Alpha), gradient[i]));
             }
         }
 

Original file line number	Diff line number	Diff line change
`@@ -68,7 +68,7 @@ public override T ComputeLoss(Vector<T> studentOutput, Vector<T> teacherOutput,`
`68`	`68`	`var studentSoft = Softmax(studentOutput, Temperature);`
`69`	`69`	`var teacherSoft = Softmax(teacherOutput, Temperature);`
`70`	`70`	`var softLoss = KLDivergence(teacherSoft, studentSoft);`
`71`		`- softLoss = NumOps.Multiply(softLoss, NumOps.FromDouble(Temperature * Temperature * (1.0 - _variationalWeight)));`
	`71`	`+ softLoss = NumOps.Multiply(softLoss, NumOps.FromDouble(Temperature * Temperature));`
`72`	`72`
`73`	`73`	`if (trueLabels != null)`
`74`	`74`	`{`
`@@ -78,7 +78,7 @@ public override T ComputeLoss(Vector<T> studentOutput, Vector<T> teacherOutput,`
`78`	`78`	`var combinedLoss = NumOps.Add(`
`79`	`79`	`NumOps.Multiply(NumOps.FromDouble(Alpha), hardLoss),`
`80`	`80`	`NumOps.Multiply(NumOps.FromDouble(1.0 - Alpha), softLoss));`
`81`		`- return NumOps.Multiply(combinedLoss, NumOps.FromDouble(1.0 - _variationalWeight));`
	`81`	`+ return combinedLoss;`
`82`	`82`	`}`
`83`	`83`
`84`	`84`	`return softLoss;`
`@@ -97,7 +97,7 @@ public override Vector<T> ComputeGradient(Vector<T> studentOutput, Vector<T> tea`
`97`	`97`	`for (int i = 0; i < n; i++)`
`98`	`98`	`{`
`99`	`99`	`var diff = NumOps.Subtract(studentSoft[i], teacherSoft[i]);`
`100`		`- gradient[i] = NumOps.Multiply(diff, NumOps.FromDouble(Temperature * Temperature * (1.0 - _variationalWeight)));`
	`100`	`+ gradient[i] = NumOps.Multiply(diff, NumOps.FromDouble(Temperature * Temperature));`
`101`	`101`	`}`
`102`	`102`
`103`	`103`	`if (trueLabels != null)`
`@@ -109,8 +109,8 @@ public override Vector<T> ComputeGradient(Vector<T> studentOutput, Vector<T> tea`
`109`	`109`	`{`
`110`	`110`	`var hardGrad = NumOps.Subtract(studentProbs[i], trueLabels[i]);`
`111`	`111`	`gradient[i] = NumOps.Add(`
`112`		`- NumOps.Multiply(NumOps.FromDouble(Alpha * (1.0 - _variationalWeight)), hardGrad),`
`113`		`- NumOps.Multiply(NumOps.FromDouble((1.0 - Alpha) * (1.0 - _variationalWeight)), gradient[i]));`
	`112`	`+ NumOps.Multiply(NumOps.FromDouble(Alpha), hardGrad),`
	`113`	`+ NumOps.Multiply(NumOps.FromDouble(1.0 - Alpha), gradient[i]));`
`114`	`114`	`}`
`115`	`115`	`}`
`116`	`116`