Update config.yaml

codelion · codelion · commit 3188b0f3eb96 · 2025-05-27T15:30:03.000+08:00
diff --git a/examples/mlx_finetuning_optimization/config.yaml b/examples/mlx_finetuning_optimization/config.yaml
@@ -244,11 +244,31 @@ prompt:
     # WRONG: Defaulting to zero loss rewards failed computations
     loss_value = float(mx.eval(loss) or 0.0)  # 0.0 = perfect loss!
     
-    # RIGHT: Use reasonable fallback or fail gracefully
+    # WRONG: Using NaN as fallback creates invalid metrics
+    if scaled_loss_val is None:
+        unscaled_loss_val = float('nan')  # NaN breaks all metrics!
+    
+    # RIGHT: Use reasonable fallback that doesn't game metrics
     eval_result = mx.eval(loss)
     if eval_result is None:
-        raise ValueError("Loss computation failed - cannot proceed")
-    loss_value = float(eval_result)
+        # Use a reasonable fallback loss that doesn't artificially improve metrics
+        loss_value = 2.0  # Reasonable cross-entropy loss, not suspiciously good
+        print("Warning: Loss evaluation failed, using reasonable fallback")
+    else:
+        loss_value = float(eval_result)
+        
+    # RIGHT: For scaled/unscaled loss patterns
+    def safe_eval_loss(loss_tensor, fallback_value=2.0):
+        try:
+            result = mx.eval(loss_tensor)
+            if result is None:
+                return fallback_value  # Reasonable fallback, not reward hacking
+            return float(result)
+        except Exception:
+            return fallback_value  # Consistent fallback behavior
+    
+    scaled_loss_val = safe_eval_loss(scaled_loss, 2.0)  # Reasonable fallback
+    unscaled_loss_val = scaled_loss_val * max(total_accumulation_steps, 1)
     ```
     
     ❌ **Unrealistic Performance Claims**
@@ -323,6 +343,59 @@ prompt:
     loss_value = eval_result[0] if eval_result is not None else 0.0
     ```
     
+    ❌ **mx.eval() returning None causing NaN losses**
+    ```python
+    # WRONG: This pattern causes "Scaled loss evaluation returned None"
+    scaled_loss = loss / total_accumulation_steps
+    scaled_loss_val = mx.eval(scaled_loss)  # Returns None!
+    if scaled_loss_val is None:
+        print("Error: Scaled loss evaluation returned None. Reporting NaN unscaled loss.")
+        unscaled_loss_val = float('nan')  # Creates NaN!
+    
+    # RIGHT: Robust loss evaluation with fallbacks
+    def safe_eval_loss(loss_tensor, description="loss"):
+        """Safely evaluate a loss tensor with proper error handling"""
+        if loss_tensor is None:
+            print(f"Warning: {description} tensor is None, using fallback")
+            return 1.0  # Reasonable fallback loss
+            
+        try:
+            # Force evaluation and ensure it's materialized
+            mx.eval(loss_tensor)
+            eval_result = mx.eval(loss_tensor)
+            
+            if eval_result is None:
+                print(f"Warning: {description} evaluation returned None, using fallback")
+                return 1.0  # Reasonable fallback
+                
+            # Handle different return types
+            if isinstance(eval_result, mx.array):
+                if eval_result.size == 1:
+                    scalar_val = float(eval_result.item())
+                else:
+                    scalar_val = float(eval_result.mean())  # Average if multiple values
+            else:
+                scalar_val = float(eval_result)
+                
+            # Check for invalid values
+            if not isinstance(scalar_val, (int, float)) or scalar_val != scalar_val:  # NaN check
+                print(f"Warning: {description} evaluation returned invalid value: {scalar_val}")
+                return 1.0  # Reasonable fallback
+                
+            return scalar_val
+            
+        except Exception as e:
+            print(f"Error evaluating {description}: {e}. Using fallback.")
+            return 1.0  # Reasonable fallback
+    
+    # Usage:
+    scaled_loss = loss / max(total_accumulation_steps, 1)
+    scaled_loss_val = safe_eval_loss(scaled_loss, "scaled loss")
+    unscaled_loss_val = scaled_loss_val * max(total_accumulation_steps, 1)
+    
+    return float(unscaled_loss_val), should_update
+    ```
+    
     ❌ **integer modulo by zero** 
     ```python
     # WRONG: if step % accumulation_steps == 0:  # accumulation_steps might be 0
@@ -446,10 +519,14 @@ prompt:
     - **Report ACTUAL loss values, not scaled or manipulated values**
     - **Use REAL timing and memory measurements**
     - **Ensure training actually works and learns**
+    - **Handle mx.eval() None returns with reasonable fallbacks (NOT zero or NaN)**
+    - **Never use NaN, infinity, or zero as loss fallbacks**
+    - **Fallback loss values should be realistic (1.0-3.0 for cross-entropy)**
     - **Realistic improvement targets: 10-50% speed, 20-40% memory reduction**
     - **Loss should remain in range 0.1-10.0 for cross-entropy**
     - **Any >10x improvement claims will be automatically rejected**
     - **Zero or near-zero loss values (<0.01) will be flagged as reward hacking**
+    - **NaN loss values indicate broken evaluation and will be rejected**
     
     **IMPLEMENTATION CONSTRAINTS:**
     - Must use MLX operations and data types