Refactor Pow for float support, remove FP16, and cleanup parsers

lee2716 · lee2716 · commit 8f9062030d86 · 2025-11-28T21:30:43.000+01:00
This commit addresses code review feedback:
- Refactor Pow kernel to use 'powf' from math.h to support floating-point exponents.
- Update PowParser to allow tensor exponents instead of forcing constants.
- Remove Generic FP16 support and revert types.h changes.
- Remove duplicate PowParser/SqrtParser classes.
- Enhance RMSNorm tests with larger shapes and non-trivial weights.
diff --git a/Deeploy/DeeployTypes.py b/Deeploy/DeeployTypes.py
@@ -325,15 +325,15 @@ def fromNode(cls, node: gs.Node):
         return (cls(name = node.name, shape = node.shape if not isinstance(node, gs.Constant) else node.values.shape))
 
     def has_live_aliases(self, ctxt: NetworkContext) -> bool:
-        """Checks whether this VariableBuffer has any live ancestors, i.e. buffers that are still live and are aliased by this buffer.
+        """Checks whether this VariableBuffer has any live aliases, i.e. buffers that are still live and are aliased by this buffer.
         Parameters
         ----------
         ctxt : NetworkContext
             Current NetworkContext
         Returns
         -------
         bool
-            True if this VariableBuffer has any live ancestors, False otherwise
+            True if this VariableBuffer has any live aliases, False otherwise
         """
         # Do a breadth-first search across the aliasing double-linked list
         live = self._live
@@ -2562,10 +2562,10 @@ def codeTransform(self, verbose: CodeGenVerbosity = _NoVerbosity):
             self.ctxt = layer.codeTransform(self.ctxt, verbose)
         self.transformed = True
 
-    def _mapNode(self, node: gs.Node) -> Union[ONNXLayer, Any]:
+    def _selectEngine(self, node: gs.Node) -> DeploymentEngine:
         for engine in self.Platform.engines:
             if node.op in engine.Mapping:
-                return engine.Mapping[node.op](node)
+                return engine
         raise RuntimeError(f"No mapping found for node {node.name} with op type {node.op}")
 
     def _bindLayers(self):
@@ -2582,7 +2582,8 @@ def _bindLayers(self):
                 flatSchedule += subGraph
 
         for node in flatSchedule:
-            layer = self._mapNode(node)
+            engine = self._selectEngine(node)
+            layer = engine.Mapping[node.op](node)
             if isinstance(layer, ONNXLayer):
                 log.debug(f"   {SUCCESS_MARK} Bind {node.name} to layer {layer.__class__.__name__}")
                 self.layerBinding[layer.node.name] = layer
diff --git a/Deeploy/Targets/Generic/Bindings.py b/Deeploy/Targets/Generic/Bindings.py
@@ -7,7 +7,7 @@
 from Deeploy.AbstractDataTypes import PointerClass
 from Deeploy.CommonExtensions.CodeTransformationPasses.MemoryAllocation import ArgumentStructGeneration, \
     MemoryManagementGeneration, MemoryPassthroughGeneration
-from Deeploy.CommonExtensions.DataTypes import FloatDataTypes, IntegerDataTypes, SignedIntegerDataTypes, float16_t, \
+from Deeploy.CommonExtensions.DataTypes import FloatDataTypes, IntegerDataTypes, SignedIntegerDataTypes,  \
     float32_t, int8_t, int32_t, uint8_t
 from Deeploy.DeeployTypes import CodeTransformation, NodeBinding
 from Deeploy.FutureExtension.CodeTransformationPasses.FutureCodeTransformation import FutureGeneration
@@ -121,15 +121,11 @@
 BasicPowBindings = [
     NodeBinding(DummyChecker([PointerClass(float32_t), PointerClass(float32_t)], [PointerClass(float32_t)]),
                 FloatPowTemplate.referenceTemplate, BasicTransformer),
-    NodeBinding(DummyChecker([PointerClass(float16_t), PointerClass(float16_t)], [PointerClass(float16_t)]),
-                FloatPowTemplate.referenceTemplate, BasicTransformer)
 ]
 
 BasicSqrtBindings = [
     NodeBinding(DummyChecker([PointerClass(float32_t)], [PointerClass(float32_t)]), FloatSqrtTemplate.referenceTemplate,
                 BasicTransformer),
-    NodeBinding(DummyChecker([PointerClass(float16_t)], [PointerClass(float16_t)]), FloatSqrtTemplate.referenceTemplate,
-                BasicTransformer)
 ]
 
 BasicDivBindings = [
diff --git a/Deeploy/Targets/Generic/Parsers.py b/Deeploy/Targets/Generic/Parsers.py
@@ -8,7 +8,7 @@
 import numpy as np
 import onnx_graphsurgeon as gs
 
-from Deeploy.DeeployTypes import NetworkContext, NodeParser, VariableBuffer
+from Deeploy.DeeployTypes import NetworkContext, NodeParser, VariableBuffer, ConstantBuffer
 
 
 class ConcatParser(NodeParser):
@@ -2000,29 +2000,6 @@ def parseNodeCtxt(self,
         return ctxt, True
 
 
-class SqrtParser(NodeParser):
-
-    def __init__(self):
-        super().__init__()
-
-    def parseNode(self, node: gs.Node) -> bool:
-        return node.op == 'Sqrt' and len(node.inputs) == 1 and len(node.outputs) == 1
-
-    def parseNodeCtxt(self,
-                      ctxt: NetworkContext,
-                      node: gs.Node,
-                      channels_first: bool = True) -> Tuple[NetworkContext, bool]:
-
-        data_in = ctxt.lookup(node.inputs[0].name)
-        data_out = ctxt.lookup(node.outputs[0].name)
-
-        self.operatorRepresentation['data_in'] = data_in.name
-        self.operatorRepresentation['data_out'] = data_out.name
-        self.operatorRepresentation['size'] = int(np.prod(data_in.shape))
-
-        return ctxt, True
-
-
 class DivParser(NodeParser):
 
     def __init__(self):
@@ -2808,44 +2785,6 @@ def parseNodeCtxt(self,
         return ctxt, False
 
 
-############################
-
-
-class PowParser(NodeParser):
-
-    def __init__(self):
-        super().__init__()
-
-    def parseNode(self, node: gs.Node) -> bool:
-        return node.op == 'Pow' and len(node.inputs) == 2 and len(node.outputs) == 1
-
-    def parseNodeCtxt(self,
-                      ctxt: NetworkContext,
-                      node: gs.Node,
-                      channels_first: bool = True) -> Tuple[NetworkContext, bool]:
-
-        data_in = ctxt.lookup(node.inputs[0].name)
-        exponent = node.inputs[1]
-        data_out = ctxt.lookup(node.outputs[0].name)
-
-        self.operatorRepresentation['data_in'] = data_in.name
-        self.operatorRepresentation['data_out'] = data_out.name
-
-        # Check if exponent is a constant
-        if isinstance(exponent, gs.Constant):
-            exp_value = float(exponent.values)
-            self.operatorRepresentation['exponent'] = exp_value
-            self.operatorRepresentation['is_constant_exp'] = True
-        else:
-            exp_tensor = ctxt.lookup(exponent.name)
-            self.operatorRepresentation['exponent'] = exp_tensor.name
-            self.operatorRepresentation['is_constant_exp'] = False
-
-        self.operatorRepresentation['size'] = int(np.prod(data_in.shape))
-
-        return ctxt, True
-
-
 class SqrtParser(NodeParser):
 
     def __init__(self):
diff --git a/Deeploy/Targets/Generic/Templates/FloatPowTemplate.py b/Deeploy/Targets/Generic/Templates/FloatPowTemplate.py
@@ -1,48 +1,43 @@
 # SPDX-FileCopyrightText: 2025 ETH Zurich and University of Bologna
 #
 # SPDX-License-Identifier: Apache-2.0
-
 from typing import Dict, List, Tuple
-
 import numpy as np
-
 from Deeploy.DeeployTypes import NetworkContext, NodeTemplate, OperatorRepresentation
 
-
 class _PowTemplate(NodeTemplate):
-
     def alignToContext(self, ctxt: NetworkContext,
                        operatorRepresentation: OperatorRepresentation) -> Tuple[NetworkContext, Dict, List[str]]:
-
         # Get input and output tensors
         data_in = ctxt.lookup(operatorRepresentation['data_in'])
+        exponent = ctxt.lookup(operatorRepresentation['exponent'])
         data_out = ctxt.lookup(operatorRepresentation['data_out'])
-
-        # Get data type (fp32 or fp16)
+        
+        # Get data type (fp32)
         data_type = data_in._type.typeName
         operatorRepresentation['data_type'] = data_type
-
-        # Exponent must be a constant integer
-        if 'exponent' in operatorRepresentation:
-            exponent_input = operatorRepresentation['exponent']
-            if isinstance(exponent_input, str):
-                # It's a tensor name - not supported for integer exponent version
-                raise ValueError("Tensor exponent not supported. Use constant integer exponent.")
-            else:
-                # Convert to integer
-                operatorRepresentation['exponent_value'] = int(exponent_input)
-
+        
         # Calculate size
-        operatorRepresentation['size'] = int(np.prod(data_in.shape))
-
+        input_size = int(np.prod(data_in.shape))
+        exponent_size = int(np.prod(exponent.shape))
+        operatorRepresentation['size'] = input_size
+        
+        # Check if exponent is scalar (broadcasting)
+        if exponent_size == 1:
+            operatorRepresentation['is_scalar'] = True
+            # Get the full variable name with prefix
+            exponent_name = operatorRepresentation['exponent']
+            operatorRepresentation['exponent_scalar'] = f"DeeployNetwork_{exponent_name}[0]"
+        else:
+            operatorRepresentation['is_scalar'] = False
+        
         return ctxt, operatorRepresentation, []
 
-
 referenceTemplate = _PowTemplate("""
 // Pow (Name: ${nodeName}, Op: ${nodeOp})
-% if 'float32' in data_type:
-Pow_fp32_int32_fp32(${data_in}, ${exponent_value}, ${data_out}, ${size});
-% elif 'float16' in data_type:
-Pow_fp16_int32_fp16(${data_in}, ${exponent_value}, ${data_out}, ${size});
+% if is_scalar:
+Pow_fp32_scalar_fp32(${data_in}, ${exponent_scalar}, ${data_out}, ${size});
+% else:
+Pow_fp32_fp32_fp32(${data_in}, ${exponent}, ${data_out}, ${size});
 % endif
 """)
diff --git a/Deeploy/Targets/Generic/Templates/FloatSqrtTemplate.py b/Deeploy/Targets/Generic/Templates/FloatSqrtTemplate.py
@@ -1,38 +1,27 @@
 # SPDX-FileCopyrightText: 2025 ETH Zurich and University of Bologna
 #
 # SPDX-License-Identifier: Apache-2.0
-
 from typing import Dict, List, Tuple
-
 import numpy as np
-
 from Deeploy.DeeployTypes import NetworkContext, NodeTemplate, OperatorRepresentation
 
-
 class _SqrtTemplate(NodeTemplate):
-
     def alignToContext(self, ctxt: NetworkContext,
                        operatorRepresentation: OperatorRepresentation) -> Tuple[NetworkContext, Dict, List[str]]:
-
         # Get input and output tensors
         data_in = ctxt.lookup(operatorRepresentation['data_in'])
         data_out = ctxt.lookup(operatorRepresentation['data_out'])
-
-        # Get data type (fp32 or fp16)
+        
+        # Get data type (fp32)
         data_type = data_in._type.typeName
         operatorRepresentation['data_type'] = data_type
-
+        
         # Calculate size
         operatorRepresentation['size'] = int(np.prod(data_in.shape))
-
+        
         return ctxt, operatorRepresentation, []
 
-
 referenceTemplate = _SqrtTemplate("""
 // Sqrt (Name: ${nodeName}, Op: ${nodeOp})
-% if 'float32' in data_type:
 Sqrt_fp32_fp32(${data_in}, ${data_out}, ${size});
-% elif 'float16' in data_type:
-Sqrt_fp16_fp16(${data_in}, ${data_out}, ${size});
-% endif
 """)
diff --git a/DeeployTest/Tests/testRMSNorm/inputs.npz b/DeeployTest/Tests/testRMSNorm/inputs.npz
diff --git a/DeeployTest/Tests/testRMSNorm/network.onnx b/DeeployTest/Tests/testRMSNorm/network.onnx
diff --git a/DeeployTest/Tests/testRMSNorm/outputs.npz b/DeeployTest/Tests/testRMSNorm/outputs.npz
diff --git a/TargetLibraries/Generic/inc/kernel/Pow.h b/TargetLibraries/Generic/inc/kernel/Pow.h
@@ -8,18 +8,19 @@
  * This file implements the element-wise binary power operation.
  */
 
-/******************************************************************************/
-/*                                Power (32bit)                               */
-/******************************************************************************/
-
 #ifndef __DEEPLOY_MATH_POW_KERNEL_HEADER_
 #define __DEEPLOY_MATH_POW_KERNEL_HEADER_
 
 #include "DeeployBasicMath.h"
 
-void Pow_fp32_int32_fp32(float32_t *data_in, int32_t exponent,
-                         float32_t *data_out, int32_t size);
+void Pow_fp32_fp32_fp32(const float32_t *__restrict__ data_in, 
+                        const float32_t *__restrict__ exponent,
+                        float32_t *__restrict__ data_out, 
+                        int32_t size);
+
+void Pow_fp32_scalar_fp32(const float32_t *__restrict__ data_in, 
+                          float32_t exponent,
+                          float32_t *__restrict__ data_out, 
+                          int32_t size);
 
-void Pow_fp16_int32_fp16(float16_t *data_in, int32_t exponent,
-                         float16_t *data_out, int32_t size);
 #endif
diff --git a/TargetLibraries/Generic/inc/kernel/Sqrt.h b/TargetLibraries/Generic/inc/kernel/Sqrt.h
@@ -19,6 +19,4 @@
 
 void Sqrt_fp32_fp32(float32_t *data_in, float32_t *data_out, int32_t size);
 
-void Sqrt_fp16_fp16(float16_t *data_in, float16_t *data_out, int32_t size);
-
 #endif //__DEEPLOY_BASIC_MATH_SQRT_KERNEL_HEADER_
diff --git a/TargetLibraries/Generic/inc/types.h b/TargetLibraries/Generic/inc/types.h
@@ -10,14 +10,5 @@
 // generic floating point types
 typedef double float64_t;
 typedef float float32_t;
-// Note: float16_t uses _Float16 (C23) or compiler extensions
-// For generic platforms without FP16 hardware support, we use float32_t as
-// fallback
-#if defined(__FLT16_MANT_DIG__) || defined(__ARM_FP16_FORMAT_IEEE)
-typedef _Float16 float16_t;
-#else
-typedef float
-    float16_t; // Fallback to float32 for platforms without FP16 support
-#endif
 
 #endif //__DEEPLOY_BASIC_MATH_TYPES_HEADER_
diff --git a/TargetLibraries/Generic/src/Pow_fp32.c b/TargetLibraries/Generic/src/Pow_fp32.c
@@ -5,23 +5,22 @@
  */
 
 #include "DeeployBasicMath.h"
+#include <math.h>
 
-void Pow_fp32_int32_fp32(float32_t *data_in, int32_t exponent,
-                         float32_t *data_out, int32_t size) {
+void Pow_fp32_fp32_fp32(const float32_t *__restrict__ data_in, 
+                        const float32_t *__restrict__ exponent,
+                        float32_t *__restrict__ data_out, 
+                        int32_t size) {
   for (int i = 0; i < size; i++) {
-    float32_t result = 1.0f;
-    int32_t exp = exponent;
-    float32_t base = data_in[i];
-
-    if (exp < 0) {
-      base = 1.0f / base;
-      exp = -exp;
-    }
-
-    for (int32_t j = 0; j < exp; j++) {
-      result *= base;
-    }
+    data_out[i] = powf(data_in[i], exponent[i]);
+  }
+}
 
-    data_out[i] = result;
+void Pow_fp32_scalar_fp32(const float32_t *__restrict__ data_in, 
+                          float32_t exponent,
+                          float32_t *__restrict__ data_out, 
+                          int32_t size) {
+  for (int i = 0; i < size; i++) {
+    data_out[i] = powf(data_in[i], exponent);
   }
 }