onnx
diff --git a/‎onnxmltools/__init__.py‎
Lines changed: 1 addition & 1 deletion b/‎onnxmltools/__init__.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎onnxmltools/convert/common/tree_ensemble.py‎
Lines changed: 24 additions & 0 deletions b/‎onnxmltools/convert/common/tree_ensemble.py‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎onnxmltools/convert/sparkml/operator_converters/decision_tree_classifier.py‎
Lines changed: 19 additions & 7 deletions b/‎onnxmltools/convert/sparkml/operator_converters/decision_tree_classifier.py‎
Lines changed: 19 additions & 7 deletions
diff --git a/‎onnxmltools/convert/sparkml/operator_converters/decision_tree_regressor.py‎
Lines changed: 6 additions & 2 deletions b/‎onnxmltools/convert/sparkml/operator_converters/decision_tree_regressor.py‎
Lines changed: 6 additions & 2 deletions
diff --git a/‎onnxmltools/convert/sparkml/operator_converters/random_forest_classifier.py‎
Lines changed: 16 additions & 4 deletions b/‎onnxmltools/convert/sparkml/operator_converters/random_forest_classifier.py‎
Lines changed: 16 additions & 4 deletions
diff --git a/‎onnxmltools/convert/sparkml/operator_converters/random_forest_regressor.py‎
Lines changed: 15 additions & 4 deletions b/‎onnxmltools/convert/sparkml/operator_converters/random_forest_regressor.py‎
Lines changed: 15 additions & 4 deletions
diff --git a/‎onnxmltools/convert/sparkml/operator_converters/tree_ensemble_common.py‎
Lines changed: 122 additions & 6 deletions b/‎onnxmltools/convert/sparkml/operator_converters/tree_ensemble_common.py‎
Lines changed: 122 additions & 6 deletions
@@ -5,7 +5,7 @@
 This framework converts any machine learned model into onnx format
 which is a common language to describe any machine learned model.
 """
-__version__ = "1.11.1"
+__version__ = "1.11.2"
 __author__ = "ONNX"
 __producer__ = "OnnxMLTools"
 __producer_version__ = __version__
 
@@ -1,3 +1,27 @@
 # SPDX-License-Identifier: Apache-2.0
 
+import numpy as np
 from onnxconverter_common.tree_ensemble import *  # noqa
+
+
+def _process_process_tree_attributes(attrs):
+    # Spark may store attributes as range and not necessary list.
+    # ONNX does not support this type of attribute value.
+    update = {}
+    wrong_types = []
+    for k, v in attrs.items():
+        if isinstance(v, (str, int, float, np.ndarray)):
+            continue
+        if isinstance(v, range):
+            v = update[k] = list(v)
+        if isinstance(v, list):
+            if k in ("nodes_values", "nodes_hitrates", "nodes_featureids"):
+                if any(map(lambda s: not isinstance(s, (float, int)), v)):
+                    v = [x if isinstance(x, (float, int)) else 0 for x in v]
+                    update[k] = v
+            continue
+        wrong_types.append(f"Unexpected type {type(v)} for attribute {k!r}.")
+    if len(wrong_types) > 0:
+        raise TypeError("Unexpected type for one or several attributes:\n" + "\n".join(wrong_types))
+    if update:
+        attrs.update(update)
@@ -1,12 +1,16 @@
 # SPDX-License-Identifier: Apache-2.0
 
+import logging
+import numpy as np
 from ...common.data_types import Int64TensorType, FloatTensorType
-from ...common.tree_ensemble import get_default_tree_classifier_attribute_pairs, \
-    add_tree_to_attribute_pairs
 from ...common.utils import check_input_and_output_numbers, check_input_and_output_types
 from ...common._registration import register_converter, register_shape_calculator
-from .tree_ensemble_common import save_read_sparkml_model_data, \
-    sparkml_tree_dataset_to_sklearn
+from .tree_ensemble_common import (
+    save_read_sparkml_model_data, sparkml_tree_dataset_to_sklearn,
+    add_tree_to_attribute_pairs, get_default_tree_classifier_attribute_pairs)
+from .tree_helper import rewrite_ids_and_process
+
+logger = logging.getLogger("onnxmltools")
 
 
 def convert_decision_tree_classifier(scope, operator, container):
@@ -15,14 +19,22 @@ def convert_decision_tree_classifier(scope, operator, container):
 
     attrs = get_default_tree_classifier_attribute_pairs()
     attrs['name'] = scope.get_unique_operator_name(op_type)
-    attrs["classlabels_int64s"] = range(0, op.numClasses)
+    attrs["classlabels_int64s"] = list(range(0, op.numClasses))
 
+    logger.info("[convert_decision_tree_classifier] save_read_sparkml_model_data")
     tree_df = save_read_sparkml_model_data(operator.raw_params['SparkSession'], op)
+    logger.info("[convert_decision_tree_classifier] sparkml_tree_dataset_to_sklearn")
     tree = sparkml_tree_dataset_to_sklearn(tree_df, is_classifier=True)
-    add_tree_to_attribute_pairs(attrs, True, tree, 0, 1., 0, True)
+    logger.info("[convert_decision_tree_classifier] add_tree_to_attribute_pairs")
+    add_tree_to_attribute_pairs(attrs, True, tree, 0, 1., 0, leaf_weights_are_counts=True)
+    logger.info("[convert_decision_tree_classifier] n_nodes=%d", len(attrs['nodes_nodeids']))
+
+    # Some values appear in an array of one element instead of a float.
+
+    new_attrs = rewrite_ids_and_process(attrs, logger)
 
     container.add_node(op_type, operator.input_full_names, [operator.outputs[0].full_name,
-                       operator.outputs[1].full_name], op_domain='ai.onnx.ml', **attrs)
+                       operator.outputs[1].full_name], op_domain='ai.onnx.ml', **new_attrs)
 
 
 register_converter('pyspark.ml.classification.DecisionTreeClassificationModel', convert_decision_tree_classifier)
 
@@ -1,12 +1,15 @@
 # SPDX-License-Identifier: Apache-2.0
-
+import logging
 from ...common.data_types import FloatTensorType
 from ...common.tree_ensemble import add_tree_to_attribute_pairs, \
     get_default_tree_regressor_attribute_pairs
 from ...common.utils import check_input_and_output_numbers
 from ...sparkml.operator_converters.decision_tree_classifier import save_read_sparkml_model_data
 from ...sparkml.operator_converters.tree_ensemble_common import sparkml_tree_dataset_to_sklearn
 from ...common._registration import register_converter, register_shape_calculator
+from .tree_helper import rewrite_ids_and_process
+
+logger = logging.getLogger("onnxmltools")
 
 
 def convert_decision_tree_regressor(scope, operator, container):
@@ -20,9 +23,10 @@ def convert_decision_tree_regressor(scope, operator, container):
     tree_df = save_read_sparkml_model_data(operator.raw_params['SparkSession'], op)
     tree = sparkml_tree_dataset_to_sklearn(tree_df, is_classifier=False)
     add_tree_to_attribute_pairs(attrs, False, tree, 0, 1., 0, False)
+    new_attrs = rewrite_ids_and_process(attrs, logger)
 
     container.add_node(op_type, operator.input_full_names, operator.output_full_names,
-                       op_domain='ai.onnx.ml', **attrs)
+                       op_domain='ai.onnx.ml', **new_attrs)
 
 
 register_converter('pyspark.ml.regression.DecisionTreeRegressionModel', convert_decision_tree_regressor)
 
@@ -1,19 +1,23 @@
 # SPDX-License-Identifier: Apache-2.0
 
+import logging
 from ...common.tree_ensemble import get_default_tree_classifier_attribute_pairs, \
     add_tree_to_attribute_pairs
 from ...common._registration import register_converter, register_shape_calculator
 from .tree_ensemble_common import save_read_sparkml_model_data, sparkml_tree_dataset_to_sklearn
 from .decision_tree_classifier import calculate_decision_tree_classifier_output_shapes
+from .tree_helper import rewrite_ids_and_process
+
+logger = logging.getLogger("onnxmltools")
 
 
 def convert_random_forest_classifier(scope, operator, container):
     op = operator.raw_operator
     op_type = 'TreeEnsembleClassifier'
 
-    attr_pairs = get_default_tree_classifier_attribute_pairs()
-    attr_pairs['name'] = scope.get_unique_operator_name(op_type)
-    attr_pairs['classlabels_int64s'] = range(0, op.numClasses)
+    main_attr_pairs = get_default_tree_classifier_attribute_pairs()
+    main_attr_pairs['name'] = scope.get_unique_operator_name(op_type)
+    main_attr_pairs['classlabels_int64s'] = list(range(0, op.numClasses))
 
     # random forest calculate the final score by averaging over all trees'
     # outcomes, so all trees' weights are identical.
@@ -23,13 +27,21 @@ def convert_random_forest_classifier(scope, operator, container):
         tree_model = op.trees[tree_id]
         tree_df = save_read_sparkml_model_data(operator.raw_params['SparkSession'], tree_model)
         tree = sparkml_tree_dataset_to_sklearn(tree_df, is_classifier=True)
+        attr_pairs = get_default_tree_classifier_attribute_pairs()
+        attr_pairs['name'] = scope.get_unique_operator_name(op_type)
+        attr_pairs['classlabels_int64s'] = list(range(0, op.numClasses))
+
         add_tree_to_attribute_pairs(attr_pairs, True, tree, tree_id,
                                     tree_weight, 0, True)
+        new_attrs = rewrite_ids_and_process(attr_pairs, logger)
+        for k, v in new_attrs.items():
+            if isinstance(v, list) and k not in {'classlabels_int64s'}:
+                main_attr_pairs[k].extend(v)
 
     container.add_node(
         op_type, operator.input_full_names,
         [operator.outputs[0].full_name, operator.outputs[1].full_name],
-        op_domain='ai.onnx.ml', **attr_pairs)
+        op_domain='ai.onnx.ml', **main_attr_pairs)
 
 
 register_converter('pyspark.ml.classification.RandomForestClassificationModel', convert_random_forest_classifier)
 
@@ -1,20 +1,24 @@
 # SPDX-License-Identifier: Apache-2.0
 
+import logging
 from ...common.tree_ensemble import add_tree_to_attribute_pairs, \
     get_default_tree_regressor_attribute_pairs
 from ...common._registration import register_converter, register_shape_calculator
 from .decision_tree_classifier import save_read_sparkml_model_data
 from .decision_tree_regressor import calculate_decision_tree_regressor_output_shapes
 from .tree_ensemble_common import sparkml_tree_dataset_to_sklearn
+from .tree_helper import rewrite_ids_and_process
+
+logger = logging.getLogger("onnxmltools")
 
 
 def convert_random_forest_regressor(scope, operator, container):
     op = operator.raw_operator
     op_type = 'TreeEnsembleRegressor'
 
-    attrs = get_default_tree_regressor_attribute_pairs()
-    attrs['name'] = scope.get_unique_operator_name(op_type)
-    attrs['n_targets'] = 1
+    main_attrs = get_default_tree_regressor_attribute_pairs()
+    main_attrs['name'] = scope.get_unique_operator_name(op_type)
+    main_attrs['n_targets'] = 1
 
     # random forest calculate the final score by averaging over all trees'
     # outcomes, so all trees' weights are identical.
@@ -24,11 +28,18 @@ def convert_random_forest_regressor(scope, operator, container):
         tree_model = op.trees[tree_id]
         tree_df = save_read_sparkml_model_data(operator.raw_params['SparkSession'], tree_model)
         tree = sparkml_tree_dataset_to_sklearn(tree_df, is_classifier=False)
+        attrs = get_default_tree_regressor_attribute_pairs()
+        attrs['name'] = scope.get_unique_operator_name(op_type)
+        attrs['n_targets'] = 1
         add_tree_to_attribute_pairs(attrs, False, tree, tree_id,
                                     tree_weight, 0, False)
+        new_attrs = rewrite_ids_and_process(attrs, logger)
+        for k, v in new_attrs.items():
+            if isinstance(v, list):
+                main_attrs[k].extend(v)
 
     container.add_node(op_type, operator.input_full_names, operator.output_full_names[0],
-                       op_domain='ai.onnx.ml', **attrs)
+                       op_domain='ai.onnx.ml', **main_attrs)
 
 
 register_converter('pyspark.ml.regression.RandomForestRegressionModel', convert_random_forest_regressor)
 
@@ -13,15 +13,29 @@ class SparkMLTree(dict):
 def sparkml_tree_dataset_to_sklearn(tree_df, is_classifier):
     feature = []
     threshold = []
-    tree_pandas = tree_df.toPandas()
+    tree_pandas = tree_df.toPandas().sort_values("id")
     children_left = tree_pandas.leftChild.values.tolist()
     children_right = tree_pandas.rightChild.values.tolist()
-    value = tree_pandas.impurityStats.values.tolist() if is_classifier else tree_pandas.prediction.values.tolist()
-    split = tree_pandas.split.apply(tuple).values
-    for item in split:
-        feature.append(item[0])
-        threshold.append(item[1][0] if len(item[1]) >= 1 else -1.0)
+    ids = tree_pandas.id.values.tolist()
+    if is_classifier:
+        value = numpy.array(tree_pandas.impurityStats.values.tolist())
+    else:
+        value = tree_pandas.prediction.values.tolist()
+
+    for item in tree_pandas.split:
+        if isinstance(item, dict):
+            try:
+                feature.append(item["featureIndex"])
+                threshold.append(item["leftCategoriesOrThreshold"])
+            except KeyError as e:
+                raise RuntimeError(f"Unable to process {item}.")
+        else:
+            tuple_item = tuple(item)
+            feature.append(item[0])
+            threshold.append(item[1][0] if len(item[1]) >= 1 else -1.0)
+
     tree = SparkMLTree()
+    tree.nodes_ids = ids
     tree.children_left = children_left
     tree.children_right = children_right
     tree.value = numpy.asarray(value, dtype=numpy.float32)
@@ -44,3 +58,105 @@ def save_read_sparkml_model_data(spark: SparkSession, model):
     model.write().overwrite().save(path)
     df = spark.read.parquet(os.path.join(path, 'data'))
     return df
+
+
+def get_default_tree_classifier_attribute_pairs():
+    attrs = {}
+    attrs['post_transform'] = 'NONE'
+    attrs['nodes_treeids'] = []
+    attrs['nodes_nodeids'] = []
+    attrs['nodes_featureids'] = []
+    attrs['nodes_modes'] = []
+    attrs['nodes_values'] = []
+    attrs['nodes_truenodeids'] = []
+    attrs['nodes_falsenodeids'] = []
+    attrs['nodes_missing_value_tracks_true'] = []
+    attrs['nodes_hitrates'] = []
+    attrs['class_treeids'] = []
+    attrs['class_nodeids'] = []
+    attrs['class_ids'] = []
+    attrs['class_weights'] = []
+    return attrs
+
+
+def get_default_tree_regressor_attribute_pairs():
+    attrs = {}
+    attrs['post_transform'] = 'NONE'
+    attrs['n_targets'] = 0
+    attrs['nodes_treeids'] = []
+    attrs['nodes_nodeids'] = []
+    attrs['nodes_featureids'] = []
+    attrs['nodes_modes'] = []
+    attrs['nodes_values'] = []
+    attrs['nodes_truenodeids'] = []
+    attrs['nodes_falsenodeids'] = []
+    attrs['nodes_missing_value_tracks_true'] = []
+    attrs['nodes_hitrates'] = []
+    attrs['target_treeids'] = []
+    attrs['target_nodeids'] = []
+    attrs['target_ids'] = []
+    attrs['target_weights'] = []
+    return attrs
+
+
+def add_node(attr_pairs, is_classifier, tree_id, tree_weight, node_id, feature_id, mode, value, true_child_id,
+             false_child_id, weights, weight_id_bias, leaf_weights_are_counts):
+    attr_pairs['nodes_treeids'].append(tree_id)
+    attr_pairs['nodes_nodeids'].append(node_id)
+    attr_pairs['nodes_featureids'].append(feature_id)
+    attr_pairs['nodes_modes'].append(mode)
+    attr_pairs['nodes_values'].append(value)
+    attr_pairs['nodes_truenodeids'].append(true_child_id)
+    attr_pairs['nodes_falsenodeids'].append(false_child_id)
+    attr_pairs['nodes_missing_value_tracks_true'].append(False)
+    attr_pairs['nodes_hitrates'].append(1.)
+
+    # Add leaf information for making prediction
+    if mode == 'LEAF':
+        flattened_weights = weights.flatten()
+        factor = tree_weight
+        # If the values stored at leaves are counts of possible classes, we need convert them to probabilities by
+        # doing a normalization.
+        if leaf_weights_are_counts:
+            s = sum(flattened_weights)
+            factor /= float(s) if s != 0. else 1.
+        flattened_weights = [w * factor for w in flattened_weights]
+        if len(flattened_weights) == 2 and is_classifier:
+            flattened_weights = [flattened_weights[1]]
+
+        # Note that attribute names for making prediction are different for classifiers and regressors
+        if is_classifier:
+            for i, w in enumerate(flattened_weights):
+                attr_pairs['class_treeids'].append(tree_id)
+                attr_pairs['class_nodeids'].append(node_id)
+                attr_pairs['class_ids'].append(i + weight_id_bias)
+                attr_pairs['class_weights'].append(w)
+        else:
+            for i, w in enumerate(flattened_weights):
+                attr_pairs['target_treeids'].append(tree_id)
+                attr_pairs['target_nodeids'].append(node_id)
+                attr_pairs['target_ids'].append(i + weight_id_bias)
+                attr_pairs['target_weights'].append(w)
+
+
+def add_tree_to_attribute_pairs(attr_pairs, is_classifier, tree, tree_id, tree_weight,
+                                weight_id_bias, leaf_weights_are_counts):
+    for i in range(tree.node_count):
+        node_id = tree.nodes_ids[i]
+        weight = tree.value[i]
+
+        if tree.children_left[i] >= 0 or tree.children_right[i] >= 0:
+            mode = 'BRANCH_LEQ'
+            feat_id = tree.feature[i]
+            threshold = tree.threshold[i]
+            left_child_id = int(tree.children_left[i])
+            right_child_id = int(tree.children_right[i])
+        else:
+            mode = 'LEAF'
+            feat_id = 0
+            threshold = 0.
+            left_child_id = 0
+            right_child_id = 0
+
+        add_node(attr_pairs, is_classifier, tree_id, tree_weight, node_id, feat_id, mode, threshold,
+                 left_child_id, right_child_id, weight, weight_id_bias, leaf_weights_are_counts)