feat: support inputCols and outputCols interfaces for converting Spark StringIndexerModel (#568)

memoryz · web-flow · commit 46a2bf1daa01 · 2022-06-26T08:29:42.000+02:00
Signed-off-by: Jason Wang &lt;jasowang@microsoft.com&gt;
diff --git a/onnxmltools/convert/sparkml/operator_converters/string_indexer.py b/onnxmltools/convert/sparkml/operator_converters/string_indexer.py
@@ -1,42 +1,61 @@
 # SPDX-License-Identifier: Apache-2.0
 
 import copy
+from typing import List
+
+from pyspark import SparkContext
+from pyspark.ml.feature import StringIndexerModel
+
 from ...common._registration import register_converter, register_shape_calculator
+from ...common._topology import ModelComponentContainer, Operator, Scope, Variable
 from ...common.data_types import Int64TensorType, StringTensorType
-from ...common.utils import check_input_and_output_numbers, check_input_and_output_types
+from ...common.utils import check_input_and_output_types
+
 
+def convert_sparkml_string_indexer(scope: Scope, operator: Operator, container: ModelComponentContainer):
+    op: StringIndexerModel = operator.raw_operator
+    op_domain = "ai.onnx.ml"
+    op_version = 2
+    op_type = "LabelEncoder"
 
-def convert_sparkml_string_indexer(scope, operator, container):
-    op = operator.raw_operator
-    op_type = 'LabelEncoder'
-    attrs = {
-        'name': scope.get_unique_operator_name(op_type),
-        'classes_strings': [str(c) for c in op.labels]
-    }
+    labelsArray: List[List[str]]
 
-    if isinstance(operator.inputs[0].type, Int64TensorType):
-        attrs['default_int64'] = -1
-    elif isinstance(operator.inputs[0].type, StringTensorType):
-        attrs['default_string'] = '__unknown__'
+    if SparkContext._active_spark_context.version.startswith("2."):
+        labelsArray = [op.labels]
     else:
-        raise RuntimeError('Unsupported input type: %s' % type(operator.inputs[0].type))
+        labelsArray = op.labelsArray
 
-    container.add_node(op_type, operator.input_full_names, operator.output_full_names, op_domain='ai.onnx.ml', **attrs)
+    for i in range(0, len(labelsArray)):
+        encoder_attrs = {
+            "name": scope.get_unique_operator_name("StringIndexer_" + str(i)),
+            "keys_strings": labelsArray[i],
+            "values_int64s": list(range(0, len(labelsArray[i]))),
+        }
 
+        container.add_node(
+            op_type,
+            [operator.inputs[i].full_name],
+            [operator.outputs[i].full_name],
+            op_domain=op_domain,
+            op_version=op_version,
+            **encoder_attrs,
+        )
 
-register_converter('pyspark.ml.feature.StringIndexerModel', convert_sparkml_string_indexer)
 
+register_converter("pyspark.ml.feature.StringIndexerModel", convert_sparkml_string_indexer)
 
-def calculate_sparkml_string_indexer_output_shapes(operator):
-    '''
+
+def calculate_sparkml_string_indexer_output_shapes(operator: Operator):
+    """
     This function just copy the input shape to the output because label encoder only alters input features' values, not
     their shape.
-    '''
-    check_input_and_output_numbers(operator, output_count_range=1)
+    """
     check_input_and_output_types(operator, good_input_types=[Int64TensorType, StringTensorType])
-
-    input_shape = copy.deepcopy(operator.inputs[0].type.shape)
-    operator.outputs[0].type = Int64TensorType(input_shape)
+    input: Variable
+    output: Variable
+    for (input, output) in zip(operator.inputs, operator.outputs):
+        input_shape = copy.deepcopy(input.type.shape)
+        output.type = Int64TensorType(input_shape)
 
 
-register_shape_calculator('pyspark.ml.feature.StringIndexerModel', calculate_sparkml_string_indexer_output_shapes)
+register_shape_calculator("pyspark.ml.feature.StringIndexerModel", calculate_sparkml_string_indexer_output_shapes)
diff --git a/onnxmltools/convert/sparkml/ops_input_output.py b/onnxmltools/convert/sparkml/ops_input_output.py
@@ -1,157 +1,157 @@
 # SPDX-License-Identifier: Apache-2.0
 
-'''
+"""
 Mapping and utilities for the names of Params(propeties) that various Spark ML models
 have for their input and output columns
-'''
+"""
 from .ops_names import get_sparkml_operator_name
 
 
 def build_io_name_map():
-    '''
+    """
     map of spark models to input-output tuples
     Each lambda gets the corresponding input or output column name from the model
-    '''
+    """
     map = {
         "pyspark.ml.feature.BucketedRandomProjectionLSHModel": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.regression.AFTSurvivalRegressionModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol")]
+            lambda model: [model.getOrDefault("predictionCol")],
         ),
         "pyspark.ml.feature.ElementwiseProduct": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.MinHashLSHModel": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.Word2VecModel": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.IndexToString": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.ChiSqSelectorModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.classification.OneVsRestModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol")]
+            lambda model: [model.getOrDefault("predictionCol")],
         ),
         "pyspark.ml.regression.GBTRegressionModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol")]
+            lambda model: [model.getOrDefault("predictionCol")],
         ),
         "pyspark.ml.classification.GBTClassificationModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol"), 'probability']
+            lambda model: [model.getOrDefault("predictionCol"), "probability"],
         ),
         "pyspark.ml.feature.DCT": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.PCAModel": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.PolynomialExpansion": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.Tokenizer": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.classification.NaiveBayesModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol"), model.getOrDefault("probabilityCol")]
+            lambda model: [model.getOrDefault("predictionCol"), model.getOrDefault("probabilityCol")],
         ),
         "pyspark.ml.feature.VectorSlicer": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.StopWordsRemover": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.NGram": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.Bucketizer": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.regression.RandomForestRegressionModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol")]
+            lambda model: [model.getOrDefault("predictionCol")],
         ),
         "pyspark.ml.classification.RandomForestClassificationModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol"), model.getOrDefault("probabilityCol")]
+            lambda model: [model.getOrDefault("predictionCol"), model.getOrDefault("probabilityCol")],
         ),
         "pyspark.ml.regression.DecisionTreeRegressionModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol")]
+            lambda model: [model.getOrDefault("predictionCol")],
         ),
         "pyspark.ml.classification.DecisionTreeClassificationModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol"), model.getOrDefault("probabilityCol")]
+            lambda model: [model.getOrDefault("predictionCol"), model.getOrDefault("probabilityCol")],
         ),
         "pyspark.ml.feature.VectorIndexerModel": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.regression.GeneralizedLinearRegressionModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol")]
+            lambda model: [model.getOrDefault("predictionCol")],
         ),
         "pyspark.ml.regression.LinearRegressionModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol")]
+            lambda model: [model.getOrDefault("predictionCol")],
         ),
         "pyspark.ml.feature.ImputerModel": (
             lambda model: model.getOrDefault("inputCols"),
-            lambda model: model.getOrDefault("outputCols")
+            lambda model: model.getOrDefault("outputCols"),
         ),
         "pyspark.ml.feature.MaxAbsScalerModel": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.MinMaxScalerModel": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.StandardScalerModel": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.Normalizer": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.Binarizer": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.CountVectorizerModel": (
             lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.classification.LinearSVCModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol")]
+            lambda model: [model.getOrDefault("predictionCol")],
         ),
         "pyspark.ml.classification.LogisticRegressionModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol"), model.getOrDefault("probabilityCol")]
+            lambda model: [model.getOrDefault("predictionCol"), model.getOrDefault("probabilityCol")],
         ),
         "pyspark.ml.feature.OneHotEncoderModel": (
             lambda model: model.getOrDefault("inputCols")
@@ -162,17 +162,21 @@ def build_io_name_map():
             else [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.StringIndexerModel": (
-            lambda model: [model.getOrDefault("inputCol")],
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: model.getOrDefault("inputCols")
+            if model.isSet("inputCols")
+            else [model.getOrDefault("inputCol")],
+            lambda model: model.getOrDefault("outputCols")
+            if model.isSet("outputCols")
+            else [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.feature.VectorAssembler": (
             lambda model: model.getOrDefault("inputCols"),
-            lambda model: [model.getOrDefault("outputCol")]
+            lambda model: [model.getOrDefault("outputCol")],
         ),
         "pyspark.ml.clustering.KMeansModel": (
             lambda model: [model.getOrDefault("featuresCol")],
-            lambda model: [model.getOrDefault("predictionCol")]
-        )
+            lambda model: [model.getOrDefault("predictionCol")],
+        ),
     }
     return map
 
@@ -181,18 +185,18 @@ def build_io_name_map():
 
 
 def get_input_names(model):
-    '''
+    """
     Returns the name(s) of the input(s) for a SparkML operator
     :param model: SparkML Model
     :return: list of input names
-    '''
+    """
     return io_name_map[get_sparkml_operator_name(type(model))][0](model)
 
 
 def get_output_names(model):
-    '''
+    """
     Returns the name(s) of the output(s) for a SparkML operator
     :param model: SparkML Model
     :return: list of output names
-    '''
+    """
     return io_name_map[get_sparkml_operator_name(type(model))][1](model)
diff --git a/tests/sparkml/test_string_indexer.py b/tests/sparkml/test_string_indexer.py