Added element-wise scaling support to scale_by_min_max_per_key and scale_to_0_1_per_key for key_vocabulary_filename = None

tf-transform-team · tfx-copybara · commit 3d31835ff17d · 2022-06-23T13:21:01.000-07:00
PiperOrigin-RevId: 456846710
diff --git a/RELEASE.md b/RELEASE.md
@@ -4,6 +4,9 @@
 
 ## Major Features and Improvements
 
+*   Adds element-wise scaling support to `scale_by_min_max_per_key` and
+    `scale_to_0_1_per_key` for `key_vocabulary_filename = None`.
+
 ## Bug Fixes and Other Changes
 
 *   Depends on `tensorflow>=1.15.5,<2` or `tensorflow>=2.9,<2.10`
diff --git a/tensorflow_transform/beam/impl_test.py b/tensorflow_transform/beam/impl_test.py
@@ -788,13 +788,14 @@ def preprocessing_fn(inputs):
                                           preprocessing_fn, expected_data,
                                           expected_metadata)
 
-  def testScaleUnitIntervalPerKey(self):
+  @tft_unit.parameters((True,), (False,))
+  def testScaleUnitIntervalPerKey(self, elementwise):
 
     def preprocessing_fn(inputs):
       outputs = {}
       stacked_input = tf.stack([inputs['x'], inputs['y']], axis=1)
       result = tft.scale_to_0_1_per_key(
-          stacked_input, inputs['key'], elementwise=False)
+          stacked_input, inputs['key'], elementwise)
       outputs['x_scaled'], outputs['y_scaled'] = tf.unstack(result, axis=1)
       return outputs
 
@@ -828,25 +829,46 @@ def preprocessing_fn(inputs):
         'y': tf.io.FixedLenFeature([], tf.float32),
         'key': tf.io.FixedLenFeature([], tf.string)
     })
-    expected_data = [{
-        'x_scaled': 0.6,
-        'y_scaled': 0.8
-    }, {
-        'x_scaled': 0.0,
-        'y_scaled': 0.2
-    }, {
-        'x_scaled': 0.8,
-        'y_scaled': 1.0
-    }, {
-        'x_scaled': 0.2,
-        'y_scaled': 0.4
-    }, {
-        'x_scaled': 1.0,
-        'y_scaled': 0.0
-    }, {
-        'x_scaled': 0.6,
-        'y_scaled': 0.5
-    }]
+    if elementwise:
+      expected_data = [{
+          'x_scaled': 0.75,
+          'y_scaled': 0.75
+      }, {
+          'x_scaled': 0.0,
+          'y_scaled': 0.0
+      }, {
+          'x_scaled': 1.0,
+          'y_scaled': 1.0
+      }, {
+          'x_scaled': 0.25,
+          'y_scaled': 0.25
+      }, {
+          'x_scaled': 1.0,
+          'y_scaled': 0.0
+      }, {
+          'x_scaled': 0.0,
+          'y_scaled': 1.0
+      }]
+    else:
+      expected_data = [{
+          'x_scaled': 0.6,
+          'y_scaled': 0.8
+      }, {
+          'x_scaled': 0.0,
+          'y_scaled': 0.2
+      }, {
+          'x_scaled': 0.8,
+          'y_scaled': 1.0
+      }, {
+          'x_scaled': 0.2,
+          'y_scaled': 0.4
+      }, {
+          'x_scaled': 1.0,
+          'y_scaled': 0.0
+      }, {
+          'x_scaled': 0.6,
+          'y_scaled': 0.5
+      }]
     expected_metadata = tft.DatasetMetadata.from_feature_spec({
         'x_scaled': tf.io.FixedLenFeature([], tf.float32),
         'y_scaled': tf.io.FixedLenFeature([], tf.float32)
@@ -919,14 +941,24 @@ def preprocessing_fn(inputs):
                                           expected_metadata)
 
   @tft_unit.named_parameters(
-      dict(testcase_name='_empty_filename',
-           key_vocabulary_filename=''),
-      dict(testcase_name='_nonempty_filename',
-           key_vocabulary_filename='per_key'),
-      dict(testcase_name='_none_filename',
-           key_vocabulary_filename=None)
-  )
-  def testScaleMinMaxPerKey(self, key_vocabulary_filename):
+      dict(
+          testcase_name='_empty_filename',
+          elementwise=False,
+          key_vocabulary_filename=''),
+      dict(
+          testcase_name='_nonempty_filename',
+          elementwise=False,
+          key_vocabulary_filename='per_key'),
+      dict(
+          testcase_name='_none_filename',
+          elementwise=False,
+          key_vocabulary_filename=None),
+      dict(
+          testcase_name='_elementwise_none_filename',
+          elementwise=True,
+          key_vocabulary_filename=None))
+  def testScaleMinMaxPerKey(self, elementwise, key_vocabulary_filename):
+
     def preprocessing_fn(inputs):
       outputs = {}
       stacked_input = tf.stack([inputs['x'], inputs['y']], axis=1)
@@ -935,7 +967,7 @@ def preprocessing_fn(inputs):
           inputs['key'],
           output_min=-1,
           output_max=1,
-          elementwise=False,
+          elementwise=elementwise,
           key_vocabulary_filename=key_vocabulary_filename)
       outputs['x_scaled'], outputs['y_scaled'] = tf.unstack(result, axis=1)
       return outputs
@@ -970,37 +1002,61 @@ def preprocessing_fn(inputs):
         'y': tf.io.FixedLenFeature([], tf.float32),
         'key': tf.io.FixedLenFeature([], tf.string)
     })
-
-    expected_data = [{
-        'x_scaled': -0.25,
-        'y_scaled': 0.75
-    }, {
-        'x_scaled': -1.0,
-        'y_scaled': 0.0
-    }, {
-        'x_scaled': 0.0,
-        'y_scaled': 1.0
-    }, {
-        'x_scaled': -0.75,
-        'y_scaled': 0.25
-    }, {
-        'x_scaled': -1.0,
-        'y_scaled': 0.0
-    }, {
-        'x_scaled': 0.0,
-        'y_scaled': 1.0
-    }]
+    if elementwise:
+      expected_data = [{
+          'x_scaled': 0.5,
+          'y_scaled': 0.5
+      }, {
+          'x_scaled': -1.0,
+          'y_scaled': -1.0
+      }, {
+          'x_scaled': 1.0,
+          'y_scaled': 1.0
+      }, {
+          'x_scaled': -0.5,
+          'y_scaled': -0.5
+      }, {
+          'x_scaled': -1.0,
+          'y_scaled': -1.0
+      }, {
+          'x_scaled': 1.0,
+          'y_scaled': 1.0
+      }]
+    else:
+      expected_data = [{
+          'x_scaled': -0.25,
+          'y_scaled': 0.75
+      }, {
+          'x_scaled': -1.0,
+          'y_scaled': 0.0
+      }, {
+          'x_scaled': 0.0,
+          'y_scaled': 1.0
+      }, {
+          'x_scaled': -0.75,
+          'y_scaled': 0.25
+      }, {
+          'x_scaled': -1.0,
+          'y_scaled': 0.0
+      }, {
+          'x_scaled': 0.0,
+          'y_scaled': 1.0
+      }]
     expected_metadata = tft.DatasetMetadata.from_feature_spec({
         'x_scaled': tf.io.FixedLenFeature([], tf.float32),
         'y_scaled': tf.io.FixedLenFeature([], tf.float32)
     })
     if key_vocabulary_filename:
-      per_key_vocab_contents = {key_vocabulary_filename:
-                                    [(b'a', [-1.0, 9.0]), (b'b', [2.0, 2.0])]}
+      per_key_vocab_contents = {
+          key_vocabulary_filename: [(b'a', [-1.0, 9.0]), (b'b', [2.0, 2.0])]
+      }
     else:
       per_key_vocab_contents = None
     self.assertAnalyzeAndTransformResults(
-        input_data, input_metadata, preprocessing_fn, expected_data,
+        input_data,
+        input_metadata,
+        preprocessing_fn,
+        expected_data,
         expected_metadata,
         expected_vocab_file_contents=per_key_vocab_contents)
 
diff --git a/tensorflow_transform/mappers.py b/tensorflow_transform/mappers.py
@@ -367,12 +367,13 @@ def _scale_by_min_max_internal(
         x,
         reduce_instance_dims=not elementwise)
   else:
-    if elementwise:
-      raise NotImplementedError('Per-key elementwise reduction not supported')
+    if elementwise and isinstance(x, (tf.SparseTensor, tf.RaggedTensor)):
+      raise NotImplementedError(
+          'Per-key elementwise reduction of Composite Tensors not supported')
     key_values = analyzers._min_and_max_per_key(  # pylint: disable=protected-access
         x,
         key,
-        reduce_instance_dims=True,
+        reduce_instance_dims=not elementwise,
         key_vocabulary_filename=key_vocabulary_filename)
     if key_vocabulary_filename is None:
       key_vocab, min_x_value, max_x_value = key_values
@@ -381,10 +382,13 @@ def _scale_by_min_max_internal(
       min_x_value, max_x_value = tf_utils.map_per_key_reductions(
           (min_x_value, max_x_value), key, key_vocab, x, not elementwise)
     else:
+      if elementwise:
+        raise NotImplementedError(
+            'Elementwise scaling does not support key_vocabulary_filename')
       minus_min_max_for_key = tf_utils.apply_per_key_vocabulary(
           key_values, key, target_ndims=x.get_shape().ndims)
-      min_x_value, max_x_value = (
-          -minus_min_max_for_key[:, 0], minus_min_max_for_key[:, 1])
+      min_x_value, max_x_value = (-minus_min_max_for_key[:, 0],
+                                  minus_min_max_for_key[:, 1])
 
   compose_result_fn = _make_composite_tensor_wrapper_if_composite(x)
   x_values = tf_utils.get_values(x)