Added element-wise scaling support to scale_by_z_score_per_key for key_vocabulary_filename = None

tf-transform-team · tfx-copybara · commit 55d1c8b41fa0 · 2022-06-24T13:41:48.000-07:00
PiperOrigin-RevId: 457085189
diff --git a/RELEASE.md b/RELEASE.md
@@ -4,9 +4,9 @@
 
 ## Major Features and Improvements
 
-*   Adds element-wise scaling support to `scale_by_min_max_per_key` and
-    `scale_to_0_1_per_key` for `key_vocabulary_filename = None`.
-
+*   Adds element-wise scaling support to `scale_by_min_max_per_key`,
+    `scale_to_0_1_per_key` and `scale_to_z_score_per_key` for
+    `key_vocabulary_filename = None`.
 ## Bug Fixes and Other Changes
 
 *   Depends on `tensorflow>=1.15.5,<2` or `tensorflow>=2.9,<2.10`
diff --git a/tensorflow_transform/analyzers.py b/tensorflow_transform/analyzers.py
@@ -1106,16 +1106,18 @@ def _mean_and_var_per_key(
   if key is None:
     raise ValueError('A non-None key is required for _mean_and_var_per_key')
 
-  if not reduce_instance_dims:
-    raise NotImplementedError('Per-key elementwise reduction not supported')
+  if not reduce_instance_dims and isinstance(
+      x, (tf.SparseTensor, tf.RaggedTensor)):
+    raise NotImplementedError(
+        'Per-key elementwise reduction of Composite Tensors not supported ')
 
   with tf.compat.v1.name_scope('mean_and_var_per_key'):
     x = tf.cast(x, output_dtype)
 
     key_vocab, key_counts, key_means, key_variances = (
         tf_utils.reduce_batch_count_mean_and_var_per_key(
             x, key, reduce_instance_dims=reduce_instance_dims))
-    output_shape = ()
+    output_shape = () if reduce_instance_dims else x.get_shape()[1:]
 
     combine_inputs = _WeightedMeanAndVarAccumulator(
         count=key_counts,
diff --git a/tensorflow_transform/beam/impl_test.py b/tensorflow_transform/beam/impl_test.py
@@ -1809,6 +1809,139 @@ def scale_to_z_score_per_key(tensor, key, var_name=''):
                                           preprocessing_fn, expected_data,
                                           expected_metadata)
 
+  @tft_unit.named_parameters(
+      dict(
+          testcase_name='_float',
+          input_data=[
+              {
+                  'x': [-4, 0],
+                  'key': 'a',
+              },
+              {
+                  'x': [10, 0],
+                  'key': 'a',
+              },
+              {
+                  'x': [2, 0],
+                  'key': 'a',
+              },
+              {
+                  'x': [4, 0],
+                  'key': 'a',
+              },
+              {
+                  'x': [1, 0],
+                  'key': 'b',
+              },
+              {
+                  'x': [-1, 0],
+                  'key': 'b',
+              },
+              {
+                  'x': [np.nan, np.nan],
+                  'key': 'b',
+              },
+          ],
+          # Elementwise = True
+          # Mean      [a, b] = [[ 3.0, 0.0], [0.0, 0.0]]
+          # Variance  [a, b] = [[25.0, 0.0], [1.0, 0.0]]
+          # StdDev    [a, b] = [[ 5.0, 0.0], [1.0, 0.0]]
+          expected_data=[
+              {
+                  'x_scaled': [-1.4, 0.0],  # [(-4 - 3) / 5, (0 - 0) / 0]
+              },
+              {
+                  'x_scaled': [1.4, 0.0]  # [(10 - 3) / 5, (0 - 0) / 0]
+              },
+              {
+                  'x_scaled': [-0.2, 0.0]  # [(2 - 3) / 5, (0 - 0) / 0]
+              },
+              {
+                  'x_scaled': [0.2, 0.0],  # [(4 - 3) / 5, (0 - 0) / 0]
+              },
+              {
+                  'x_scaled': [1.0, 0.0]  # [(1 - 0) / 1, (0 - 0) / 0]
+              },
+              {
+                  'x_scaled': [-1.0, 0.0]  # [(-1 - 0) / 1, (0 - 0) / 0]
+              },
+              {
+                  'x_scaled': [np.nan, np.nan]
+              },
+          ],
+          input_metadata=tft.DatasetMetadata.from_feature_spec({
+              'x': tf.io.FixedLenFeature([2], tf.float32),
+              'key': tf.io.FixedLenFeature([], tf.string),
+          }),
+          expected_metadata=tft.DatasetMetadata.from_feature_spec({
+              'x_scaled': tf.io.FixedLenFeature([2], tf.float32),
+          })),
+      dict(
+          testcase_name='float_3dims',
+          input_data=[
+              {
+                  'x': [[-4, -8], [-12, -16]],
+                  'key': 'a',
+              },
+              {
+                  'x': [[10, 20], [30, 40]],
+                  'key': 'a',
+              },
+              {
+                  'x': [[2, 4], [6, 8]],
+                  'key': 'a',
+              },
+              {
+                  'x': [[4, 8], [12, 16]],
+                  'key': 'a',
+              },
+              {
+                  'x': [[1, 2], [3, 4]],
+                  'key': 'b',
+              },
+          ],
+          expected_data=[
+              {
+                  'x_scaled': [[-1.4, -1.4], [-1.4, -1.4]],
+              },
+              {
+                  'x_scaled': [[1.4, 1.4], [1.4, 1.4]],
+              },
+              {
+                  'x_scaled': [[-0.2, -0.2], [-0.2, -0.2]],
+              },
+              {
+                  'x_scaled': [[0.2, 0.2], [0.2, 0.2]],
+              },
+              {
+                  'x_scaled': [[0.0, 0.0], [0.0, 0.0]],
+              },
+          ],
+          input_metadata=tft.DatasetMetadata.from_feature_spec({
+              'x': tf.io.FixedLenFeature([2, 2], tf.float32),
+              'key': tf.io.FixedLenFeature([], tf.string),
+          }),
+          expected_metadata=tft.DatasetMetadata.from_feature_spec({
+              'x_scaled': tf.io.FixedLenFeature([2, 2], tf.float32),
+          })),
+  )
+  def testScaleToZScorePerKeyElementwise(self, input_data, expected_data,
+                                         input_metadata, expected_metadata):
+
+    def preprocessing_fn(inputs):
+      outputs = {}
+      outputs['x_scaled'] = tft.scale_to_z_score_per_key(
+          tf.cast(inputs['x'], tf.float32),
+          key=inputs['key'],
+          elementwise=True,
+          key_vocabulary_filename=None)
+      self.assertEqual(outputs['x_scaled'].dtype, tf.float32)
+      return outputs
+
+    self.assertAnalyzeAndTransformResults(input_data, input_metadata,
+                                          preprocessing_fn, expected_data,
+                                          expected_metadata)
+
   @tft_unit.parameters(
       (tf.int16,),
       (tf.int32,),
@@ -1975,6 +2108,48 @@ def analyzer_fn(inputs):
         expected_outputs,
         desired_batch_size=10)
 
+  def testMeanAndVarPerKeyElementwise(self):
+
+    def analyzer_fn(inputs):
+      key_vocab, mean, var = analyzers._mean_and_var_per_key(
+          inputs['x'], inputs['key'], reduce_instance_dims=False)
+      return {
+          'key_vocab': key_vocab,
+          'mean': mean,
+          'var': tf.round(100 * var) / 100.0
+      }
+
+    input_data = input_data = [{
+        'x': [-4, -1],
+        'key': 'a',
+    }, {
+        'x': [10, 0],
+        'key': 'a',
+    }, {
+        'x': [2, 0],
+        'key': 'a',
+    }, {
+        'x': [4, -1],
+        'key': 'a',
+    }, {
+        'x': [10, 0],
+        'key': 'b',
+    }, {
+        'x': [0, 10],
+        'key': 'b',
+    }]
+    input_metadata = tft.DatasetMetadata.from_feature_spec({
+        'x': tf.io.FixedLenFeature([2], tf.float32),
+        'key': tf.io.FixedLenFeature([], tf.string)
+    })
+    expected_outputs = {
+        'key_vocab': np.array([b'a', b'b'], np.object),
+        'mean': np.array([[3.0, -0.5], [5.0, 5.0]], np.float32),
+        'var': np.array([[25.0, 0.25], [25.0, 25.0]], np.float32)
+    }
+    self.assertAnalyzerOutputs(input_data, input_metadata, analyzer_fn,
+                               expected_outputs)
+
   @tft_unit.named_parameters(
       dict(
           testcase_name='_dense_2d',
diff --git a/tensorflow_transform/mappers.py b/tensorflow_transform/mappers.py
@@ -619,11 +619,15 @@ def _scale_to_z_score_internal(
         reduce_instance_dims=not elementwise,
         output_dtype=output_dtype)
   else:
-    if elementwise:
-      raise NotImplementedError('Per-key elementwise reduction not supported')
+    if elementwise and isinstance(x, (tf.SparseTensor, tf.RaggedTensor)):
+      raise NotImplementedError(
+          'Per-key elementwise reduction of Composite Tensors not supported')
 
     mean_and_var_per_key_result = analyzers._mean_and_var_per_key(  # pylint: disable=protected-access
-        x, key, key_vocabulary_filename=key_vocabulary_filename,
+        x,
+        key,
+        reduce_instance_dims=not elementwise,
+        key_vocabulary_filename=key_vocabulary_filename,
         output_dtype=output_dtype)
 
     if key_vocabulary_filename is None:
@@ -633,6 +637,9 @@ def _scale_to_z_score_internal(
       x_mean, x_var = tf_utils.map_per_key_reductions(
           (key_means, key_vars), key, key_vocab, x, not elementwise)
     else:
+      if elementwise:
+        raise NotImplementedError(
+            'Elementwise scaling does not support key_vocabulary_filename')
       mean_var_for_key = tf_utils.apply_per_key_vocabulary(
           mean_and_var_per_key_result, key, target_ndims=x.get_shape().ndims)
       x_mean, x_var = (mean_var_for_key[:, 0], mean_var_for_key[:, 1])