Add create_transformed_field for proto expressions. This allows users to interpose a transform function between proto expressions (i.e. between levels of parsing).

tfx-copybara · tfx-copybara · commit 0e69ae74253a · 2020-05-05T10:08:18.000-07:00
PiperOrigin-RevId: 309968343
diff --git a/struct2tensor/calculate_with_source_paths_test.py b/struct2tensor/calculate_with_source_paths_test.py
@@ -76,6 +76,66 @@ def test_calculate_prensors_with_source_paths(self):
     expected = [path.Path(["event", "action", "doc_id"])]
     self.equal_ignore_order(list_of_paths, expected)
 
+  def test_calculate_prensors_with_source_paths_with_transform(self):
+    """Tests get_sparse_tensors on a deep tree with a transformed field."""
+    expr = proto_test_util._get_expression_from_session_empty_user_info()
+
+    # Let's make it non-trivial by transforming the data.
+    def _reverse(parent_indices, values):
+      return parent_indices, tf.reverse(values, axis=[-1])
+
+    expr = proto.create_transformed_field(expr, path.Path(["event"]),
+                                          "reversed_event", _reverse)
+    new_root = promote.promote(
+        expr, path.Path(["reversed_event", "action", "doc_id"]),
+        "action_doc_ids")
+    # A poor-man's reroot.
+    new_field = new_root.get_descendant_or_error(
+        path.Path(["reversed_event", "action_doc_ids"]))
+    result = calculate_with_source_paths.calculate_prensors_with_source_paths(
+        [new_field])
+    prensor_result, proto_summary_result = result
+    self.assertLen(prensor_result, 1)
+    self.assertLen(proto_summary_result, 1)
+    leaf_node = prensor_result[0].node
+    self.assertAllEqual(leaf_node.parent_index, [0, 0, 0, 1, 2, 2, 3, 4, 4])
+    self.assertAllEqual(leaf_node.values,
+                        [b"h", b"i", b"j", b"g", b"e", b"f", b"c", b"a", b"b"])
+    list_of_paths = proto_summary_result[0].paths
+    expected = [path.Path(["event", "action", "doc_id"])]
+    self.equal_ignore_order(list_of_paths, expected)
+
+  def test_calculate_prensors_with_source_paths_with_multiple_transforms(self):
+    """Tests get_sparse_tensors on a deep tree with a transformed field."""
+    expr = proto_test_util._get_expression_from_session_empty_user_info()
+
+    # Let's make it non-trivial by transforming the data.
+    def _reverse(parent_indices, values):
+      return parent_indices, tf.reverse(values, axis=[-1])
+
+    expr = proto.create_transformed_field(expr, path.Path(["event"]),
+                                          "reversed_event", _reverse)
+    expr = proto.create_transformed_field(expr, path.Path(["reversed_event"]),
+                                          "reversed_reversed_event", _reverse)
+    new_root = promote.promote(
+        expr, path.Path(["reversed_reversed_event", "action", "doc_id"]),
+        "action_doc_ids")
+    # A poor-man's reroot.
+    new_field = new_root.get_descendant_or_error(
+        path.Path(["reversed_reversed_event", "action_doc_ids"]))
+    result = calculate_with_source_paths.calculate_prensors_with_source_paths(
+        [new_field])
+    prensor_result, proto_summary_result = result
+    self.assertLen(prensor_result, 1)
+    self.assertLen(proto_summary_result, 1)
+    leaf_node = prensor_result[0].node
+    self.assertAllEqual(leaf_node.parent_index, [0, 0, 1, 2, 2, 3, 4, 4, 4])
+    self.assertAllEqual(leaf_node.values,
+                        [b"a", b"b", b"c", b"e", b"f", b"g", b"h", b"i", b"j"])
+    list_of_paths = proto_summary_result[0].paths
+    expected = [path.Path(["event", "action", "doc_id"])]
+    self.equal_ignore_order(list_of_paths, expected)
+
   def test_requirements_to_metadata_proto(self):
     proto_summary_result_0 = calculate_with_source_paths.ProtoRequirements(
         None, test_pb2.Session.DESCRIPTOR, [
diff --git a/struct2tensor/expression_add.py b/struct2tensor/expression_add.py
@@ -97,7 +97,9 @@ def _get_child_impl(self,
     if child_from_origin is None:
       if set_root_expr is None:
         raise ValueError("Must have a value in the original if there are paths")
-      return _AddPathsExpression(set_root_expr, subtrees)
+      if subtrees:
+        return _AddPathsExpression(set_root_expr, subtrees)
+      return set_root_expr
     if set_root_expr is not None:
       raise ValueError("Tried to overwrite an existing expression")
     return _AddPathsExpression(child_from_origin, subtrees)
diff --git a/struct2tensor/expression_impl/broadcast_test.py b/struct2tensor/expression_impl/broadcast_test.py
@@ -37,7 +37,7 @@ def test_broadcast_anonymous(self):
         prensor_test_util.create_big_prensor())
     new_root, p = broadcast.broadcast_anonymous(expr, path.Path(["foo"]),
                                                 "user")
-    [new_field] = new_root.get_descendant_or_error(p).get_source_expressions()
+    new_field = new_root.get_descendant_or_error(p)
     self.assertFalse(new_field.is_repeated)
     self.assertEqual(new_field.type, tf.int32)
     self.assertTrue(new_field.is_leaf)
diff --git a/struct2tensor/expression_impl/promote_test.py b/struct2tensor/expression_impl/promote_test.py
@@ -39,8 +39,7 @@ def test_promote_anonymous(self):
         prensor_test_util.create_nested_prensor())
     new_root, new_field = promote.promote_anonymous(
         expr, path.Path(["user", "friends"]))
-    [new_field
-    ] = new_root.get_descendant_or_error(new_field).get_source_expressions()
+    new_field = new_root.get_descendant_or_error(new_field)
     self.assertTrue(new_field.is_repeated)
     self.assertEqual(new_field.type, tf.string)
     self.assertTrue(new_field.is_leaf)
@@ -65,8 +64,7 @@ def test_promote_with_schema(self):
 
     new_root, new_field = promote.promote_anonymous(
         expr, path.Path(["user", "friends"]))
-    [new_field
-    ] = new_root.get_descendant_or_error(new_field).get_source_expressions()
+    new_field = new_root.get_descendant_or_error(new_field)
     new_schema_feature = new_field.schema_feature
     self.assertIsNotNone(new_schema_feature)
     self.assertEqual(new_schema_feature.string_domain.value[0], "a")
@@ -96,8 +94,7 @@ def test_promote_with_schema_dense_parent(self):
 
     new_root, new_field = promote.promote_anonymous(
         expr, path.Path(["user", "friends"]))
-    [new_field
-    ] = new_root.get_descendant_or_error(new_field).get_source_expressions()
+    new_field = new_root.get_descendant_or_error(new_field)
     new_schema_feature = new_field.schema_feature
     self.assertIsNotNone(new_schema_feature)
     self.assertEqual(new_schema_feature.string_domain.value[0], "a")
@@ -140,8 +137,7 @@ def _check_lifecycle_stage(a, b):
 
       new_root, new_field = promote.promote_anonymous(
           expr, path.Path(["user", "friends"]))
-      [new_field
-      ] = new_root.get_descendant_or_error(new_field).get_source_expressions()
+      new_field = new_root.get_descendant_or_error(new_field)
       return new_field.schema_feature.lifecycle_stage
 
     self.assertEqual(
@@ -225,8 +221,7 @@ def test_promote_with_schema_dense_fraction(self):
 
     new_root, new_field = promote.promote_anonymous(
         expr, path.Path(["user", "friends"]))
-    [new_field
-    ] = new_root.get_descendant_or_error(new_field).get_source_expressions()
+    new_field = new_root.get_descendant_or_error(new_field)
     new_schema_feature = new_field.schema_feature
     self.assertIsNotNone(new_schema_feature)
     self.assertEqual(new_schema_feature.presence.min_fraction, 0.3)
diff --git a/struct2tensor/expression_impl/proto.py b/struct2tensor/expression_impl/proto.py
@@ -27,12 +27,13 @@
 import abc
 from struct2tensor import calculate_options
 from struct2tensor import expression
+from struct2tensor import expression_add
 from struct2tensor import path
 from struct2tensor import prensor
 from struct2tensor.expression_impl import parse_message_level_ex
 from struct2tensor.ops import struct2tensor_ops
 import tensorflow as tf
-from typing import FrozenSet, Mapping, Optional, Sequence, Set, Text, Tuple, Union
+from typing import Callable, FrozenSet, Mapping, Optional, Sequence, Set, Text, Tuple, Union
 
 
 from google.protobuf.descriptor_pb2 import FileDescriptorSet
@@ -105,6 +106,88 @@ def create_expression_from_proto(
   return _ProtoRootExpression(desc, tensor_of_protos, message_format)
 
 
+# The function signature expected by `created_transformed_field`.
+# It describes functions of the form:
+#
+# def transform_fn(parent_indices, values):
+#   ...
+#   return (transformed_parent_indices, transformed_values).
+#
+# Where values/transformed_values are serialized protos of the same type
+# and parent_indices/transformed_parent_indices are non-decreasing int64
+# vectors.  Each pair of indices and values must have the same shape.
+TransformFn = Callable[[tf.Tensor, tf.Tensor], Tuple[tf.Tensor, tf.Tensor]]
+
+
+def create_transformed_field(
+    expr: expression.Expression, source_path: path.CoercableToPath,
+    dest_field: StrStep, transform_fn: TransformFn) -> expression.Expression:
+  """Create an expression that transforms serialized proto tensors.
+
+  The transform_fn argument should take the form:
+
+  def transform_fn(parent_indices, values):
+    ...
+    return (transformed_parent_indices, transformed_values)
+
+  Given:
+  - parent_indices: an int64 vector of non-decreasing parent message indices.
+  - values: a string vector of serialized protos having the same shape as
+    `parent_indices`.
+  `transform_fn` must return new parent indices and serialized values encoding
+  the same proto message as the passed in `values`.  These two vectors must
+  have the same size, but it need not be the same as the input arguments.
+
+  Args:
+    expr: a source expression containing `source_path`.
+    source_path: the path to the field to reverse.
+    dest_field: the name of the newly created field. This field will be a
+      sibling of the field identified by `source_path`.
+    transform_fn: a callable that accepts parent_indices and serialized proto
+      values and returns a posibly modified parent_indices and values.
+
+  Returns:
+    An expression.
+
+  Raises:
+    ValueError: if the source path is not a proto message field.
+  """
+  source_path = path.create_path(source_path)
+  source_expr = expr.get_descendant_or_error(source_path)
+  if not isinstance(source_expr, _ProtoChildExpression):
+    raise ValueError(
+        "Expected _ProtoChildExpression for field {}, but found {}.".format(
+            str(source_path), source_expr))
+
+  if isinstance(source_expr, _TransformProtoChildExpression):
+    # In order to be able to propagate fields needed for parsing, the source
+    # expression of _TransformProtoChildExpression must always be the original
+    # _ProtoChildExpression before any transformation. This means that two
+    # sequentially applied _TransformProtoChildExpression would have the same
+    # source and would apply the transformation to the source directly, instead
+    # of one transform operating on the output of the other.
+    # To work around this, the user supplied transform function is wrapped to
+    # first call the source's transform function.
+    # The downside of this approach is that the initial transform may be
+    # applied redundantly if there are other expressions derived directly
+    # from it.
+    def final_transform(parent_indices: tf.Tensor,
+                        values: tf.Tensor) -> Tuple[tf.Tensor, tf.Tensor]:
+      parent_indices, values = source_expr.transform_fn(parent_indices, values)
+      return transform_fn(parent_indices, values)
+  else:
+    final_transform = transform_fn
+
+  transformed_expr = _TransformProtoChildExpression(
+      parent=source_expr._parent,  # pylint: disable=protected-access
+      desc=source_expr._desc,  # pylint: disable=protected-access
+      is_repeated=source_expr.is_repeated,
+      name_as_field=source_expr.name_as_field,
+      transform_fn=final_transform)
+  dest_path = source_path.get_parent().get_child(dest_field)
+  return expression_add.add_paths(expr, {dest_path: transformed_expr})
+
+
 class _ProtoRootNodeTensor(prensor.RootNodeTensor):
   """The value of the root node.
 
@@ -309,6 +392,44 @@ def __str__(self) -> str:  # pylint: disable=g-ambiguous-str-annotation
         str(self.name_as_field), str(self._desc.full_name), self._parent)
 
 
+class _TransformProtoChildExpression(_ProtoChildExpression):
+  """Transforms the parent indices and values prior to parsing."""
+
+  def __init__(self, parent: "_ParentProtoExpression",
+               desc: descriptor.Descriptor, is_repeated: bool,
+               name_as_field: StrStep, transform_fn: TransformFn):
+    super(_TransformProtoChildExpression,
+          self).__init__(parent, desc, is_repeated, name_as_field)
+    self._transform_fn = transform_fn
+
+  @property
+  def transform_fn(self):
+    return self._transform_fn
+
+  def calculate_from_parsed_field(
+      self, parsed_field: struct2tensor_ops._ParsedField,
+      destinations: Sequence[expression.Expression]) -> prensor.NodeTensor:
+    needed_fields = _get_needed_fields(destinations)
+    transformed_parent_indices, transformed_values = self._transform_fn(
+        parsed_field.index, parsed_field.value)
+    fields = parse_message_level_ex.parse_message_level_ex(
+        transformed_values, self._desc, needed_fields)
+    return _ProtoChildNodeTensor(transformed_parent_indices, self.is_repeated,
+                                 fields)
+
+  def calculation_equal(self, expr: expression.Expression) -> bool:
+    return (isinstance(expr, _TransformProtoChildExpression) and
+            self._desc == expr._desc and  # pylint: disable=protected-access
+            self.name_as_field == expr.name_as_field
+            and self.transform_fn == expr.transform_fn)
+
+  def __str__(self) -> str:  # pylint: disable=g-ambiguous-str-annotation
+    return ("_TransformProtoChildExpression: name_as_field: {} desc: {} from {}"
+            .format(
+                str(self.name_as_field), str(self._desc.full_name),
+                self._parent))
+
+
 class _ProtoRootExpression(expression.Expression):
   """The expression representing the parse of the root of a proto.
 
diff --git a/struct2tensor/expression_impl/proto_test.py b/struct2tensor/expression_impl/proto_test.py
@@ -210,6 +210,35 @@ def test_create_expression_from_proto_with_any_value(self):
     self.assertLen(sources, 1)
     self.assertIs(any_expr, sources[0])
 
+  def test_create_transformed_field(self):
+    expr = proto_test_util._get_expression_from_session_empty_user_info()
+    reversed_events_expr = proto.create_transformed_field(
+        expr, path.Path(["event"]), "reversed_event", _reverse_values)
+    source_events = expr.get_child_or_error("event")
+    dest_events = reversed_events_expr.get_child_or_error("reversed_event")
+    self.assertTrue(dest_events.is_repeated)
+    self.assertFalse(dest_events.is_leaf)
+    self.assertEqual(source_events.type, dest_events.type)
+    leaf_expr = reversed_events_expr.get_descendant_or_error(
+        path.Path(["reversed_event", "action", "doc_id"]))
+    leaf_tensor = expression_test_util.calculate_value_slowly(leaf_expr)
+    self.assertEqual(leaf_tensor.parent_index.dtype, tf.int64)
+    self.assertEqual(leaf_tensor.values.dtype, tf.string)
+
+  def test_create_reversed_field_nested(self):
+    expr = proto_test_util._get_expression_from_session_empty_user_info()
+    first_reverse = proto.create_transformed_field(expr, path.Path(["event"]),
+                                                   "reversed_event",
+                                                   _reverse_values)
+    second_reverse = proto.create_transformed_field(
+        first_reverse, path.Path(["reversed_event", "action"]),
+        "reversed_action", _reverse_values)
+    leaf_expr = second_reverse.get_descendant_or_error(
+        path.Path(["reversed_event", "reversed_action", "doc_id"]))
+    leaf_tensor = expression_test_util.calculate_value_slowly(leaf_expr)
+    self.assertEqual(leaf_tensor.parent_index.dtype, tf.int64)
+    self.assertEqual(leaf_tensor.values.dtype, tf.string)
+
 
 @test_util.run_all_in_graph_and_eager_modes
 class ProtoValuesTest(tf.test.TestCase):
@@ -321,6 +350,50 @@ def test_project_proto_map_leaf_value(self):
     self.assertAllEqual(result["int32_string_map[222]"], [[b"2"]])
     self.assertAllEqual(result["int32_string_map[223]"], [[]])
 
+  def test_transformed_field_values(self):
+    expr = proto_test_util._get_expression_from_session_empty_user_info()
+    reversed_events_expr = proto.create_transformed_field(
+        expr, path.Path(["event"]), "reversed_event", _reverse_values)
+    result = expression_test_util.calculate_list_map(
+        reversed_events_expr.project(["reversed_event.action.doc_id"]), self)
+    self.assertAllEqual(result["reversed_event.action.doc_id"],
+                        [[[[b"h"], [b"i"], [b"j"]], [[b"g"]], [[b"e"], [b"f"]]],
+                         [[[b"c"], []], [[b"a"], [b"b"]]]])
+
+  def test_transformed_field_values_with_transformed_parent(self):
+    expr = proto_test_util._get_expression_from_session_empty_user_info()
+    first_reversed_expr = proto.create_transformed_field(
+        expr, path.Path(["event"]), "reversed_event", _reverse_values)
+    second_reversed_expr = proto.create_transformed_field(
+        first_reversed_expr, path.Path(["reversed_event", "action"]),
+        "reversed_action", _reverse_values)
+    result = expression_test_util.calculate_list_map(
+        second_reversed_expr.project(["reversed_event.reversed_action.doc_id"]),
+        self)
+    self.assertAllEqual(result["reversed_event.reversed_action.doc_id"],
+                        [[[[b"b"], [b"a"], []], [[b"c"]], [[b"f"], [b"e"]]],
+                         [[[b"g"], [b"j"]], [[b"i"], [b"h"]]]])
+
+  def test_transformed_field_values_with_multiple_transforms(self):
+    expr = proto_test_util._get_expression_from_session_empty_user_info()
+    reversed_events_expr = proto.create_transformed_field(
+        expr, path.Path(["event"]), "reversed_event", _reverse_values)
+    reversed_events_again_expr = proto.create_transformed_field(
+        reversed_events_expr, path.Path(["reversed_event"]),
+        "reversed_reversed_event", _reverse_values)
+
+    result = expression_test_util.calculate_list_map(
+        reversed_events_again_expr.project(
+            ["reversed_reversed_event.action.doc_id"]), self)
+    self.assertAllEqual(result["reversed_reversed_event.action.doc_id"],
+                        [[[[b"a"], [b"b"]], [[b"c"], []], [[b"e"], [b"f"]]],
+                         [[[b"g"]], [[b"h"], [b"i"], [b"j"]]]])
+
+
+def _reverse_values(parent_indices, values):
+  """A simple function for testing create_transformed_field."""
+  return parent_indices, tf.reverse(values, axis=[-1])
+
 
 if __name__ == "__main__":
   absltest.main()
diff --git a/struct2tensor/ops/decode_proto_sparse_op.cc b/struct2tensor/ops/decode_proto_sparse_op.cc
@@ -78,7 +78,7 @@ to `DT_STRING` (the serialized submessage). This is to reduce the
 complexity of the API. The resulting string can be used as input
 to another instance of the decode_proto op.
 
-- TensorFlow lacks support for unsigned integers. The ops represent uint64
+- TensorFlow lacks support for unsigned integers. The ops represent uint64_t
 types as a `DT_INT64` with the same twos-complement bit pattern
 (the obvious way). Unsigned int32_t values can be represented exactly by
 specifying type `DT_INT64`, or using twos-complement if the caller