tensorflow
diff --git a/‎RELEASE.md‎
Lines changed: 3 additions & 0 deletions b/‎RELEASE.md‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎tensorflow_transform/beam/analysis_graph_builder.py‎
Lines changed: 72 additions & 21 deletions b/‎tensorflow_transform/beam/analysis_graph_builder.py‎
Lines changed: 72 additions & 21 deletions
diff --git a/‎tensorflow_transform/beam/analysis_graph_builder_test.py‎
Lines changed: 17 additions & 15 deletions b/‎tensorflow_transform/beam/analysis_graph_builder_test.py‎
Lines changed: 17 additions & 15 deletions
@@ -10,6 +10,9 @@
 *   New experimental APIs added for annotating sparse output tensors:
     `tft.experimental.annotate_sparse_output_shape` and
     `tft.experimental.annotate_true_sparse_output`.
+*   `DatasetKey.non_cacheable` added to allow for some datasets to not produce
+    cache. This may be useful for gradual cache generation when operating on a
+    large rolling range of datasets.
 
 ## Bug Fixes and Other Changes
 
 
@@ -16,8 +16,11 @@
 import collections
 import hashlib
 
+from typing import Dict, Mapping, Collection, Optional, Tuple
+
 import tensorflow as tf
 from tensorflow_transform import analyzer_nodes
+from tensorflow_transform import common_types
 from tensorflow_transform import graph_tools
 from tensorflow_transform import impl_helper
 from tensorflow_transform import nodes
@@ -35,6 +38,11 @@
 _ANALYSIS_GRAPH = None
 
 
+_IntermediateCacheType = Dict[
+    Tuple[analyzer_cache.DatasetKey, str], analyzer_cache.DatasetCache
+]
+
+
 def _tensor_name(tensor):
   """Get a name of a tensor without trailing ":0" when relevant."""
   # tensor.name is unicode in Python 3 and bytes in Python 2 so convert to
@@ -152,8 +160,14 @@ class _OptimizeVisitor(nodes.Visitor):
   input data, according to the `is_partitionable` annotation.
   """
 
-  def __init__(self, dataset_keys, cache_dict, tensor_keys_to_paths,
-               cache_output_nodes, num_phases):
+  def __init__(
+      self,
+      dataset_keys: Collection[analyzer_cache.DatasetKey],
+      cache_dict: Optional[analyzer_cache.BeamAnalysisCache],
+      tensor_keys_to_paths: Mapping[str, str],
+      cache_output_nodes: _IntermediateCacheType,
+      num_phases: int,
+  ):
     """Init method for _OptimizeVisitor.
 
     Args:
@@ -367,7 +381,7 @@ def _apply_operation_on_fine_grained_view(self, operation_def,
         (op_output,) = nodes.OperationNode(
             operation_def._replace(label=f'{operation_def.label}[{infix}]'),
             value_nodes).outputs
-        if operation_def.cache_coder:
+        if operation_def.cache_coder and dataset_key.is_cached:
           self._dataset_has_cache_misses[dataset_key] = True
           encode_cache = nodes.apply_operation(
               analyzer_nodes.EncodeCache,
@@ -418,8 +432,17 @@ def validate_value(self, value):
       ), (f'{value.fine_grained_view.keys()} != {self._sorted_dataset_keys}')
 
 
-def _perform_cache_optimization(saved_model_future, dataset_keys,
-                                tensor_keys_to_paths, cache_dict, num_phases):
+def _perform_cache_optimization(
+    saved_model_future: nodes.ValueNode,
+    dataset_keys: Collection[analyzer_cache.DatasetKey],
+    tensor_keys_to_paths: Dict[str, str],
+    cache_dict: Optional[analyzer_cache.BeamAnalysisCache],
+    num_phases: int,
+) -> Tuple[
+    Tuple[nodes.ValueNode],
+    Optional[_IntermediateCacheType],
+    Collection[nodes.ValueNode],
+]:
   """Performs cache optimization on the given graph."""
   cache_output_nodes = {}
   optimize_visitor = _OptimizeVisitor(dataset_keys or {}, cache_dict,
@@ -526,14 +549,38 @@ def get_analysis_cache_entry_keys(preprocessing_fn,
   _, cache_dict = _build_analysis_graph_for_inspection(preprocessing_fn, specs,
                                                        dataset_keys, {},
                                                        force_tf_compat_v1)
-  return set([cache_key for _, cache_key in cache_dict.keys()])
+  result = set()
+  for dataset_cache in cache_dict.values():
+    result.update(dataset_cache.keys())
+  return result
 
 
-def build(graph,
-          input_signature,
-          output_signature,
-          dataset_keys=None,
-          cache_dict=None):
+AnalysisCache = Mapping[
+    analyzer_cache.DatasetKey, Mapping[str, nodes.ValueNode]
+]
+
+
+def _format_output_cache(
+    cache_value_nodes: _IntermediateCacheType,
+) -> Optional[AnalysisCache]:
+  """Triggers dataset cache encoding and composes analysis cache output."""
+  if cache_value_nodes is None:
+    return None
+  cache_dict = collections.defaultdict(dict)
+  for (dataset_key, cache_key), value_node in cache_value_nodes.items():
+    cache_dict[dataset_key][cache_key] = value_node
+  return cache_dict
+
+
+def build(
+    graph: tf.Graph,
+    input_signature: Mapping[str, common_types.TensorType],
+    output_signature: Mapping[str, common_types.TensorType],
+    dataset_keys: Optional[Collection[analyzer_cache.DatasetKey]] = None,
+    cache_dict: Optional[analyzer_cache.BeamAnalysisCache] = None,
+) -> Tuple[
+    nodes.ValueNode, Optional[AnalysisCache], Collection[nodes.ValueNode]
+]:
   """Returns a list of `Phase`s describing how to execute the pipeline.
 
   The default graph is assumed to contain some `Analyzer`s which must be
@@ -567,18 +614,19 @@ def preprocessing_fn(input)
 
   Args:
     graph: A `tf.Graph`.
-    input_signature: A dict whose keys are strings and values are `Tensor`s or
-      `SparseTensor`s.
-    output_signature: A dict whose keys are strings and values are `Tensor`s or
-      `SparseTensor`s.
-    dataset_keys: (Optional) A set of strings which are dataset keys, they
-      uniquely identify these datasets across analysis runs.
+    input_signature: A dict whose keys are strings and values are `Tensor`s,
+      `SparseTensor`s, or `RaggedTensor`s.
+    output_signature: A dict whose keys are strings and values are `Tensor`s,
+      `SparseTensor`s, or `RaggedTensor`s.
+    dataset_keys: (Optional) A set of `DatasetKeys`, which uniquely identify
+      these datasets across analysis runs.
     cache_dict: (Optional): A cache dictionary.
 
   Returns:
-    A pair of:
-      * list of `Phase`s
+    A tuple of:
+      * A SavedModel future node.
       * A dictionary of output cache `ValueNode`s.
+      * Side affect leaf nodes.
 
   Raises:
     ValueError: if the graph cannot be analyzed.
@@ -690,5 +738,8 @@ def preprocessing_fn(input)
 
   global _ANALYSIS_GRAPH
   _ANALYSIS_GRAPH = optimized_saved_model_future
-  return (optimized_saved_model_future, output_cache_value_nodes,
-          detached_sideeffect_leafs)
+  return (
+      optimized_saved_model_future,
+      _format_output_cache(output_cache_value_nodes),
+      detached_sideeffect_leafs,
+  )
@@ -22,6 +22,7 @@
 from tensorflow_transform import nodes
 from tensorflow_transform import tf2_utils
 from tensorflow_transform.beam import analysis_graph_builder
+from tensorflow_transform.beam import analyzer_cache
 from tensorflow_transform import test_case
 # TODO(b/243513856): Switch to `collections.namedtuple` or `typing.NamedTuple`
 # once the Spark issue is resolved.
@@ -74,7 +75,7 @@ def _plus_one(x):
 directed=True;
 node [shape=Mrecord];
 "CreateSavedModelForAnalyzerInputs[Phase0]" [label="{CreateSavedModel|table_initializers: 0|output_signature: OrderedDict([('x/mean_and_var/Cast_1', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\"), ('x/mean_and_var/div_no_nan', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\"), ('x/mean_and_var/div_no_nan_1', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\"), ('x/mean_and_var/zeros', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\")])|label: CreateSavedModelForAnalyzerInputs[Phase0]}"];
-"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset')|label: ExtractInputForSavedModel[FlattenedDataset]}"];
+"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset', is_cached=True)|label: ExtractInputForSavedModel[FlattenedDataset]}"];
 "ApplySavedModel[Phase0]" [label="{ApplySavedModel|phase: 0|label: ApplySavedModel[Phase0]|partitionable: True}"];
 "CreateSavedModelForAnalyzerInputs[Phase0]" -> "ApplySavedModel[Phase0]";
 "ExtractInputForSavedModel[FlattenedDataset]" -> "ApplySavedModel[Phase0]";
@@ -99,7 +100,7 @@ def _plus_one(x):
 directed=True;
 node [shape=Mrecord];
 "CreateSavedModelForAnalyzerInputs[Phase0]" [label="{CreateSavedModel|table_initializers: 0|output_signature: OrderedDict([('x/mean_and_var/Cast_1', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\"), ('x/mean_and_var/div_no_nan', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\"), ('x/mean_and_var/div_no_nan_1', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\"), ('x/mean_and_var/zeros', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\")])|label: CreateSavedModelForAnalyzerInputs[Phase0]}"];
-"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset')|label: ExtractInputForSavedModel[FlattenedDataset]}"];
+"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset', is_cached=True)|label: ExtractInputForSavedModel[FlattenedDataset]}"];
 "ApplySavedModel[Phase0]" [label="{ApplySavedModel|phase: 0|label: ApplySavedModel[Phase0]|partitionable: True}"];
 "CreateSavedModelForAnalyzerInputs[Phase0]" -> "ApplySavedModel[Phase0]";
 "ExtractInputForSavedModel[FlattenedDataset]" -> "ApplySavedModel[Phase0]";
@@ -144,7 +145,7 @@ def _preprocessing_fn_with_table(inputs):
 directed=True;
 node [shape=Mrecord];
 "CreateSavedModelForAnalyzerInputs[Phase0]" [label="{CreateSavedModel|table_initializers: 0|output_signature: OrderedDict([('x/boolean_mask/GatherV2', \"Tensor\<shape: [None], \<dtype: 'string'\>\>\")])|label: CreateSavedModelForAnalyzerInputs[Phase0]}"];
-"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset')|label: ExtractInputForSavedModel[FlattenedDataset]}"];
+"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset', is_cached=True)|label: ExtractInputForSavedModel[FlattenedDataset]}"];
 "ApplySavedModel[Phase0]" [label="{ApplySavedModel|phase: 0|label: ApplySavedModel[Phase0]|partitionable: True}"];
 "CreateSavedModelForAnalyzerInputs[Phase0]" -> "ApplySavedModel[Phase0]";
 "ExtractInputForSavedModel[FlattenedDataset]" -> "ApplySavedModel[Phase0]";
@@ -178,7 +179,7 @@ def _preprocessing_fn_with_table(inputs):
 directed=True;
 node [shape=Mrecord];
 "CreateSavedModelForAnalyzerInputs[Phase0]" [label="{CreateSavedModel|table_initializers: 0|output_signature: OrderedDict([('x/boolean_mask/GatherV2', \"Tensor\<shape: [None], \<dtype: 'string'\>\>\")])|label: CreateSavedModelForAnalyzerInputs[Phase0]}"];
-"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset')|label: ExtractInputForSavedModel[FlattenedDataset]}"];
+"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset', is_cached=True)|label: ExtractInputForSavedModel[FlattenedDataset]}"];
 "ApplySavedModel[Phase0]" [label="{ApplySavedModel|phase: 0|label: ApplySavedModel[Phase0]|partitionable: True}"];
 "CreateSavedModelForAnalyzerInputs[Phase0]" -> "ApplySavedModel[Phase0]";
 "ExtractInputForSavedModel[FlattenedDataset]" -> "ApplySavedModel[Phase0]";
@@ -227,7 +228,7 @@ def _preprocessing_fn_with_two_phases(inputs):
 directed=True;
 node [shape=Mrecord];
 "CreateSavedModelForAnalyzerInputs[Phase0]" [label="{CreateSavedModel|table_initializers: 0|output_signature: OrderedDict([('x/mean_and_var/Cast_1', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\"), ('x/mean_and_var/div_no_nan', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\"), ('x/mean_and_var/div_no_nan_1', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\"), ('x/mean_and_var/zeros', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\")])|label: CreateSavedModelForAnalyzerInputs[Phase0]}"];
-"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset')|label: ExtractInputForSavedModel[FlattenedDataset]}"];
+"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset', is_cached=True)|label: ExtractInputForSavedModel[FlattenedDataset]}"];
 "ApplySavedModel[Phase0]" [label="{ApplySavedModel|phase: 0|label: ApplySavedModel[Phase0]|partitionable: True}"];
 "CreateSavedModelForAnalyzerInputs[Phase0]" -> "ApplySavedModel[Phase0]";
 "ExtractInputForSavedModel[FlattenedDataset]" -> "ApplySavedModel[Phase0]";
@@ -272,7 +273,7 @@ def _preprocessing_fn_with_two_phases(inputs):
 directed=True;
 node [shape=Mrecord];
 "CreateSavedModelForAnalyzerInputs[Phase0]" [label="{CreateSavedModel|table_initializers: 0|output_signature: OrderedDict([('x/mean_and_var/Cast_1', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\"), ('x/mean_and_var/div_no_nan', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\"), ('x/mean_and_var/div_no_nan_1', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\"), ('x/mean_and_var/zeros', \"Tensor\<shape: [], \<dtype: 'float32'\>\>\")])|label: CreateSavedModelForAnalyzerInputs[Phase0]}"];
-"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset')|label: ExtractInputForSavedModel[FlattenedDataset]}"];
+"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset', is_cached=True)|label: ExtractInputForSavedModel[FlattenedDataset]}"];
 "ApplySavedModel[Phase0]" [label="{ApplySavedModel|phase: 0|label: ApplySavedModel[Phase0]|partitionable: True}"];
 "CreateSavedModelForAnalyzerInputs[Phase0]" -> "ApplySavedModel[Phase0]";
 "ExtractInputForSavedModel[FlattenedDataset]" -> "ApplySavedModel[Phase0]";
@@ -349,7 +350,7 @@ def __new__(cls):
 directed=True;
 node [shape=Mrecord];
 "CreateSavedModelForAnalyzerInputs[Phase0]" [label="{CreateSavedModel|table_initializers: 0|output_signature: OrderedDict([('inputs/inputs/x_copy', \"Tensor\<shape: [None], \<dtype: 'int64'\>\>\")])|label: CreateSavedModelForAnalyzerInputs[Phase0]}"];
-"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset')|label: ExtractInputForSavedModel[FlattenedDataset]}"];
+"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset', is_cached=True)|label: ExtractInputForSavedModel[FlattenedDataset]}"];
 "ApplySavedModel[Phase0]" [label="{ApplySavedModel|phase: 0|label: ApplySavedModel[Phase0]|partitionable: True}"];
 "CreateSavedModelForAnalyzerInputs[Phase0]" -> "ApplySavedModel[Phase0]";
 "ExtractInputForSavedModel[FlattenedDataset]" -> "ApplySavedModel[Phase0]";
@@ -369,7 +370,7 @@ def __new__(cls):
 directed=True;
 node [shape=Mrecord];
 "CreateSavedModelForAnalyzerInputs[Phase0]" [label="{CreateSavedModel|table_initializers: 0|output_signature: OrderedDict([('inputs_copy', \"Tensor\<shape: [None], \<dtype: 'int64'\>\>\")])|label: CreateSavedModelForAnalyzerInputs[Phase0]}"];
-"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset')|label: ExtractInputForSavedModel[FlattenedDataset]}"];
+"ExtractInputForSavedModel[FlattenedDataset]" [label="{ExtractInputForSavedModel|dataset_key: DatasetKey(key='FlattenedDataset', is_cached=True)|label: ExtractInputForSavedModel[FlattenedDataset]}"];
 "ApplySavedModel[Phase0]" [label="{ApplySavedModel|phase: 0|label: ApplySavedModel[Phase0]|partitionable: True}"];
 "CreateSavedModelForAnalyzerInputs[Phase0]" -> "ApplySavedModel[Phase0]";
 "ExtractInputForSavedModel[FlattenedDataset]" -> "ApplySavedModel[Phase0]";
@@ -471,16 +472,17 @@ def test_get_analysis_dataset_keys(self, preprocessing_fn, full_dataset_keys,
                                      use_tf_compat_v1):
     if not use_tf_compat_v1:
       test_case.skip_if_not_tf2('Tensorflow 2.x required')
-    full_dataset_keys = [
-        analysis_graph_builder.analyzer_cache.DatasetKey(k)
-        for k in full_dataset_keys
-    ]
+    full_dataset_keys = list(
+        map(analyzer_cache.DatasetKey, full_dataset_keys))
+    cached_dataset_keys = map(analyzer_cache.DatasetKey, cached_dataset_keys)
+    expected_dataset_keys = map(
+        analyzer_cache.DatasetKey, expected_dataset_keys)
     # We force all dataset keys with entries in the cache dict will have a cache
     # hit.
     mocked_cache_entry_key = b'M'
     input_cache = {
-        key: analysis_graph_builder.analyzer_cache.DatasetCache(
-            {mocked_cache_entry_key: 'C'}, None) for key in cached_dataset_keys
+        key: analyzer_cache.DatasetCache({mocked_cache_entry_key: 'C'}, None)
+        for key in cached_dataset_keys
     }
     feature_spec = {'x': tf.io.FixedLenFeature([], tf.float32)}
     specs = (
@@ -509,7 +511,7 @@ def test_get_analysis_dataset_keys(self, preprocessing_fn, full_dataset_keys,
   def test_get_analysis_cache_entry_keys(self, use_tf_compat_v1):
     if not use_tf_compat_v1:
       test_case.skip_if_not_tf2('Tensorflow 2.x required')
-    full_dataset_keys = ['a', 'b']
+    full_dataset_keys = map(analyzer_cache.DatasetKey, ['a', 'b'])
     def preprocessing_fn(inputs):
       return {'x': tft.scale_to_0_1(inputs['x'])}
     mocked_cache_entry_key = 'A'