Remove dead code.

marcenacp · The TensorFlow Datasets Authors · commit 762a90847320 · 2024-10-24T13:01:35.000-07:00
PiperOrigin-RevId: 689486450
diff --git a/tensorflow_datasets/core/dataset_info.py b/tensorflow_datasets/core/dataset_info.py
@@ -47,7 +47,6 @@
 from etils import epy
 from tensorflow_datasets.core import constants
 from tensorflow_datasets.core import file_adapters
-from tensorflow_datasets.core import lazy_imports_lib
 from tensorflow_datasets.core import naming
 from tensorflow_datasets.core import splits as splits_lib
 from tensorflow_datasets.core import utils
@@ -1079,49 +1078,6 @@ def _populate_shape(shape_or_dict, prefix, schema_features):
     prefix.pop()
 
 
-def get_dataset_feature_statistics(builder, split):
-  """Calculate statistics for the specified split."""
-  tfdv = lazy_imports_lib.lazy_imports.tensorflow_data_validation
-  # TODO(epot): Avoid hardcoding file format.
-  filetype_suffix = "tfrecord"
-  if filetype_suffix not in ["tfrecord", "csv"]:
-    raise ValueError(
-        "Cannot generate statistics for filetype {}".format(filetype_suffix)
-    )
-  filename_template = naming.ShardedFileTemplate(
-      data_dir=builder.data_dir,
-      dataset_name=builder.name,
-      split=split,
-      filetype_suffix=filetype_suffix,
-  )
-  filepattern = filename_template.sharded_filepaths_pattern()
-  # Avoid generating a large number of buckets in rank histogram
-  # (default is 1000).
-  stats_options = tfdv.StatsOptions(
-      num_top_values=10,
-      num_rank_histogram_buckets=10,
-      use_sketch_based_topk_uniques=False,
-  )
-  if filetype_suffix == "csv":
-    statistics = tfdv.generate_statistics_from_csv(
-        filepattern, stats_options=stats_options
-    )
-  else:
-    statistics = tfdv.generate_statistics_from_tfrecord(
-        filepattern, stats_options=stats_options
-    )
-  schema = tfdv.infer_schema(statistics)
-  schema_features = {feature.name: feature for feature in schema.feature}
-  # Override shape in the schema.
-  for feature_name, feature in builder.info.features.items():
-    _populate_shape(feature.shape, [feature_name], schema_features)
-
-  # Remove legacy field.
-  if getattr(schema, "generate_legacy_feature_spec", None) is not None:
-    schema.ClearField("generate_legacy_feature_spec")
-  return statistics.datasets[0], schema
-
-
 def get_dataset_info_json(
     dataset_info_proto: dataset_info_pb2.DatasetInfo,
 ) -> str:
diff --git a/tensorflow_datasets/core/dataset_utils.py b/tensorflow_datasets/core/dataset_utils.py
@@ -200,15 +200,3 @@ def as_numpy(dataset: Tree[TensorflowElem]) -> Tree[NumpyElem]:
     return tree.map_structure(_elem_to_numpy_eager, dataset)
   else:
     return _nested_to_numpy_graph(dataset)
-
-
-def dataset_shape_is_fully_defined(ds):
-  output_shapes = tf.compat.v1.data.get_output_shapes(ds)
-  return all([ts.is_fully_defined() for ts in tf.nest.flatten(output_shapes)])
-
-
-def features_shape_is_fully_defined(features):
-  return all([
-      tf.TensorShape(info.shape).is_fully_defined()
-      for info in tf.nest.flatten(features.get_tensor_info())
-  ])
diff --git a/tensorflow_datasets/core/naming.py b/tensorflow_datasets/core/naming.py
@@ -413,18 +413,6 @@ def snake_to_camelcase(name: str) -> str:
   return ''.join(n.capitalize() for n in name.split('_'))
 
 
-def filename_prefix_for_name(name: str) -> str:
-  if os.path.basename(name) != name:
-    raise ValueError('Should be a dataset name, not a path: %s' % name)
-  return camelcase_to_snakecase(name)
-
-
-def filename_prefix_for_split(name: str, split: str) -> str:
-  if os.path.basename(name) != name:
-    raise ValueError('Should be a dataset name, not a path: %s' % name)
-  return '%s-%s' % (filename_prefix_for_name(name), split)
-
-
 def _strip_encoding_suffix(path: str) -> str:
   """Strips the encoding suffix from the path."""
   if '%' not in path:
@@ -710,75 +698,6 @@ def replace(self, **kwargs: Any) -> 'ShardedFileTemplate':
     return dataclasses.replace(self, **kwargs)
 
 
-def filepattern_for_dataset_split(
-    *,
-    dataset_name: str,
-    split: str,
-    data_dir: str,
-    filetype_suffix: str | None = None,
-    num_shards: int | None = None,
-) -> str:
-  """Returns the file pattern for the given dataset.
-
-  TODO(tfds): remove this by start using ShardedFileTemplate
-
-  Args:
-    dataset_name: Name of the dataset
-    split: Name of the requested split
-    data_dir: The base folder that contains the dataset.
-    filetype_suffix: Optional suffix, e.g. tfrecord
-    num_shards: Optional argument. If specified, will return file@num_shards
-      notation, otherwise file*.
-  """
-  template = ShardedFileTemplate(
-      data_dir=epath.Path(data_dir),
-      dataset_name=dataset_name,
-      split=split,
-      filetype_suffix=filetype_suffix,
-  )
-  return os.fspath(template.sharded_filepaths_pattern(num_shards=num_shards))
-
-
-def filenames_for_dataset_split(
-    dataset_name: str,
-    split: str,
-    num_shards: int,
-    filetype_suffix: str,
-    data_dir: epath.PathLike | None = None,
-) -> list[str]:
-  """Returns the list of filenames for the given dataset and split."""
-  # TODO(tfds): remove this by start using ShardedFileTemplate
-  template = ShardedFileTemplate(
-      dataset_name=dataset_name,
-      split=split,
-      filetype_suffix=filetype_suffix,
-      data_dir=epath.Path(data_dir),
-  )
-  return [
-      os.fspath(fp) for fp in template.sharded_filenames(num_shards=num_shards)
-  ]
-
-
-def filepaths_for_dataset_split(
-    dataset_name: str,
-    split: str,
-    num_shards: int,
-    data_dir: str,
-    filetype_suffix: str,
-) -> list[str]:
-  """File paths of a given dataset split."""
-  # TODO(tfds): remove this by start using ShardedFileTemplate
-  template = ShardedFileTemplate(
-      dataset_name=dataset_name,
-      split=split,
-      filetype_suffix=filetype_suffix,
-      data_dir=epath.Path(data_dir),
-  )
-  return [
-      os.fspath(fp) for fp in template.sharded_filepaths(num_shards=num_shards)
-  ]
-
-
 def _get_filename_template(
     filename: str, filename_template: ShardedFileTemplate | None
 ) -> ShardedFileTemplate:
diff --git a/tensorflow_datasets/core/naming_test.py b/tensorflow_datasets/core/naming_test.py
@@ -21,7 +21,6 @@
 import pytest
 from tensorflow_datasets import testing
 from tensorflow_datasets.core import naming
-from tensorflow_datasets.core import splits
 
 _FILENAME_TEMPLATE_DEFAULT = naming.ShardedFileTemplate(data_dir='.')
 _FILENAME_TEMPLATE_MNIST_DEFAULT = naming.ShardedFileTemplate(
@@ -108,54 +107,6 @@ def test_encryption_suffix(self):
         [path_template % s + encryption_suffix for s in shards],
     )
 
-  @parameterized.parameters(
-      ('foo', 'foo-train'),
-      ('Foo', 'foo-train'),
-      ('FooBar', 'foo_bar-train'),
-  )
-  def test_filename_prefix_for_split(self, prefix, expected):
-    split = splits.Split.TRAIN
-    self.assertEqual(expected, naming.filename_prefix_for_split(prefix, split))
-
-  def test_filenames_for_dataset_split(self):
-    actual = naming.filenames_for_dataset_split(
-        dataset_name='foo',
-        split=splits.Split.TRAIN,
-        num_shards=2,
-        filetype_suffix='bar',
-        data_dir='/path',
-    )
-    self.assertEqual(
-        actual, ['foo-train.bar-00000-of-00002', 'foo-train.bar-00001-of-00002']
-    )
-
-  def test_filepaths_for_dataset_split(self):
-    actual = naming.filepaths_for_dataset_split(
-        dataset_name='foo',
-        split=splits.Split.TRAIN,
-        num_shards=2,
-        data_dir='/tmp/bar/',
-        filetype_suffix='bar',
-    )
-    self.assertEqual(
-        actual,
-        [
-            '/tmp/bar/foo-train.bar-00000-of-00002',
-            '/tmp/bar/foo-train.bar-00001-of-00002',
-        ],
-    )
-
-  def test_filepattern_for_dataset_split(self):
-    self.assertEqual(
-        '/tmp/bar/foo-test.bar*',
-        naming.filepattern_for_dataset_split(
-            dataset_name='foo',
-            split=splits.Split.TEST,
-            data_dir='/tmp/bar/',
-            filetype_suffix='bar',
-        ),
-    )
-
 
 @pytest.mark.parametrize(
     ('tfds_name', 'expected'),