Accept empty list as valid entry for dummy_croissant (as specified in the docstring).

The TensorFlow Datasets Authors · The TensorFlow Datasets Authors · commit 9b888a403485 · 2024-07-06T12:59:43.000-07:00
PiperOrigin-RevId: 649873646
diff --git a/tensorflow_datasets/testing/test_utils.py b/tensorflow_datasets/testing/test_utils.py
@@ -731,7 +731,7 @@ def dummy_croissant_file(
     raw_data_filename: Filename of the raw data file.
     croissant_filename: Filename of the Croissant JSON-LD file.
   """
-  if not entries:
+  if entries is None:
     entries = [{'index': i, 'text': f'Dummy example {i}'} for i in range(2)]
 
   fields = [
diff --git a/tensorflow_datasets/testing/test_utils_test.py b/tensorflow_datasets/testing/test_utils_test.py
@@ -230,19 +230,42 @@ def is_lambda(fn):
 
 
 @pytest.mark.parametrize(
-    'entries',
+    'entries,expected_records',
     [
-        [
-            {'text': 'Dummy example 0', 'index': 0},
-            {'text': 'Dummy example 1', 'index': 1},
-        ],
-        [
-            {'text': 'Dummy example 0', 'index': 0},
-            {'text': None, 'index': 1},
-        ],
+        (
+            [
+                {'text': 'Dummy example 0', 'index': 0},
+            ],
+            [
+                {'text': b'Dummy example 0', 'index': 0},
+            ],
+        ),
+        (
+            [
+                {'text': 'Dummy example 0', 'index': 0},
+                {'text': None, 'index': 1},
+            ],
+            [
+                {'text': b'Dummy example 0', 'index': 0},
+                {'text': None, 'index': 1},
+            ],
+        ),
+        (
+            [],
+            [],
+        ),
+        # If entries is None, dummy_croissant_file will create two dummy
+        # entries.
+        (
+            None,
+            [
+                {'text': b'Dummy example 0', 'index': 0},
+                {'text': b'Dummy example 1', 'index': 1},
+            ],
+        ),
     ],
 )
-def test_dummy_croissant_file(entries):
+def test_dummy_croissant_file(entries, expected_records):
   with test_utils.dummy_croissant_file(entries=entries) as croissant_file:
     dataset = mlc.Dataset(jsonld=croissant_file)
 
@@ -255,9 +278,7 @@ def test_dummy_croissant_file(entries):
     assert [record_set.id for record_set in dataset.metadata.record_sets] == [
         'jsonl'
     ]
+    if entries is not None:
+      assert len(tuple(dataset.records('jsonl'))) == len(expected_records)
     for i, record in enumerate(dataset.records('jsonl')):
-      assert record['index'] == entries[i]['index']
-      if record['text'] is not None:
-        assert record['text'].decode() == entries[i]['text']
-      else:
-        assert record['text'] == entries[i]['text']
+      assert record == expected_records[i]