Set both names and IDs in mlc's test fixtures.

The TensorFlow Datasets Authors · The TensorFlow Datasets Authors · commit 07a92bcc9641 · 2024-09-27T05:58:32.000-07:00
PiperOrigin-RevId: 679557238
diff --git a/tensorflow_datasets/core/dataset_builders/croissant_builder_test.py b/tensorflow_datasets/core/dataset_builders/croissant_builder_test.py
@@ -186,5 +186,5 @@ def test_download_and_prepare(crs_builder, expected_entries, split_name):
   data_source = crs_builder.as_data_source(split=split_name)
   assert len(data_source) == 2
   for i in range(2):
-    assert data_source[i]["index"] == expected_entries[i]["index"]
-    assert data_source[i]["text"].decode() == expected_entries[i]["text"]
+    assert data_source[i]["jsonl/index"] == expected_entries[i]["index"]
+    assert data_source[i]["jsonl/text"].decode() == expected_entries[i]["text"]
diff --git a/tensorflow_datasets/core/utils/croissant_utils_test.py b/tensorflow_datasets/core/utils/croissant_utils_test.py
@@ -48,8 +48,15 @@ def test_get_record_set_ids():
           mlc.RecordSet(
               id='record_set_2',
               data_types=['http://mlcommons.org/croissant/Split'],
-              fields=[mlc.Field(name='name', data_types=mlc.DataType.TEXT)],
-              data=[{'name': 'train'}, {'name': 'test'}],
+              fields=[
+                  mlc.Field(
+                      id='record_set_2/name', data_types=mlc.DataType.TEXT
+                  )
+              ],
+              data=[
+                  {'record_set_2/name': 'train'},
+                  {'record_set_2/name': 'test'},
+              ],
           ),
       ],
   )
@@ -71,14 +78,14 @@ def test_get_split_recordset():
       ),
       mlc.RecordSet(
           id='splits',
-          key='name',
+          key='splits/name',
           data_types=[mlc.DataType.SPLIT],
           fields=[
               mlc.Field(
                   id='splits/name', name='name', data_types=mlc.DataType.TEXT
               )
           ],
-          data=[{'name': 'train'}, {'name': 'test'}],
+          data=[{'splits/name': 'train'}, {'splits/name': 'test'}],
       ),
   ]
   metadata = mlc.Metadata(name='dummy', url='dum.my', record_sets=record_sets)
@@ -95,15 +102,15 @@ def test_get_split_recordset_with_no_split_recordset():
   record_sets = [
       mlc.RecordSet(
           id='labels',
-          key='name',
+          key='labels/label',
           fields=[
               mlc.Field(
                   id='labels/label',
                   name='label',
                   data_types=mlc.DataType.TEXT,
               )
           ],
-          data=[{'label': 'bird'}, {'label': 'bike'}],
+          data=[{'labels/label': 'bird'}, {'labels/label': 'bike'}],
       ),
       mlc.RecordSet(
           id='samples',
diff --git a/tensorflow_datasets/testing/test_utils.py b/tensorflow_datasets/testing/test_utils.py
@@ -736,7 +736,8 @@ def dummy_croissant_file(
 
   fields = [
       mlc.Field(
-          name='index',
+          id='jsonl/index',
+          name='jsonl/index',
           description='The sample index.',
           data_types=mlc.DataType.INTEGER,
           source=mlc.Source(
@@ -745,7 +746,8 @@ def dummy_croissant_file(
           ),
       ),
       mlc.Field(
-          name='text',
+          id='jsonl/text',
+          name='jsonl/text',
           description='The dummy sample text.',
           data_types=mlc.DataType.TEXT,
           source=mlc.Source(
@@ -758,6 +760,7 @@ def dummy_croissant_file(
   record_sets = [
       mlc.RecordSet(
           id='jsonl',
+          name='jsonl',
           description='Dummy record set.',
           fields=fields,
       )
@@ -778,6 +781,7 @@ def dummy_croissant_file(
     distribution = [
         mlc.FileObject(
             id='raw_data',
+            name='raw_data',
             description='File with the data.',
             encoding_format='application/jsonlines',
             content_url=f'data/{raw_data_filename}',
diff --git a/tensorflow_datasets/testing/test_utils_test.py b/tensorflow_datasets/testing/test_utils_test.py
@@ -237,7 +237,7 @@ def is_lambda(fn):
                 {'text': 'Dummy example 0', 'index': 0},
             ],
             [
-                {'text': b'Dummy example 0', 'index': 0},
+                {'jsonl/text': b'Dummy example 0', 'jsonl/index': 0},
             ],
         ),
         (
@@ -246,8 +246,8 @@ def is_lambda(fn):
                 {'text': None, 'index': 1},
             ],
             [
-                {'text': b'Dummy example 0', 'index': 0},
-                {'text': None, 'index': 1},
+                {'jsonl/text': b'Dummy example 0', 'jsonl/index': 0},
+                {'jsonl/text': None, 'jsonl/index': 1},
             ],
         ),
         (
@@ -259,8 +259,8 @@ def is_lambda(fn):
         (
             None,
             [
-                {'text': b'Dummy example 0', 'index': 0},
-                {'text': b'Dummy example 1', 'index': 1},
+                {'jsonl/text': b'Dummy example 0', 'jsonl/index': 0},
+                {'jsonl/text': b'Dummy example 1', 'jsonl/index': 1},
             ],
         ),
     ],

Original file line number	Diff line number	Diff line change
`@@ -237,7 +237,7 @@ def is_lambda(fn):`
`237`	`237`	`{'text': 'Dummy example 0', 'index': 0},`
`238`	`238`	`],`
`239`	`239`	`[`
`240`		`- {'text': b'Dummy example 0', 'index': 0},`
	`240`	`+ {'jsonl/text': b'Dummy example 0', 'jsonl/index': 0},`
`241`	`241`	`],`
`242`	`242`	`),`
`243`	`243`	`(`
`@@ -246,8 +246,8 @@ def is_lambda(fn):`
`246`	`246`	`{'text': None, 'index': 1},`
`247`	`247`	`],`
`248`	`248`	`[`
`249`		`- {'text': b'Dummy example 0', 'index': 0},`
`250`		`- {'text': None, 'index': 1},`
	`249`	`+ {'jsonl/text': b'Dummy example 0', 'jsonl/index': 0},`
	`250`	`+ {'jsonl/text': None, 'jsonl/index': 1},`
`251`	`251`	`],`
`252`	`252`	`),`
`253`	`253`	`(`
`@@ -259,8 +259,8 @@ def is_lambda(fn):`
`259`	`259`	`(`
`260`	`260`	`None,`
`261`	`261`	`[`
`262`		`- {'text': b'Dummy example 0', 'index': 0},`
`263`		`- {'text': b'Dummy example 1', 'index': 1},`
	`262`	`+ {'jsonl/text': b'Dummy example 0', 'jsonl/index': 0},`
	`263`	`+ {'jsonl/text': b'Dummy example 1', 'jsonl/index': 1},`
`264`	`264`	`],`
`265`	`265`	`),`
`266`	`266`	`],`