NVIDIA-NeMo
diff --git a/‎nemo_curator/datasets/image_text_pair_dataset.py‎
Lines changed: 5 additions & 4 deletions b/‎nemo_curator/datasets/image_text_pair_dataset.py‎
Lines changed: 5 additions & 4 deletions
@@ -149,8 +149,8 @@ def filter_members(member):
     def _get_eligible_samples(self, output_path: str, samples_per_shard: int):
         parquet_glob_str = os.path.join(output_path, "temp_*.parquet")
         tar_glob_str = os.path.join(self.path, "*.tar")
-        parquet_files = open_files(parquet_glob_str)
-        tar_files = open_files(tar_glob_str)
+        parquet_files = sorted(open_files(parquet_glob_str), key=lambda f: f.path)
+        tar_files = sorted(open_files(tar_glob_str), key=lambda f: f.path)
 
         curr_df = None
         total_tar_samples = []
@@ -198,8 +198,9 @@ def _get_eligible_samples(self, output_path: str, samples_per_shard: int):
                     samples_per_shard * entries_per_sample :
                 ]
 
-        # Return the remaining df and samples
-        yield curr_df, total_tar_samples
+        # Return the remaining df and samples if it's not empty
+        if len(curr_df) > 0:
+            yield curr_df, total_tar_samples
 
     @staticmethod
     def _combine_id(shard_id, sample_id, max_shards=5, max_samples_per_shard=4) -> str: