remove scripty code

akoumpa · akoumpa · commit d18d8021a210 · 2026-02-02T07:54:53.000-08:00
Signed-off-by: Alexandros Koumparoulis &lt;akoumparouli@nvidia.com&gt;
diff --git a/nemo_automodel/components/datasets/llm/retrieval_dataset_inline.py b/nemo_automodel/components/datasets/llm/retrieval_dataset_inline.py
@@ -541,51 +541,3 @@ def make_retrieval_dataset(
     logging.info(f"Created {data_type} dataset with {len(dataset)} examples")
 
     return dataset
-
-
-if __name__ == "__main__":
-    import argparse
-
-    parser = argparse.ArgumentParser(description="Load and transform dataset to retrieval format")
-    parser.add_argument(
-        "--data_dir_list", type=str, nargs="+", required=True, help="Path(s) to JSON file(s) containing training data"
-    )
-    parser.add_argument(
-        "--data_type", type=str, default="train", choices=["train", "eval"], help="Type of data (train or eval)"
-    )
-    parser.add_argument(
-        "--train_n_passages", type=int, default=5, help="Number of passages for training (1 positive + n-1 negatives)"
-    )
-    parser.add_argument(
-        "--eval_negative_size", type=int, default=10, help="Number of negative documents for evaluation"
-    )
-    parser.add_argument("--seed", type=int, default=42, help="Random seed for reproducibility")
-    parser.add_argument("--do_shuffle", action="store_true", help="Whether to shuffle the dataset")
-    parser.add_argument("--max_train_samples", type=int, default=None, help="Maximum number of training samples")
-
-    args = parser.parse_args()
-
-    logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
-
-    dataset = make_retrieval_dataset(
-        data_dir_list=args.data_dir_list,
-        data_type=args.data_type,
-        train_n_passages=args.train_n_passages,
-        eval_negative_size=args.eval_negative_size,
-        seed=args.seed,
-        do_shuffle=args.do_shuffle,
-        max_train_samples=args.max_train_samples,
-    )
-
-    print(f"\n{'=' * 60}")
-    print(f"Dataset loading completed successfully! (mode: {args.data_type})")
-    print(f"{'=' * 60}")
-    print(f"Dataset size: {len(dataset)}")
-    print("\nSample example:")
-    example = dataset[0]
-    print(f"Question: {example['question'][:100]}...")
-    print(f"Num documents: {len(example['doc_text'])}")
-    print(f"Positive doc: {example['doc_text'][0][:100] if example['doc_text'][0] else '(empty)'}...")
-    if len(example["doc_text"]) > 1:
-        print(f"First negative: {example['doc_text'][1][:100] if example['doc_text'][1] else '(empty)'}...")
-    print(f"{'=' * 60}\n")