y-scope · PacificViking · Jul 24, 2025 · Jul 31, 2025 · kirkrodrigues · Jul 30, 2025
@@ -13,7 +13,7 @@
 """
 
 CLICKHOUSE_COLLECTION_NAME = "clickhouse_bench"
-class clickhouse_native_json_bench(Benchmark):
+class clickhouse_bench(Benchmark):
     # add any parameters to the tool here
     def __init__(self, dataset, manual_column_names=True, keys=[], additional_order_by=[], timestamp_key=False):
         super().__init__(dataset)
@@ -154,7 +154,7 @@ def run_applicable(self, dataset_name):
 
 
 def main():
-    bench = clickhouse_native_json_bench(sys.argv[1])
+    bench = clickhouse_bench(sys.argv[1])
     bench.run_everything()
 
 if __name__ == "__main__":

@@ -5,7 +5,7 @@
 
 CLP_OUT_PATH = f"{WORK_DIR}/archives"
 CLP_S_BINARY = "/clp/clp-s"
-class clp_s_bench(Benchmark):
+class clp_bench(Benchmark):
     def __init__(self, dataset, target_encoded_size=268435456):
         super().__init__(dataset)
 
@@ -61,7 +61,7 @@ def terminate_procs(self):
 
 
 def main():
-    bench = clp_s_bench(sys.argv[1])
+    bench = clp_bench(sys.argv[1])
     bench.run_everything()
 
 if __name__ == "__main__":

@@ -16,7 +16,7 @@
 CLP_PRESTO_HOST_STORAGE = os.path.abspath(os.path.expanduser("~/clp-json-x86_64-v0.4.0-dev"))
 SQL_PASSWORD = "wqEGPyBdx_w"
 HOST_IP = "127.0.0.1"
-class clp_presto_bench(Benchmark):
+class presto_clp_bench(Benchmark):
     # add any parameters to the tool here
     def __init__(self, dataset, dataset_variation='cleaned_log'):
         super().__init__(dataset, dataset_variation=dataset_variation)
@@ -102,7 +102,7 @@ def terminate(self):
 
 
 def main():
-    bench = clp_presto_bench(sys.argv[1])
+    bench = presto_clp_bench(sys.argv[1])
     bench.run_everything()
 
 if __name__ == "__main__":

@@ -15,7 +15,7 @@
 PARQUET_DATA_PATH = "/home/hive-data"
 PARQUET_SCHEMA_NAME = "bench_schema"
 PARQUET_TABLE_NAME = "bench_table"
-class parquet_bench(Benchmark):
+class presto_parquet_bench(Benchmark):
     # add any parameters to the tool here
     def __init__(self, dataset, mode='json string'):
         super().__init__(dataset)
@@ -145,7 +145,7 @@ def terminate(self):
         time.sleep(10)
 
 def main():
-    bench = parquet_bench(sys.argv[1])
+    bench = presto_parquet_bench(sys.argv[1])
     bench.run_everything()
 
 if __name__ == "__main__":

@@ -1,12 +1,12 @@
 #!/usr/bin/env python3
 
-from assets.clp_s.main import clp_s_bench
-from assets.clickhouse_native_json.main import clickhouse_native_json_bench
+from assets.clp.main import clp_bench
+from assets.clickhouse.main import clickhouse_bench
 from assets.sparksql.main import sparksql_bench
-from assets.parquet.main import parquet_bench
+from assets.presto_parquet.main import presto_parquet_bench
 from assets.zstandard.main import zstandard_bench
 from assets.elasticsearch.main import elasticsearch_bench
-from assets.clp_presto.main import clp_presto_bench
+from assets.presto_clp.main import presto_clp_bench
 from assets.overhead_test.main import overhead_test_bench
 from assets.gzip.main import gzip_bench
 from src.jsonsync import JsonItem
@@ -33,31 +33,30 @@ def get_target_from_name(name):
 
 
 benchmarks = [  # benchmark object, arguments
-        (clp_s_bench, {}),
-        (clickhouse_native_json_bench, {
+        (clp_bench, {}),
+        (clickhouse_bench, {
             'manual_column_names': False,
             'keys': [],
             'additional_order_by': [],
             'timestamp_key': True
             }),
-        (clp_presto_bench, {
+        (presto_clp_bench, {
             'dataset_variation': "cleaned_log"
             }),
-        (parquet_bench, {'mode': 'json string'}),
-        (parquet_bench, {'mode': 'pairwise arrays'}),
+        (presto_parquet_bench, {'mode': 'json string'}),
+        (presto_parquet_bench, {'mode': 'pairwise arrays'}),
         (elasticsearch_bench, {}),
         (overhead_test_bench, {}),
         (zstandard_bench, {}),
         (sparksql_bench, {}),
         (gzip_bench, {}),
     ]
 
-def run(bencher, kwargs, bench_target, attach=False):
+def run(bencher, kwargs, bench_target, attach=False, attach_on_error=False):
     dataset_name = 'error when finding dataset name'
     bench = None
     try:
         dataset_name = os.path.basename(bench_target.resolve()).strip()
-        # benchmark clp_presto on the cleaned (no spaces) datasets
 
         print(f'Benchmarking {bencher.__name__} ({kwargs}) on dataset {dataset_name}')
 
@@ -70,7 +69,7 @@ def run(bencher, kwargs, bench_target, attach=False):
         with open((current_dir / 'exceptions.log').resolve(), 'a') as file:
             file.write(f"{statement}\n")
         print(statement)
-        if attach:
+        if attach or attach_on_error:
             if bench is not None:
                 bench.docker_attach()
         else:
@@ -82,7 +81,8 @@ def run(bencher, kwargs, bench_target, attach=False):
 
         #if dataset_name != 'mongod': # only use mongod for now
         #    continue
-        run(bencher, kwargs, bench_target)
+        #run(bencher, kwargs, bench_target)
+        run(bencher, kwargs, bench_target, attach_on_error=True)
         #run(bencher, kwargs, bench_target, attach=True)
 
 #run(sparksql_bench, {}, get_target_from_name('mongod'))