chore: add q4-7 for groupby benchmark (#765)

Genesis929 · web-flow · commit e627896b617f · 2024-06-10T10:58:34.000-07:00
* chore: add q4-7 for groupby benchmark

* update benchmark print message.
diff --git a/scripts/benchmark/db-benchmark/groupby/G1_1e9_1e2_5_0/q4.py b/scripts/benchmark/db-benchmark/groupby/G1_1e9_1e2_5_0/q4.py
@@ -0,0 +1,16 @@
+# Contains code from https://github.com/duckdblabs/db-benchmark/blob/master/pandas/groupby-pandas.py
+
+import bigframes.pandas as bpd
+
+print("Groupby benchmark 4: mean v1:v3 by id4")
+
+x = bpd.read_gbq("bigframes-dev-perf.dbbenchmark.G1_1e9_1e2_5_0")
+
+ans = x.groupby("id4", as_index=False, dropna=False).agg(
+    {"v1": "mean", "v2": "mean", "v3": "mean"}
+)
+print(ans.shape)
+chk = [ans["v1"].sum(), ans["v2"].sum(), ans["v3"].sum()]
+print(chk)
+
+bpd.reset_session()
diff --git a/scripts/benchmark/db-benchmark/groupby/G1_1e9_1e2_5_0/q5.py b/scripts/benchmark/db-benchmark/groupby/G1_1e9_1e2_5_0/q5.py
@@ -0,0 +1,16 @@
+# Contains code from https://github.com/duckdblabs/db-benchmark/blob/master/pandas/groupby-pandas.py
+
+import bigframes.pandas as bpd
+
+print("Groupby benchmark 5: sum v1:v3 by id6")
+
+x = bpd.read_gbq("bigframes-dev-perf.dbbenchmark.G1_1e9_1e2_5_0")
+
+ans = x.groupby("id6", as_index=False, dropna=False).agg(
+    {"v1": "sum", "v2": "sum", "v3": "sum"}
+)
+print(ans.shape)
+chk = [ans["v1"].sum(), ans["v2"].sum(), ans["v3"].sum()]
+print(chk)
+
+bpd.reset_session()
diff --git a/scripts/benchmark/db-benchmark/groupby/G1_1e9_1e2_5_0/q6.py b/scripts/benchmark/db-benchmark/groupby/G1_1e9_1e2_5_0/q6.py
@@ -0,0 +1,16 @@
+# Contains code from https://github.com/duckdblabs/db-benchmark/blob/master/pandas/groupby-pandas.py
+
+import bigframes.pandas as bpd
+
+print("Groupby benchmark 6: median v3 sd v3 by id4 id5")
+
+x = bpd.read_gbq("bigframes-dev-perf.dbbenchmark.G1_1e9_1e2_5_0")
+
+ans = x.groupby(["id4", "id5"], as_index=False, dropna=False).agg(
+    {"v3": ["median", "std"]}
+)
+print(ans.shape)
+chk = [ans["v3"]["median"].sum(), ans["v3"]["std"].sum()]
+print(chk)
+
+bpd.reset_session()
diff --git a/scripts/benchmark/db-benchmark/groupby/G1_1e9_1e2_5_0/q7.py b/scripts/benchmark/db-benchmark/groupby/G1_1e9_1e2_5_0/q7.py
@@ -0,0 +1,18 @@
+# Contains code from https://github.com/duckdblabs/db-benchmark/blob/master/pandas/groupby-pandas.py
+
+import bigframes.pandas as bpd
+
+print("Groupby benchmark 7: max v1 - min v2 by id3")
+
+x = bpd.read_gbq("bigframes-dev-perf.dbbenchmark.G1_1e9_1e2_5_0")
+
+ans = (
+    x.groupby("id3", as_index=False, dropna=False)
+    .agg({"v1": "max", "v2": "min"})
+    .assign(range_v1_v2=lambda x: x["v1"] - x["v2"])[["id3", "range_v1_v2"]]
+)
+print(ans.shape)
+chk = [ans["range_v1_v2"].sum()]
+print(chk)
+
+bpd.reset_session()
diff --git a/scripts/benchmark/db-benchmark/sort b/scripts/benchmark/db-benchmark/sort