fix: Adding more fuzz tests for count(distinct)

comphead · comphead · commit cb6abecb1dbd · 2025-09-21T09:41:04.000-07:00
diff --git a/spark/src/test/scala/org/apache/comet/CometFuzzAggregateSuite.scala b/spark/src/test/scala/org/apache/comet/CometFuzzAggregateSuite.scala
@@ -26,25 +26,40 @@ class CometFuzzAggregateSuite extends CometFuzzTestBase {
     df.createOrReplaceTempView("t1")
     for (col <- df.columns) {
       val sql = s"SELECT count(distinct $col) FROM t1"
-      // Comet does not support count distinct yet
-      // https://github.com/apache/datafusion-comet/issues/2292
       val (_, cometPlan) = checkSparkAnswer(sql)
       if (usingDataSourceExec) {
         assert(1 == collectNativeScans(cometPlan).length)
       }
+
+      checkSparkAnswerAndOperator(sql)
+    }
+  }
+
+  test("count distinct group by multpiple column") {
+    val df = spark.read.parquet(filename)
+    df.createOrReplaceTempView("t1")
+    for (col <- df.columns) {
+      val sql = s"SELECT c1, c2, c3, count(distinct $col) FROM t1 group by c1, c2, c3"
+      val (_, cometPlan) = checkSparkAnswer(sql)
+      if (usingDataSourceExec) {
+        assert(1 == collectNativeScans(cometPlan).length)
+      }
+
+      checkSparkAnswerAndOperator(sql)
     }
   }
 
   test("count(*) group by single column") {
     val df = spark.read.parquet(filename)
     df.createOrReplaceTempView("t1")
     for (col <- df.columns) {
-      // cannot run fully natively due to range partitioning and sort
       val sql = s"SELECT $col, count(*) FROM t1 GROUP BY $col ORDER BY $col"
       val (_, cometPlan) = checkSparkAnswer(sql)
       if (usingDataSourceExec) {
         assert(1 == collectNativeScans(cometPlan).length)
       }
+
+      checkSparkAnswerAndOperator(sql)
     }
   }
 
@@ -53,12 +68,13 @@ class CometFuzzAggregateSuite extends CometFuzzTestBase {
     df.createOrReplaceTempView("t1")
     val groupCol = df.columns.head
     for (col <- df.columns.drop(1)) {
-      // cannot run fully natively due to range partitioning and sort
       val sql = s"SELECT $groupCol, count($col) FROM t1 GROUP BY $groupCol ORDER BY $groupCol"
       val (_, cometPlan) = checkSparkAnswer(sql)
       if (usingDataSourceExec) {
         assert(1 == collectNativeScans(cometPlan).length)
       }
+
+      checkSparkAnswerAndOperator(sql)
     }
   }
 
@@ -67,13 +83,14 @@ class CometFuzzAggregateSuite extends CometFuzzTestBase {
     df.createOrReplaceTempView("t1")
     val groupCol = df.columns.head
     val otherCol = df.columns.drop(1)
-    // cannot run fully natively due to range partitioning and sort
     val sql = s"SELECT $groupCol, count(${otherCol.mkString(", ")}) FROM t1 " +
       s"GROUP BY $groupCol ORDER BY $groupCol"
     val (_, cometPlan) = checkSparkAnswer(sql)
     if (usingDataSourceExec) {
       assert(1 == collectNativeScans(cometPlan).length)
     }
+
+    checkSparkAnswerAndOperator(sql)
   }
 
   test("min/max aggregate") {
@@ -88,5 +105,4 @@ class CometFuzzAggregateSuite extends CometFuzzTestBase {
       }
     }
   }
-
 }
diff --git a/spark/src/test/scala/org/apache/comet/exec/CometExecSuite.scala b/spark/src/test/scala/org/apache/comet/exec/CometExecSuite.scala
@@ -1031,9 +1031,6 @@ class CometExecSuite extends CometTestBase {
           |GROUP BY key
               """.stripMargin)
 
-      // The above query uses COUNT(DISTINCT) which Comet doesn't support yet, so the plan will
-      // have a mix of `HashAggregate` and `CometHashAggregate`. In the following we check all
-      // operators starting from `CometHashAggregate` are native.
       checkSparkAnswer(df)
       val subPlan = stripAQEPlan(df.queryExecution.executedPlan).collectFirst {
         case s: CometHashAggregateExec => s

Original file line number	Diff line number	Diff line change
`@@ -26,25 +26,40 @@ class CometFuzzAggregateSuite extends CometFuzzTestBase {`
`26`	`26`	`df.createOrReplaceTempView("t1")`
`27`	`27`	`for (col <- df.columns) {`
`28`	`28`	`val sql = s"SELECT count(distinct $col) FROM t1"`
`29`		`- // Comet does not support count distinct yet`
`30`		`- // https://github.com/apache/datafusion-comet/issues/2292`
`31`	`29`	`val (_, cometPlan) = checkSparkAnswer(sql)`
`32`	`30`	`if (usingDataSourceExec) {`
`33`	`31`	`assert(1 == collectNativeScans(cometPlan).length)`
`34`	`32`	`}`
	`33`	`+`
	`34`	`+ checkSparkAnswerAndOperator(sql)`
	`35`	`+ }`
	`36`	`+ }`
	`37`	`+`
	`38`	`+ test("count distinct group by multpiple column") {`
	`39`	`+ val df = spark.read.parquet(filename)`
	`40`	`+ df.createOrReplaceTempView("t1")`
	`41`	`+ for (col <- df.columns) {`
	`42`	`+ val sql = s"SELECT c1, c2, c3, count(distinct $col) FROM t1 group by c1, c2, c3"`
	`43`	`+ val (_, cometPlan) = checkSparkAnswer(sql)`
	`44`	`+ if (usingDataSourceExec) {`
	`45`	`+ assert(1 == collectNativeScans(cometPlan).length)`
	`46`	`+ }`
	`47`	`+`
	`48`	`+ checkSparkAnswerAndOperator(sql)`
`35`	`49`	`}`
`36`	`50`	`}`
`37`	`51`
`38`	`52`	`test("count(*) group by single column") {`
`39`	`53`	`val df = spark.read.parquet(filename)`
`40`	`54`	`df.createOrReplaceTempView("t1")`
`41`	`55`	`for (col <- df.columns) {`
`42`		`- // cannot run fully natively due to range partitioning and sort`
`43`	`56`	`val sql = s"SELECT $col, count(*) FROM t1 GROUP BY $col ORDER BY $col"`
`44`	`57`	`val (_, cometPlan) = checkSparkAnswer(sql)`
`45`	`58`	`if (usingDataSourceExec) {`
`46`	`59`	`assert(1 == collectNativeScans(cometPlan).length)`
`47`	`60`	`}`
	`61`	`+`
	`62`	`+ checkSparkAnswerAndOperator(sql)`
`48`	`63`	`}`
`49`	`64`	`}`
`50`	`65`
`@@ -53,12 +68,13 @@ class CometFuzzAggregateSuite extends CometFuzzTestBase {`
`53`	`68`	`df.createOrReplaceTempView("t1")`
`54`	`69`	`val groupCol = df.columns.head`
`55`	`70`	`for (col <- df.columns.drop(1)) {`
`56`		`- // cannot run fully natively due to range partitioning and sort`
`57`	`71`	`val sql = s"SELECT $groupCol, count($col) FROM t1 GROUP BY $groupCol ORDER BY $groupCol"`
`58`	`72`	`val (_, cometPlan) = checkSparkAnswer(sql)`
`59`	`73`	`if (usingDataSourceExec) {`
`60`	`74`	`assert(1 == collectNativeScans(cometPlan).length)`
`61`	`75`	`}`
	`76`	`+`
	`77`	`+ checkSparkAnswerAndOperator(sql)`
`62`	`78`	`}`
`63`	`79`	`}`
`64`	`80`
`@@ -67,13 +83,14 @@ class CometFuzzAggregateSuite extends CometFuzzTestBase {`
`67`	`83`	`df.createOrReplaceTempView("t1")`
`68`	`84`	`val groupCol = df.columns.head`
`69`	`85`	`val otherCol = df.columns.drop(1)`
`70`		`- // cannot run fully natively due to range partitioning and sort`
`71`	`86`	`val sql = s"SELECT $groupCol, count(${otherCol.mkString(", ")}) FROM t1 " +`
`72`	`87`	`s"GROUP BY $groupCol ORDER BY $groupCol"`
`73`	`88`	`val (_, cometPlan) = checkSparkAnswer(sql)`
`74`	`89`	`if (usingDataSourceExec) {`
`75`	`90`	`assert(1 == collectNativeScans(cometPlan).length)`
`76`	`91`	`}`
	`92`	`+`
	`93`	`+ checkSparkAnswerAndOperator(sql)`
`77`	`94`	`}`
`78`	`95`
`79`	`96`	`test("min/max aggregate") {`
`@@ -88,5 +105,4 @@ class CometFuzzAggregateSuite extends CometFuzzTestBase {`
`88`	`105`	`}`
`89`	`106`	`}`
`90`	`107`	`}`
`91`		`-`
`92`	`108`	`}`