apache
diff --git a/‎datafusion/core/tests/dataframe/mod.rs‎
Lines changed: 12 additions & 16 deletions b/‎datafusion/core/tests/dataframe/mod.rs‎
Lines changed: 12 additions & 16 deletions
diff --git a/‎datafusion/core/tests/sql/explain_analyze.rs‎
Lines changed: 9 additions & 20 deletions b/‎datafusion/core/tests/sql/explain_analyze.rs‎
Lines changed: 9 additions & 20 deletions
diff --git a/‎datafusion/core/tests/sql/joins.rs‎
Lines changed: 12 additions & 18 deletions b/‎datafusion/core/tests/sql/joins.rs‎
Lines changed: 12 additions & 18 deletions
diff --git a/‎datafusion/physical-optimizer/src/coalesce_batches.rs‎
Lines changed: 1 addition & 19 deletions b/‎datafusion/physical-optimizer/src/coalesce_batches.rs‎
Lines changed: 1 addition & 19 deletions
@@ -2906,10 +2906,9 @@ async fn test_count_wildcard_on_sort() -> Result<()> {
     |               |     SortExec: expr=[count(*)@1 ASC NULLS LAST], preserve_partitioning=[true]                               |
     |               |       ProjectionExec: expr=[b@0 as b, count(Int64(1))@1 as count(*), count(Int64(1))@1 as count(Int64(1))] |
     |               |         AggregateExec: mode=FinalPartitioned, gby=[b@0 as b], aggr=[count(Int64(1))]                       |
-    |               |           CoalesceBatchesExec: target_batch_size=8192                                                      |
-    |               |             RepartitionExec: partitioning=Hash([b@0], 4), input_partitions=1                               |
-    |               |               AggregateExec: mode=Partial, gby=[b@0 as b], aggr=[count(Int64(1))]                          |
-    |               |                 DataSourceExec: partitions=1, partition_sizes=[1]                                          |
+    |               |           RepartitionExec: partitioning=Hash([b@0], 4), input_partitions=1                                 |
+    |               |             AggregateExec: mode=Partial, gby=[b@0 as b], aggr=[count(Int64(1))]                            |
+    |               |               DataSourceExec: partitions=1, partition_sizes=[1]                                            |
     |               |                                                                                                            |
     +---------------+------------------------------------------------------------------------------------------------------------+
     "
@@ -2927,10 +2926,9 @@ async fn test_count_wildcard_on_sort() -> Result<()> {
     | physical_plan | SortPreservingMergeExec: [count(*)@1 ASC NULLS LAST]                       |
     |               |   SortExec: expr=[count(*)@1 ASC NULLS LAST], preserve_partitioning=[true] |
     |               |     AggregateExec: mode=FinalPartitioned, gby=[b@0 as b], aggr=[count(*)]  |
-    |               |       CoalesceBatchesExec: target_batch_size=8192                          |
-    |               |         RepartitionExec: partitioning=Hash([b@0], 4), input_partitions=1   |
-    |               |           AggregateExec: mode=Partial, gby=[b@0 as b], aggr=[count(*)]     |
-    |               |             DataSourceExec: partitions=1, partition_sizes=[1]              |
+    |               |       RepartitionExec: partitioning=Hash([b@0], 4), input_partitions=1     |
+    |               |         AggregateExec: mode=Partial, gby=[b@0 as b], aggr=[count(*)]       |
+    |               |           DataSourceExec: partitions=1, partition_sizes=[1]                |
     |               |                                                                            |
     +---------------+----------------------------------------------------------------------------+
     "
@@ -3342,10 +3340,9 @@ async fn test_count_wildcard_on_where_scalar_subquery() -> Result<()> {
     |               |         CoalescePartitionsExec                                                                                             |
     |               |           ProjectionExec: expr=[count(Int64(1))@1 as count(*), a@0 as a, true as __always_true]                            |
     |               |             AggregateExec: mode=FinalPartitioned, gby=[a@0 as a], aggr=[count(Int64(1))]                                   |
-    |               |               CoalesceBatchesExec: target_batch_size=8192                                                                  |
-    |               |                 RepartitionExec: partitioning=Hash([a@0], 4), input_partitions=1                                           |
-    |               |                   AggregateExec: mode=Partial, gby=[a@0 as a], aggr=[count(Int64(1))]                                      |
-    |               |                     DataSourceExec: partitions=1, partition_sizes=[1]                                                      |
+    |               |               RepartitionExec: partitioning=Hash([a@0], 4), input_partitions=1                                             |
+    |               |                 AggregateExec: mode=Partial, gby=[a@0 as a], aggr=[count(Int64(1))]                                        |
+    |               |                   DataSourceExec: partitions=1, partition_sizes=[1]                                                        |
     |               |         DataSourceExec: partitions=1, partition_sizes=[1]                                                                  |
     |               |                                                                                                                            |
     +---------------+----------------------------------------------------------------------------------------------------------------------------+
@@ -3399,10 +3396,9 @@ async fn test_count_wildcard_on_where_scalar_subquery() -> Result<()> {
     |               |         CoalescePartitionsExec                                                                                             |
     |               |           ProjectionExec: expr=[count(*)@1 as count(*), a@0 as a, true as __always_true]                                   |
     |               |             AggregateExec: mode=FinalPartitioned, gby=[a@0 as a], aggr=[count(*)]                                          |
-    |               |               CoalesceBatchesExec: target_batch_size=8192                                                                  |
-    |               |                 RepartitionExec: partitioning=Hash([a@0], 4), input_partitions=1                                           |
-    |               |                   AggregateExec: mode=Partial, gby=[a@0 as a], aggr=[count(*)]                                             |
-    |               |                     DataSourceExec: partitions=1, partition_sizes=[1]                                                      |
+    |               |               RepartitionExec: partitioning=Hash([a@0], 4), input_partitions=1                                             |
+    |               |                 AggregateExec: mode=Partial, gby=[a@0 as a], aggr=[count(*)]                                               |
+    |               |                   DataSourceExec: partitions=1, partition_sizes=[1]                                                        |
     |               |         DataSourceExec: partitions=1, partition_sizes=[1]                                                                  |
     |               |                                                                                                                            |
     +---------------+----------------------------------------------------------------------------------------------------------------------------+
 
@@ -103,14 +103,6 @@ async fn explain_analyze_baseline_metrics() {
             "output_bytes=",
             expected_batch_count_after_repartition
         );
-
-        assert_metrics!(
-            &formatted,
-            "CoalesceBatchesExec: target_batch_size=4096",
-            "metrics=[output_rows=5, elapsed_compute",
-            "output_bytes=",
-            expected_batch_count_after_repartition
-        );
     }
 
     assert_metrics!(
@@ -771,12 +763,11 @@ async fn test_physical_plan_display_indent() {
       SortExec: TopK(fetch=10), expr=[the_min@2 DESC], preserve_partitioning=[true]
         ProjectionExec: expr=[c1@0 as c1, max(aggregate_test_100.c12)@1 as max(aggregate_test_100.c12), min(aggregate_test_100.c12)@2 as the_min]
           AggregateExec: mode=FinalPartitioned, gby=[c1@0 as c1], aggr=[max(aggregate_test_100.c12), min(aggregate_test_100.c12)]
-            CoalesceBatchesExec: target_batch_size=4096
-              RepartitionExec: partitioning=Hash([c1@0], 9000), input_partitions=9000
-                AggregateExec: mode=Partial, gby=[c1@0 as c1], aggr=[max(aggregate_test_100.c12), min(aggregate_test_100.c12)]
-                  FilterExec: c12@1 < 10
-                    RepartitionExec: partitioning=RoundRobinBatch(9000), input_partitions=1
-                      DataSourceExec: file_groups={1 group: [[ARROW_TEST_DATA/csv/aggregate_test_100.csv]]}, projection=[c1, c12], file_type=csv, has_header=true
+            RepartitionExec: partitioning=Hash([c1@0], 9000), input_partitions=9000
+              AggregateExec: mode=Partial, gby=[c1@0 as c1], aggr=[max(aggregate_test_100.c12), min(aggregate_test_100.c12)]
+                FilterExec: c12@1 < 10
+                  RepartitionExec: partitioning=RoundRobinBatch(9000), input_partitions=1
+                    DataSourceExec: file_groups={1 group: [[ARROW_TEST_DATA/csv/aggregate_test_100.csv]]}, projection=[c1, c12], file_type=csv, has_header=true
     "
     );
 }
@@ -813,12 +804,10 @@ async fn test_physical_plan_display_indent_multi_children() {
         actual,
         @r"
     HashJoinExec: mode=Partitioned, join_type=Inner, on=[(c1@0, c2@0)], projection=[c1@0]
-      CoalesceBatchesExec: target_batch_size=4096
-        RepartitionExec: partitioning=Hash([c1@0], 9000), input_partitions=1
-          DataSourceExec: file_groups={1 group: [[ARROW_TEST_DATA/csv/aggregate_test_100.csv]]}, projection=[c1], file_type=csv, has_header=true
-      CoalesceBatchesExec: target_batch_size=4096
-        RepartitionExec: partitioning=Hash([c2@0], 9000), input_partitions=1
-          DataSourceExec: file_groups={1 group: [[ARROW_TEST_DATA/csv/aggregate_test_100.csv]]}, projection=[c1@0 as c2], file_type=csv, has_header=true
+      RepartitionExec: partitioning=Hash([c1@0], 9000), input_partitions=1
+        DataSourceExec: file_groups={1 group: [[ARROW_TEST_DATA/csv/aggregate_test_100.csv]]}, projection=[c1], file_type=csv, has_header=true
+      RepartitionExec: partitioning=Hash([c2@0], 9000), input_partitions=1
+        DataSourceExec: file_groups={1 group: [[ARROW_TEST_DATA/csv/aggregate_test_100.csv]]}, projection=[c1@0 as c2], file_type=csv, has_header=true
     "
     );
 }
 
@@ -72,12 +72,10 @@ async fn join_change_in_planner() -> Result<()> {
         actual,
         @r"
     SymmetricHashJoinExec: mode=Partitioned, join_type=Full, on=[(a2@1, a2@1)], filter=CAST(a1@0 AS Int64) > CAST(a1@1 AS Int64) + 3 AND CAST(a1@0 AS Int64) < CAST(a1@1 AS Int64) + 10
-      CoalesceBatchesExec: target_batch_size=8192
-        RepartitionExec: partitioning=Hash([a2@1], 8), input_partitions=1, maintains_sort_order=true
-          StreamingTableExec: partition_sizes=1, projection=[a1, a2], infinite_source=true, output_ordering=[a1@0 ASC NULLS LAST]
-      CoalesceBatchesExec: target_batch_size=8192
-        RepartitionExec: partitioning=Hash([a2@1], 8), input_partitions=1, maintains_sort_order=true
-          StreamingTableExec: partition_sizes=1, projection=[a1, a2], infinite_source=true, output_ordering=[a1@0 ASC NULLS LAST]
+      RepartitionExec: partitioning=Hash([a2@1], 8), input_partitions=1, maintains_sort_order=true
+        StreamingTableExec: partition_sizes=1, projection=[a1, a2], infinite_source=true, output_ordering=[a1@0 ASC NULLS LAST]
+      RepartitionExec: partitioning=Hash([a2@1], 8), input_partitions=1, maintains_sort_order=true
+        StreamingTableExec: partition_sizes=1, projection=[a1, a2], infinite_source=true, output_ordering=[a1@0 ASC NULLS LAST]
     "
     );
     Ok(())
@@ -131,12 +129,10 @@ async fn join_no_order_on_filter() -> Result<()> {
         actual,
         @r"
     SymmetricHashJoinExec: mode=Partitioned, join_type=Full, on=[(a2@1, a2@1)], filter=CAST(a3@0 AS Int64) > CAST(a3@1 AS Int64) + 3 AND CAST(a3@0 AS Int64) < CAST(a3@1 AS Int64) + 10
-      CoalesceBatchesExec: target_batch_size=8192
-        RepartitionExec: partitioning=Hash([a2@1], 8), input_partitions=1, maintains_sort_order=true
-          StreamingTableExec: partition_sizes=1, projection=[a1, a2, a3], infinite_source=true, output_ordering=[a1@0 ASC NULLS LAST]
-      CoalesceBatchesExec: target_batch_size=8192
-        RepartitionExec: partitioning=Hash([a2@1], 8), input_partitions=1, maintains_sort_order=true
-          StreamingTableExec: partition_sizes=1, projection=[a1, a2, a3], infinite_source=true, output_ordering=[a1@0 ASC NULLS LAST]
+      RepartitionExec: partitioning=Hash([a2@1], 8), input_partitions=1, maintains_sort_order=true
+        StreamingTableExec: partition_sizes=1, projection=[a1, a2, a3], infinite_source=true, output_ordering=[a1@0 ASC NULLS LAST]
+      RepartitionExec: partitioning=Hash([a2@1], 8), input_partitions=1, maintains_sort_order=true
+        StreamingTableExec: partition_sizes=1, projection=[a1, a2, a3], infinite_source=true, output_ordering=[a1@0 ASC NULLS LAST]
     "
     );
     Ok(())
@@ -172,12 +168,10 @@ async fn join_change_in_planner_without_sort() -> Result<()> {
         actual,
         @r"
     SymmetricHashJoinExec: mode=Partitioned, join_type=Full, on=[(a2@1, a2@1)], filter=CAST(a1@0 AS Int64) > CAST(a1@1 AS Int64) + 3 AND CAST(a1@0 AS Int64) < CAST(a1@1 AS Int64) + 10
-      CoalesceBatchesExec: target_batch_size=8192
-        RepartitionExec: partitioning=Hash([a2@1], 8), input_partitions=1
-          StreamingTableExec: partition_sizes=1, projection=[a1, a2], infinite_source=true
-      CoalesceBatchesExec: target_batch_size=8192
-        RepartitionExec: partitioning=Hash([a2@1], 8), input_partitions=1
-          StreamingTableExec: partition_sizes=1, projection=[a1, a2], infinite_source=true
+      RepartitionExec: partitioning=Hash([a2@1], 8), input_partitions=1
+        StreamingTableExec: partition_sizes=1, projection=[a1, a2], infinite_source=true
+      RepartitionExec: partitioning=Hash([a2@1], 8), input_partitions=1
+        StreamingTableExec: partition_sizes=1, projection=[a1, a2], infinite_source=true
     "
     );
     Ok(())
 
@@ -25,10 +25,8 @@ use std::sync::Arc;
 use datafusion_common::assert_eq_or_internal_err;
 use datafusion_common::config::ConfigOptions;
 use datafusion_common::error::Result;
-use datafusion_physical_expr::Partitioning;
 use datafusion_physical_plan::{
     ExecutionPlan, async_func::AsyncFuncExec, coalesce_batches::CoalesceBatchesExec,
-    repartition::RepartitionExec,
 };
 
 use datafusion_common::tree_node::{Transformed, TransformedResult, TreeNode};
@@ -57,23 +55,7 @@ impl PhysicalOptimizerRule for CoalesceBatches {
         let target_batch_size = config.execution.batch_size;
         plan.transform_up(|plan| {
             let plan_any = plan.as_any();
-            let wrap_in_coalesce = plan_any
-                // Don't need to add CoalesceBatchesExec after a round robin RepartitionExec
-                .downcast_ref::<RepartitionExec>()
-                .map(|repart_exec| {
-                    !matches!(
-                        repart_exec.partitioning().clone(),
-                        Partitioning::RoundRobinBatch(_)
-                    )
-                })
-                .unwrap_or(false);
-
-            if wrap_in_coalesce {
-                Ok(Transformed::yes(Arc::new(CoalesceBatchesExec::new(
-                    plan,
-                    target_batch_size,
-                ))))
-            } else if let Some(async_exec) = plan_any.downcast_ref::<AsyncFuncExec>() {
+            if let Some(async_exec) = plan_any.downcast_ref::<AsyncFuncExec>() {
                 // Coalesce inputs to async functions to reduce number of async function invocations
                 let children = async_exec.children();
                 assert_eq_or_internal_err!(