fix: Fixing streaming writes to metadata table for perf regression (#17477)

nsivabalan · yihua · nsivabalan · commit b52806cf6adf · 2025-12-07T22:27:28.000-08:00
---------

Co-authored-by: Y Ethan Guo &lt;ethan.guoyihua@gmail.com&gt;
diff --git a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/client/SparkRDDTableServiceClient.java b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/client/SparkRDDTableServiceClient.java
@@ -18,7 +18,6 @@
 
 package org.apache.hudi.client;
 
-import org.apache.hudi.avro.model.HoodieClusteringPlan;
 import org.apache.hudi.client.embedded.EmbeddedTimelineService;
 import org.apache.hudi.client.utils.SparkReleaseResources;
 import org.apache.hudi.client.utils.SparkValidatorUtils;
@@ -28,16 +27,11 @@
 import org.apache.hudi.common.model.HoodieRecord;
 import org.apache.hudi.common.model.HoodieWriteStat;
 import org.apache.hudi.common.model.WriteOperationType;
-import org.apache.hudi.common.util.ClusteringUtils;
 import org.apache.hudi.common.util.Option;
-import org.apache.hudi.common.util.StringUtils;
 import org.apache.hudi.common.util.ValidationUtils;
 import org.apache.hudi.common.util.VisibleForTesting;
-import org.apache.hudi.common.util.collection.Pair;
 import org.apache.hudi.config.HoodieWriteConfig;
 import org.apache.hudi.data.HoodieJavaRDD;
-import org.apache.hudi.exception.HoodieClusteringException;
-import org.apache.hudi.execution.bulkinsert.BulkInsertSortMode;
 import org.apache.hudi.metadata.HoodieTableMetadata;
 import org.apache.hudi.storage.StorageConfiguration;
 import org.apache.hudi.table.HoodieSparkTable;
@@ -50,8 +44,6 @@
 import java.util.List;
 import java.util.stream.Collectors;
 
-import static org.apache.hudi.config.HoodieClusteringConfig.PLAN_STRATEGY_SORT_COLUMNS;
-
 public class SparkRDDTableServiceClient<T> extends BaseHoodieTableServiceClient<HoodieData<HoodieRecord<T>>, HoodieData<WriteStatus>, JavaRDD<WriteStatus>> {
 
   private final StreamingMetadataWriteHandler streamingMetadataWriteHandler;
@@ -102,30 +94,12 @@ protected HoodieWriteMetadata<HoodieData<WriteStatus>> partialUpdateTableMetadat
       String instantTime,
       WriteOperationType writeOperationType) {
     if (isStreamingWriteToMetadataEnabled(table)) {
-      boolean enforceCoalesceWithRepartition = writeOperationType == WriteOperationType.CLUSTER; // for other table services, enforceCoalesceWithRepartition will be false.
-      if (enforceCoalesceWithRepartition) {
-        enforceCoalesceWithRepartition = computeEnforceCoalesceWithRepartitionForClustering(table, instantTime);
-      }
       writeMetadata.setWriteStatuses(streamingMetadataWriteHandler.streamWriteToMetadataTable(table, writeMetadata.getWriteStatuses(), instantTime,
-          enforceCoalesceWithRepartition, config.getMetadataConfig().getStreamingWritesCoalesceDivisorForDataTableWrites()));
+          config.getMetadataConfig().getStreamingWritesCoalesceDivisorForDataTableWrites()));
     }
     return writeMetadata;
   }
 
-  private boolean computeEnforceCoalesceWithRepartitionForClustering(HoodieTable table, String instantTime) {
-    // check clustering plan for sort columns. only if there are no sort columns, then fallback to sort mode from write config.
-    HoodieClusteringPlan clusteringPlan = ClusteringUtils.getClusteringPlan(
-            table.getMetaClient(), ClusteringUtils.getRequestedClusteringInstant(instantTime, table.getActiveTimeline(), table.getInstantGenerator()).get())
-        .map(Pair::getRight).orElseThrow(() -> new HoodieClusteringException(
-            "Unable to read clustering plan for instant: " + instantTime));
-    if (clusteringPlan.getStrategy().getStrategyParams().containsKey(PLAN_STRATEGY_SORT_COLUMNS.key())
-        && !StringUtils.isNullOrEmpty(clusteringPlan.getStrategy().getStrategyParams().get(PLAN_STRATEGY_SORT_COLUMNS.key()))) {
-      // sorting enabled.
-      return false;
-    }
-    return config.getBulkInsertSortMode() == BulkInsertSortMode.NONE;
-  }
-
   @Override
   protected void writeToMetadataTable(HoodieTable table, String instantTime, HoodieCommitMetadata metadata, List<HoodieWriteStat> partialMetadataWriteStats) {
     if (isStreamingWriteToMetadataEnabled(table)) {
diff --git a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/client/SparkRDDWriteClient.java b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/client/SparkRDDWriteClient.java
@@ -19,7 +19,6 @@
 package org.apache.hudi.client;
 
 import org.apache.hudi.callback.common.WriteStatusValidator;
-import org.apache.hudi.execution.bulkinsert.BulkInsertSortMode;
 import org.apache.hudi.index.HoodieSparkIndexClient;
 import org.apache.hudi.client.common.HoodieSparkEngineContext;
 import org.apache.hudi.client.embedded.EmbeddedTimelineService;
@@ -109,9 +108,8 @@ public boolean commit(String instantTime, JavaRDD<WriteStatus> rawWriteStatuses,
     final JavaRDD<WriteStatus> writeStatuses;
     if (WriteOperationType.streamingWritesToMetadataSupported((getOperationType())) && isStreamingWriteToMetadataEnabled(table)) {
       // this code block is expected to create a new Metadata Writer, start a new commit in metadata table and trigger streaming write to metadata table.
-      boolean enforceCoalesceWithRepartition = getOperationType() == WriteOperationType.BULK_INSERT && config.getBulkInsertSortMode() == BulkInsertSortMode.NONE;
       writeStatuses = HoodieJavaRDD.getJavaRDD(streamingMetadataWriteHandler.streamWriteToMetadataTable(table, HoodieJavaRDD.of(rawWriteStatuses), instantTime,
-          enforceCoalesceWithRepartition, config.getMetadataConfig().getStreamingWritesCoalesceDivisorForDataTableWrites()));
+          config.getMetadataConfig().getStreamingWritesCoalesceDivisorForDataTableWrites()));
     } else {
       writeStatuses = rawWriteStatuses;
     }
diff --git a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/client/StreamingMetadataWriteHandler.java b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/client/StreamingMetadataWriteHandler.java
@@ -54,25 +54,23 @@ public class StreamingMetadataWriteHandler {
    * @param table                  The {@link HoodieTable} instance for data table of interest.
    * @param dataTableWriteStatuses The {@link WriteStatus} from data table writes.
    * @param instantTime            The instant time of interest.
-   * @param enforceCoalesceWithRepartition true when repartition has to be added to dag to coalesce data table write statuses to 1. false otherwise.
    * @param coalesceDivisorForDataTableWrites assist with determining the coalesce parallelism for data table write statuses. N data table write status
    *                                          spark partitions will be divied by this value to find the coalesce parallelism.
    * @return {@link HoodieData} of {@link WriteStatus} referring to both data table writes and partial metadata table writes.
    */
   public HoodieData<WriteStatus> streamWriteToMetadataTable(HoodieTable table, HoodieData<WriteStatus> dataTableWriteStatuses, String instantTime,
-                                                           boolean enforceCoalesceWithRepartition, int coalesceDivisorForDataTableWrites) {
+                                                           int coalesceDivisorForDataTableWrites) {
     Option<HoodieTableMetadataWriter> metadataWriterOpt = getMetadataWriter(instantTime, table);
     ValidationUtils.checkState(metadataWriterOpt.isPresent(),
         "Cannot instantiate metadata writer for the table of interest " + table.getMetaClient().getBasePath());
-    return streamWriteToMetadataTable(dataTableWriteStatuses, metadataWriterOpt.get(), table, instantTime, enforceCoalesceWithRepartition,
-        coalesceDivisorForDataTableWrites);
+    return streamWriteToMetadataTable(dataTableWriteStatuses, metadataWriterOpt.get(), table, instantTime, coalesceDivisorForDataTableWrites);
   }
 
   /**
    * To be invoked by write client or table service client to complete the write to metadata table.
    *
    * <p>When streaming writes is enabled, writes to left over metadata partitions
-   * which is not covered in {@link #streamWriteToMetadataTable(HoodieTable, HoodieData, String, Boolean, Integer)},
+   * which is not covered in {@link #streamWriteToMetadataTable(HoodieTable, HoodieData, String, Integer)},
    * otherwise writes to metadata table in legacy way(batch update without partial updates).
    *
    * @param table       The {@link HoodieTable} instance for data table of interest.
@@ -99,22 +97,19 @@ private HoodieData<WriteStatus> streamWriteToMetadataTable(HoodieData<WriteStatu
                                                              HoodieTableMetadataWriter metadataWriter,
                                                              HoodieTable table,
                                                              String instantTime,
-                                                             boolean enforceCoalesceWithRepartition,
                                                              int coalesceDivisorForDataTableWrites) {
     HoodieData<WriteStatus> mdtWriteStatuses = metadataWriter.streamWriteToMetadataPartitions(dataTableWriteStatuses, instantTime);
     mdtWriteStatuses.persist("MEMORY_AND_DISK_SER", table.getContext(), HoodieData.HoodieDataCacheKey.of(table.getMetaClient().getBasePath().toString(), instantTime));
     HoodieData<WriteStatus> coalescedDataWriteStatuses;
     int coalesceParallelism = Math.max(1, dataTableWriteStatuses.getNumPartitions() / coalesceDivisorForDataTableWrites);
-    if (enforceCoalesceWithRepartition) {
-      // with bulk insert and NONE sort mode, simple coalesce on datatable write statuses also impact record key generation stages.
-      // and hence we are adding a partitioner to cut the chain so that coalesce(1) here does not impact record key generation stages.
-      coalescedDataWriteStatuses = HoodieJavaRDD.of(HoodieJavaRDD.getJavaRDD(dataTableWriteStatuses)
-          .mapToPair((PairFunction<WriteStatus, String, WriteStatus>) writeStatus -> new Tuple2(writeStatus.getStat().getPath(), writeStatus))
-          .partitionBy(new CoalescingPartitioner(coalesceParallelism))
-          .map((Function<Tuple2<String, WriteStatus>, WriteStatus>) entry -> entry._2));
-    } else {
-      coalescedDataWriteStatuses = dataTableWriteStatuses.coalesce(coalesceParallelism);
-    }
+    // lets coalesce to lesser number of spark tasks so that, when unioned along with metadata table write status,
+    // we only allocate very less number of tasks for data table write statuses.
+    // In fact, data table writes should have triggered in previous stage before coalesce (partition by below forces the writes
+    // to data table is triggered in previous stage and with the coalesced stage)
+    coalescedDataWriteStatuses = HoodieJavaRDD.of(HoodieJavaRDD.getJavaRDD(dataTableWriteStatuses)
+            .mapToPair((PairFunction<WriteStatus, String, WriteStatus>) writeStatus -> new Tuple2(writeStatus.getStat().getPath(), writeStatus))
+            .partitionBy(new CoalescingPartitioner(coalesceParallelism))
+            .map((Function<Tuple2<String, WriteStatus>, WriteStatus>) entry -> entry._2));
     return coalescedDataWriteStatuses.union(mdtWriteStatuses);
   }
 
diff --git a/hudi-client/hudi-spark-client/src/test/java/org/apache/hudi/client/TestSparkRDDWriteClient.java b/hudi-client/hudi-spark-client/src/test/java/org/apache/hudi/client/TestSparkRDDWriteClient.java
@@ -19,29 +19,20 @@
 
 package org.apache.hudi.client;
 
-import org.apache.hudi.avro.model.HoodieClusteringPlan;
-import org.apache.hudi.avro.model.HoodieClusteringStrategy;
 import org.apache.hudi.client.embedded.EmbeddedTimelineService;
 import org.apache.hudi.common.config.HoodieMetadataConfig;
-import org.apache.hudi.common.data.HoodieData;
 import org.apache.hudi.common.data.HoodieData.HoodieDataCacheKey;
 import org.apache.hudi.common.model.HoodieRecord;
 import org.apache.hudi.common.model.HoodieTableType;
-import org.apache.hudi.common.model.WriteOperationType;
 import org.apache.hudi.common.table.HoodieTableConfig;
 import org.apache.hudi.common.table.HoodieTableMetaClient;
-import org.apache.hudi.common.table.timeline.HoodieInstant;
 import org.apache.hudi.common.table.timeline.InstantComparison;
 import org.apache.hudi.common.table.view.FileSystemViewStorageConfig;
 import org.apache.hudi.common.testutils.HoodieTestDataGenerator;
-import org.apache.hudi.common.util.ClusteringUtils;
 import org.apache.hudi.common.util.Option;
-import org.apache.hudi.common.util.collection.Pair;
 import org.apache.hudi.config.HoodieWriteConfig;
 import org.apache.hudi.data.HoodieJavaRDD;
 import org.apache.hudi.metadata.HoodieTableMetadata;
-import org.apache.hudi.table.HoodieTable;
-import org.apache.hudi.table.action.HoodieWriteMetadata;
 import org.apache.hudi.testutils.SparkClientFunctionalTestHarness;
 
 import org.apache.avro.generic.GenericRecord;
@@ -51,29 +42,20 @@
 import org.junit.jupiter.params.provider.Arguments;
 import org.junit.jupiter.params.provider.CsvSource;
 import org.junit.jupiter.params.provider.MethodSource;
-import org.mockito.MockedStatic;
 
 import java.io.IOException;
 import java.net.URI;
-import java.util.Arrays;
 import java.util.Collections;
-import java.util.HashMap;
 import java.util.List;
-import java.util.Map;
 import java.util.Properties;
 import java.util.stream.Collectors;
 import java.util.stream.Stream;
 
 import static org.apache.hudi.common.testutils.HoodieTestDataGenerator.getCommitTimeAtUTC;
-import static org.apache.hudi.config.HoodieClusteringConfig.PLAN_STRATEGY_SORT_COLUMNS;
 import static org.apache.hudi.testutils.Assertions.assertNoWriteErrors;
 import static org.junit.jupiter.api.Assertions.assertEquals;
 import static org.junit.jupiter.api.Assertions.assertFalse;
 import static org.junit.jupiter.api.Assertions.assertTrue;
-import static org.mockito.ArgumentMatchers.any;
-import static org.mockito.Mockito.mock;
-import static org.mockito.Mockito.mockStatic;
-import static org.mockito.Mockito.when;
 
 class TestSparkRDDWriteClient extends SparkClientFunctionalTestHarness {
 
@@ -223,67 +205,6 @@ public void testCompletionTimeGreaterThanRequestedTime() throws IOException {
     testAndAssertCompletionIsEarlierThanRequested(basePath, props);
   }
 
-  private static Stream<Arguments> streamingMetadataWritesTestArgs() {
-    return Arrays.stream(new Object[][] {
-        {"COMPACT", "NONE", false, false, false},
-        {"COMPACT", "NONE", true, false, false},
-        {"COMPACT", "GLOBAL_SORT", true, false, false},
-        {"COMPACT", "GLOBAL_SORT", false, false, false},
-        {"LOG_COMPACT", "NONE", true, false, false},
-        {"LOG_COMPACT", "NONE", false, false, false},
-        {"LOG_COMPACT", "GLOBAL_SORT", true, false, false},
-        {"LOG_COMPACT", "GLOBAL_SORT", false, false, false},
-        {"CLUSTER", "NONE", true, false, true},
-        {"CLUSTER", "NONE", false, false, true},
-        {"CLUSTER", "GLOBAL_SORT", true, false, false},
-        {"CLUSTER", "GLOBAL_SORT", false, false, false},
-        {"CLUSTER", "NONE", true, true, false},
-        {"CLUSTER", "NONE", false, true, true},
-        {"CLUSTER", "GLOBAL_SORT", true, true, false},
-        {"CLUSTER", "GLOBAL_SORT", false, true, false},
-    }).map(Arguments::of);
-  }
-
-  @ParameterizedTest
-  @MethodSource("streamingMetadataWritesTestArgs")
-  public void testStreamingMetadataWrites(WriteOperationType writeOperationType,
-                                          String bulkInsertSortMode, boolean setSortColsinClusteringPlan,
-                                          boolean setNonEmptyValueForSortcols,
-                                          boolean expectedEnforceRepartitionWithCoalesce) throws IOException {
-    HoodieTableMetaClient metaClient =
-        getHoodieMetaClient(storageConf(), URI.create(basePath()).getPath(), new Properties());
-    HoodieWriteConfig writeConfig = getConfigBuilder(true)
-        .withMetadataConfig(HoodieMetadataConfig.newBuilder().enable(true).withStreamingWriteEnabled(true).build())
-        .withBulkInsertSortMode(bulkInsertSortMode)
-        .withPath(metaClient.getBasePath())
-        .build();
-    MockStreamingMetadataWriteHandler mockMetadataWriteHandler = new MockStreamingMetadataWriteHandler();
-
-    try (MockedStatic<ClusteringUtils> mocked = mockStatic(ClusteringUtils.class);) {
-      HoodieClusteringPlan clusteringPlan = mock(HoodieClusteringPlan.class);
-      HoodieClusteringStrategy clusteringStrategy = mock(HoodieClusteringStrategy.class);
-      when(clusteringPlan.getStrategy()).thenReturn(clusteringStrategy);
-      Map<String, String> strategyParams = new HashMap<>();
-      if (setSortColsinClusteringPlan) {
-        strategyParams.put(PLAN_STRATEGY_SORT_COLUMNS.key(), setNonEmptyValueForSortcols ? "abc" : "");
-      }
-      when(clusteringStrategy.getStrategyParams()).thenReturn(strategyParams);
-
-      HoodieInstant hoodieInstant = mock(HoodieInstant.class);
-      mocked.when(() -> ClusteringUtils.getClusteringPlan(any(), any())).thenReturn(Option.of(Pair.of(hoodieInstant, clusteringPlan)));
-      mocked.when(() -> ClusteringUtils.getRequestedClusteringInstant(any(), any(), any())).thenReturn(Option.of(hoodieInstant));
-
-      SparkRDDTableServiceClient tableServiceClient = new SparkRDDTableServiceClient(context(), writeConfig, Option.empty(), mockMetadataWriteHandler);
-      HoodieWriteMetadata<HoodieData<WriteStatus>> writeMetadata = mock(HoodieWriteMetadata.class);
-      HoodieData<WriteStatus> hoodieData = mock(HoodieData.class);
-      when(writeMetadata.getWriteStatuses()).thenReturn(hoodieData);
-      HoodieTable table = mock(HoodieTable.class);
-      when(table.getMetaClient()).thenReturn(metaClient);
-      tableServiceClient.partialUpdateTableMetadata(table, writeMetadata, "00001", writeOperationType);
-      assertEquals(expectedEnforceRepartitionWithCoalesce, mockMetadataWriteHandler.enforceCoalesceWithRepartition);
-    }
-  }
-
   private void testAndAssertCompletionIsEarlierThanRequested(String basePath, Properties properties) throws IOException {
     HoodieTableMetaClient metaClient = getHoodieMetaClient(storageConf(), basePath, properties);
 
@@ -303,19 +224,4 @@ private void testAndAssertCompletionIsEarlierThanRequested(String basePath, Prop
       assertTrue(InstantComparison.compareTimestamps(hoodieInstant.requestedTime(), InstantComparison.LESSER_THAN, hoodieInstant.getCompletionTime()));
     });
   }
-
-  class MockStreamingMetadataWriteHandler extends StreamingMetadataWriteHandler {
-
-    boolean enforceCoalesceWithRepartition;
-    int coalesceDivisorForDataTableWrites;
-
-    @Override
-    public HoodieData<WriteStatus> streamWriteToMetadataTable(HoodieTable table, HoodieData<WriteStatus> dataTableWriteStatuses, String instantTime,
-                                                              boolean enforceCoalesceWithRepartition, int coalesceDivisorForDataTableWrites) {
-      this.enforceCoalesceWithRepartition = enforceCoalesceWithRepartition;
-      this.coalesceDivisorForDataTableWrites = coalesceDivisorForDataTableWrites;
-      return dataTableWriteStatuses;
-    }
-  }
-
 }
diff --git a/hudi-client/hudi-spark-client/src/test/java/org/apache/hudi/client/TestStreamingMetadataWriteHandler.java b/hudi-client/hudi-spark-client/src/test/java/org/apache/hudi/client/TestStreamingMetadataWriteHandler.java
@@ -61,9 +61,7 @@ void setUp() {
   private static Stream<Arguments> coalesceDivisorTestArgs() {
     return Arrays.stream(new Object[][] {
         {100, 20, 1000, true},
-        {100, 20, 1000, false},
         {1, 1, 1000, true},
-        {1, 1, 1000, false},
         {10000, 100, 5000, true},
         {10000, 100, 5000, true},
         {10000, 100, 20000, true},
@@ -73,15 +71,14 @@ private static Stream<Arguments> coalesceDivisorTestArgs() {
 
   @ParameterizedTest
   @MethodSource("coalesceDivisorTestArgs")
-  public void testCoalesceDividentConfig(int numDataTableWriteStatuses, int numMdtWriteStatus, int coalesceDividentForDataTableWrites,
-                                         boolean enforceCoalesceWithRepartition) {
+  public void testCoalesceDividentConfig(int numDataTableWriteStatuses, int numMdtWriteStatus, int coalesceDividentForDataTableWrites) {
     HoodieData<WriteStatus> dataTableWriteStatus = mockWriteStatuses(numDataTableWriteStatuses);
     HoodieData<WriteStatus> mdtWriteStatus = mockWriteStatuses(numMdtWriteStatus);
     HoodieTableMetadataWriter mdtWriter = mock(HoodieTableMetadataWriter.class);
     when(mdtWriter.streamWriteToMetadataPartitions(any(), any())).thenReturn(mdtWriteStatus);
     StreamingMetadataWriteHandler metadataWriteHandler = new MockStreamingMetadataWriteHandler(mdtWriter);
 
-    HoodieData<WriteStatus> allWriteStatuses = metadataWriteHandler.streamWriteToMetadataTable(mockHoodieTable, dataTableWriteStatus, "00001", enforceCoalesceWithRepartition,
+    HoodieData<WriteStatus> allWriteStatuses = metadataWriteHandler.streamWriteToMetadataTable(mockHoodieTable, dataTableWriteStatus, "00001",
         coalesceDividentForDataTableWrites);
     assertEquals(Math.max(1, numDataTableWriteStatuses / coalesceDividentForDataTableWrites) + numMdtWriteStatus, allWriteStatuses.getNumPartitions());
   }