Added truncateMode write configuration

VVBondarenko-sbs · rozza · rozza · commit 29d321d70940 · 2025-12-03T14:52:40.000Z
To allow the overwrite save mode to keep collection options SPARK-384 Original PR: mongodb#123 - removed recreate mode due to fragility --------- Co-authored-by: Ross Lawley <ross@mongodb.com>
diff --git a/src/integrationTest/java/com/mongodb/spark/sql/connector/RoundTripTest.java b/src/integrationTest/java/com/mongodb/spark/sql/connector/RoundTripTest.java
@@ -25,6 +25,8 @@
 import com.mongodb.spark.sql.connector.beans.ComplexBean;
 import com.mongodb.spark.sql.connector.beans.DateTimeBean;
 import com.mongodb.spark.sql.connector.beans.PrimitiveBean;
+import com.mongodb.spark.sql.connector.config.WriteConfig;
+import com.mongodb.spark.sql.connector.config.WriteConfig.TruncateMode;
 import com.mongodb.spark.sql.connector.mongodb.MongoSparkConnectorTestCase;
 import java.sql.Date;
 import java.sql.Timestamp;
@@ -41,6 +43,8 @@
 import org.apache.spark.sql.Encoders;
 import org.apache.spark.sql.SparkSession;
 import org.junit.jupiter.api.Test;
+import org.junit.jupiter.params.ParameterizedTest;
+import org.junit.jupiter.params.provider.EnumSource;
 
 public class RoundTripTest extends MongoSparkConnectorTestCase {
 
@@ -68,8 +72,9 @@ void testPrimitiveBean() {
     assertIterableEquals(dataSetOriginal, dataSetMongo);
   }
 
-  @Test
-  void testBoxedBean() {
+  @ParameterizedTest
+  @EnumSource(TruncateMode.class)
+  void testBoxedBean(final TruncateMode mode) {
     // Given
     List<BoxedBean> dataSetOriginal =
         singletonList(new BoxedBean((byte) 1, (short) 2, 3, 4L, 5.0f, 6.0, true));
@@ -79,7 +84,12 @@ void testBoxedBean() {
     Encoder<BoxedBean> encoder = Encoders.bean(BoxedBean.class);
 
     Dataset<BoxedBean> dataset = spark.createDataset(dataSetOriginal, encoder);
-    dataset.write().format("mongodb").mode("Overwrite").save();
+    dataset
+        .write()
+        .format("mongodb")
+        .mode("Overwrite")
+        .option(WriteConfig.TRUNCATE_MODE_CONFIG, mode.name())
+        .save();
 
     // Then
     List<BoxedBean> dataSetMongo = spark
diff --git a/src/integrationTest/java/com/mongodb/spark/sql/connector/write/TruncateModesTest.java b/src/integrationTest/java/com/mongodb/spark/sql/connector/write/TruncateModesTest.java
@@ -0,0 +1,153 @@
+/*
+ * Copyright 2008-present MongoDB, Inc.
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ *
+ */
+package com.mongodb.spark.sql.connector.write;
+
+import static com.mongodb.spark.sql.connector.config.WriteConfig.TRUNCATE_MODE_CONFIG;
+import static java.util.Arrays.asList;
+import static java.util.Collections.singletonList;
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertIterableEquals;
+import static org.junit.jupiter.api.Assertions.assertTrue;
+
+import com.mongodb.client.MongoCollection;
+import com.mongodb.client.MongoDatabase;
+import com.mongodb.client.model.Collation;
+import com.mongodb.client.model.CollationStrength;
+import com.mongodb.client.model.CreateCollectionOptions;
+import com.mongodb.client.model.IndexOptions;
+import com.mongodb.spark.sql.connector.beans.BoxedBean;
+import com.mongodb.spark.sql.connector.config.WriteConfig;
+import com.mongodb.spark.sql.connector.mongodb.MongoSparkConnectorTestCase;
+import java.util.ArrayList;
+import java.util.List;
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Encoder;
+import org.apache.spark.sql.Encoders;
+import org.apache.spark.sql.SparkSession;
+import org.bson.Document;
+import org.jetbrains.annotations.NotNull;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+public class TruncateModesTest extends MongoSparkConnectorTestCase {
+
+  public static final String INT_FIELD_INDEX = "intFieldIndex";
+  public static final String ID_INDEX = "_id_";
+
+  @BeforeEach
+  void setup() {
+    MongoDatabase database = getDatabase();
+    getCollection().drop();
+    CreateCollectionOptions createCollectionOptions = new CreateCollectionOptions()
+        .collation(Collation.builder()
+            .locale("en")
+            .collationStrength(CollationStrength.SECONDARY)
+            .build());
+    database.createCollection(getCollectionName(), createCollectionOptions);
+    MongoCollection<Document> collection = database.getCollection(getCollectionName());
+    collection.insertOne(new Document().append("intField", null));
+    collection.createIndex(
+        new Document().append("intField", 1), new IndexOptions().name(INT_FIELD_INDEX));
+  }
+
+  @Test
+  void testCollectionDroppedOnOverwrite() {
+    // Given
+    List<BoxedBean> dataSetOriginal = singletonList(getBoxedBean());
+
+    // when
+    SparkSession spark = getOrCreateSparkSession();
+    Encoder<BoxedBean> encoder = Encoders.bean(BoxedBean.class);
+    Dataset<BoxedBean> dataset = spark.createDataset(dataSetOriginal, encoder);
+    dataset
+        .write()
+        .format("mongodb")
+        .mode("Overwrite")
+        .option(TRUNCATE_MODE_CONFIG, WriteConfig.TruncateMode.DROP.toString())
+        .save();
+
+    // Then
+    List<BoxedBean> dataSetMongo = spark
+        .read()
+        .format("mongodb")
+        .schema(encoder.schema())
+        .load()
+        .as(encoder)
+        .collectAsList();
+    assertIterableEquals(dataSetOriginal, dataSetMongo);
+
+    List<String> indexes =
+        getCollection().listIndexes().map(it -> it.getString("name")).into(new ArrayList<>());
+    assertEquals(indexes, singletonList(ID_INDEX));
+    Document options = getCollectionOptions();
+    assertTrue(options.isEmpty());
+  }
+
+  @Test
+  void testOptionKeepingOverwrites() {
+    // Given
+    List<BoxedBean> dataSetOriginal = singletonList(getBoxedBean());
+
+    // when
+    SparkSession spark = getOrCreateSparkSession();
+    Encoder<BoxedBean> encoder = Encoders.bean(BoxedBean.class);
+    Dataset<BoxedBean> dataset = spark.createDataset(dataSetOriginal, encoder);
+    dataset
+        .write()
+        .format("mongodb")
+        .mode("Overwrite")
+        .option(TRUNCATE_MODE_CONFIG, WriteConfig.TruncateMode.TRUNCATE.toString())
+        .save();
+
+    // Then
+    List<BoxedBean> dataSetMongo = spark
+        .read()
+        .format("mongodb")
+        .schema(encoder.schema())
+        .load()
+        .as(encoder)
+        .collectAsList();
+    assertIterableEquals(dataSetOriginal, dataSetMongo);
+
+    List<String> indexes =
+        getCollection().listIndexes().map(it -> it.getString("name")).into(new ArrayList<>());
+    assertEquals(indexes, asList(ID_INDEX, INT_FIELD_INDEX));
+
+    Document options = getCollectionOptions();
+    assertTrue(options.containsKey("collation"));
+    assertEquals("en", options.get("collation", new Document()).get("locale", "NA"), "en");
+  }
+
+  private @NotNull BoxedBean getBoxedBean() {
+    return new BoxedBean((byte) 1, (short) 2, 3, 4L, 5.0f, 6.0, true);
+  }
+
+  private Document getCollectionOptions() {
+    Document getCollectionMeta = new Document()
+        .append("listCollections", 1)
+        .append("filter", new Document().append("name", getCollectionName()));
+
+    Document foundMeta = getDatabase().runCommand(getCollectionMeta);
+    Document cursor = foundMeta.get("cursor", Document.class);
+    List<Document> firstBatch = cursor.getList("firstBatch", Document.class);
+    if (firstBatch.isEmpty()) {
+      return getCollectionMeta;
+    }
+
+    return firstBatch.get(0).get("options", Document.class);
+  }
+}
diff --git a/src/main/java/com/mongodb/spark/sql/connector/config/WriteConfig.java b/src/main/java/com/mongodb/spark/sql/connector/config/WriteConfig.java
@@ -22,11 +22,13 @@
 
 import com.mongodb.MongoNamespace;
 import com.mongodb.WriteConcern;
+import com.mongodb.client.MongoCollection;
 import com.mongodb.spark.sql.connector.exceptions.ConfigException;
 import java.util.HashMap;
 import java.util.List;
 import java.util.Map;
 import java.util.concurrent.TimeUnit;
+import org.bson.Document;
 import org.jetbrains.annotations.ApiStatus;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -116,6 +118,59 @@ public String toString() {
     }
   }
 
+  /**
+   * Determines how to truncate a collection when using {@link org.apache.spark.sql.SaveMode#Overwrite}
+   *
+   * @since 10.6
+   */
+  public enum TruncateMode {
+    /**
+     * Drops the collection
+     */
+    DROP("drop") {
+      @Override
+      public void truncate(final WriteConfig writeConfig) {
+        writeConfig.doWithCollection(MongoCollection::drop);
+      }
+    },
+    /**
+     * Deletes all entries in the collection preserving indexes, collection options and any sharding configuration
+     * <p><strong>Warning:</strong> This operation is currently much more expensive than doing a simple drop operation. </p>
+     */
+    TRUNCATE("truncate") {
+      @Override
+      public void truncate(final WriteConfig writeConfig) {
+        writeConfig.doWithCollection(collection -> collection.deleteMany(new Document()));
+      }
+    };
+
+    private final String value;
+
+    TruncateMode(final String value) {
+      this.value = value;
+    }
+
+    static TruncateMode fromString(final String truncateMode) {
+      for (TruncateMode truncateModeType : TruncateMode.values()) {
+        if (truncateMode.equalsIgnoreCase(truncateModeType.value)) {
+          return truncateModeType;
+        }
+      }
+      throw new ConfigException(format("'%s' is not a valid Truncate Mode", truncateMode));
+    }
+
+    /**
+     * The truncation implementation for each different truncation type
+     * @param writeConfig the write config
+     */
+    public abstract void truncate(WriteConfig writeConfig);
+
+    @Override
+    public String toString() {
+      return value;
+    }
+  }
+
   /**
    * The maximum batch size for the batch in the bulk operation.
    *
@@ -243,6 +298,21 @@ public String toString() {
 
   private static final boolean IGNORE_NULL_VALUES_DEFAULT = false;
 
+  /**
+   * Truncate Mode
+   *
+   * <p>Configuration: {@value}
+   *
+   * <p>Default: {@code Drop}
+   *
+   * <p>Determines how to truncate a collection when using {@link org.apache.spark.sql.SaveMode#Overwrite}
+   *
+   * @since 10.6
+   */
+  public static final String TRUNCATE_MODE_CONFIG = "truncateMode";
+
+  private static final String TRUNCATE_MODE_DEFAULT = TruncateMode.DROP.value;
+
   private final WriteConcern writeConcern;
   private final OperationType operationType;
 
@@ -319,6 +389,14 @@ public boolean ignoreNullValues() {
     return getBoolean(IGNORE_NULL_VALUES_CONFIG, IGNORE_NULL_VALUES_DEFAULT);
   }
 
+  /**
+   * @return the truncate mode for use when overwriting collections
+   * @since 10.6
+   */
+  public TruncateMode truncateMode() {
+    return TruncateMode.fromString(getOrDefault(TRUNCATE_MODE_CONFIG, TRUNCATE_MODE_DEFAULT));
+  }
+
   @Override
   CollectionsConfig parseAndValidateCollectionsConfig() {
     CollectionsConfig collectionsConfig = super.parseAndValidateCollectionsConfig();
diff --git a/src/main/java/com/mongodb/spark/sql/connector/write/MongoBatchWrite.java b/src/main/java/com/mongodb/spark/sql/connector/write/MongoBatchWrite.java
@@ -19,7 +19,6 @@
 
 import static java.lang.String.format;
 
-import com.mongodb.client.MongoCollection;
 import com.mongodb.spark.sql.connector.config.WriteConfig;
 import com.mongodb.spark.sql.connector.exceptions.DataException;
 import java.util.Arrays;
@@ -62,7 +61,7 @@ final class MongoBatchWrite implements BatchWrite {
   @Override
   public DataWriterFactory createBatchWriterFactory(final PhysicalWriteInfo physicalWriteInfo) {
     if (truncate) {
-      writeConfig.doWithCollection(MongoCollection::drop);
+      writeConfig.truncateMode().truncate(writeConfig);
     }
     return new MongoDataWriterFactory(info.schema(), writeConfig);
   }
diff --git a/src/test/java/com/mongodb/spark/sql/connector/config/MongoConfigTest.java b/src/test/java/com/mongodb/spark/sql/connector/config/MongoConfigTest.java
@@ -159,6 +159,21 @@ void testWriteConfigConvertJson() {
         WriteConfig.ConvertJson.OBJECT_OR_ARRAY_ONLY);
   }
 
+  @Test
+  void testWriteConfigTruncateMode() {
+    WriteConfig writeConfig = MongoConfig.createConfig(CONFIG_MAP).toWriteConfig();
+    assertEquals(writeConfig.truncateMode(), WriteConfig.TruncateMode.DROP);
+    assertEquals(
+        writeConfig.withOption("TruncateMode", "truncate").truncateMode(),
+        WriteConfig.TruncateMode.TRUNCATE);
+    assertEquals(
+        writeConfig.withOption("TruncateMode", "Drop").truncateMode(),
+        WriteConfig.TruncateMode.DROP);
+    assertThrows(
+        ConfigException.class,
+        () -> writeConfig.withOption("TruncateMode", "RECREATE").truncateMode());
+  }
+
   @Test
   void testMongoConfigOptionsParsing() {
     MongoConfig mongoConfig = MongoConfig.readConfig(OPTIONS_CONFIG_MAP);

Original file line number	Diff line number	Diff line change
`@@ -19,7 +19,6 @@`
`19`	`19`
`20`	`20`	`import static java.lang.String.format;`
`21`	`21`
`22`		`-import com.mongodb.client.MongoCollection;`
`23`	`22`	`import com.mongodb.spark.sql.connector.config.WriteConfig;`
`24`	`23`	`import com.mongodb.spark.sql.connector.exceptions.DataException;`
`25`	`24`	`import java.util.Arrays;`
`@@ -62,7 +61,7 @@ final class MongoBatchWrite implements BatchWrite {`
`62`	`61`	`@Override`
`63`	`62`	`public DataWriterFactory createBatchWriterFactory(final PhysicalWriteInfo physicalWriteInfo) {`
`64`	`63`	`if (truncate) {`
`65`		`- writeConfig.doWithCollection(MongoCollection::drop);`
	`64`	`+ writeConfig.truncateMode().truncate(writeConfig);`
`66`	`65`	`}`
`67`	`66`	`return new MongoDataWriterFactory(info.schema(), writeConfig);`
`68`	`67`	`}`