CDM-17 : replacing hard-coded strings with references to KnownProperties statics

mieslep · mieslep · commit 2b39d16a0d3c · 2023-03-28T12:09:54.000+01:00
diff --git a/src/main/java/datastax/astra/migrate/AbstractJobSession.java b/src/main/java/datastax/astra/migrate/AbstractJobSession.java
@@ -5,6 +5,7 @@
 import com.datastax.oss.driver.api.core.cql.PreparedStatement;
 import com.datastax.oss.driver.api.core.cql.Row;
 import com.datastax.oss.driver.shaded.guava.common.util.concurrent.RateLimiter;
+import datastax.astra.migrate.properties.KnownProperties;
 import org.apache.commons.lang.StringUtils;
 import org.apache.spark.SparkConf;
 import org.slf4j.Logger;
@@ -34,54 +35,54 @@ protected AbstractJobSession(CqlSession originSession, CqlSession targetSession,
         this.originSessionSession = originSession;
         this.targetSession = targetSession;
 
-        batchSize = new Integer(Util.getSparkPropOr(sc, "spark.batchSize", "5"));
-        fetchSizeInRows = new Integer(Util.getSparkPropOr(sc, "spark.read.fetch.sizeInRows", "1000"));
-        printStatsAfter = new Integer(Util.getSparkPropOr(sc, "spark.printStatsAfter", "100000"));
+        batchSize = new Integer(Util.getSparkPropOr(sc, KnownProperties.SPARK_BATCH_SIZE, "5"));
+        fetchSizeInRows = new Integer(Util.getSparkPropOr(sc, KnownProperties.READ_FETCH_SIZE, "1000"));
+        printStatsAfter = new Integer(Util.getSparkPropOr(sc, KnownProperties.SPARK_STATS_AFTER, "100000"));
         if (printStatsAfter < 1) {
             printStatsAfter = 100000;
         }
 
-        readLimiter = RateLimiter.create(new Integer(Util.getSparkPropOr(sc, "spark.readRateLimit", "20000")));
-        writeLimiter = RateLimiter.create(new Integer(Util.getSparkPropOr(sc, "spark.writeRateLimit", "40000")));
-        maxRetries = Integer.parseInt(sc.get("spark.maxRetries", "0"));
+        readLimiter = RateLimiter.create(new Integer(Util.getSparkPropOr(sc, KnownProperties.SPARK_LIMIT_READ, "20000")));
+        writeLimiter = RateLimiter.create(new Integer(Util.getSparkPropOr(sc, KnownProperties.SPARK_LIMIT_WRITE, "40000")));
+        maxRetries = Integer.parseInt(sc.get(KnownProperties.SPARK_MAX_RETRIES, "0"));
 
-        originKeyspaceTable = Util.getSparkProp(sc, "spark.origin.keyspaceTable");
-        targetKeyspaceTable = Util.getSparkProp(sc, "spark.target.keyspaceTable");
+        originKeyspaceTable = Util.getSparkProp(sc, KnownProperties.ORIGIN_KEYSPACE_TABLE);
+        targetKeyspaceTable = Util.getSparkProp(sc, KnownProperties.TARGET_KEYSPACE_TABLE);
 
-        String ttlColsStr = Util.getSparkPropOrEmpty(sc, "spark.query.ttl.cols");
+        String ttlColsStr = Util.getSparkPropOrEmpty(sc, KnownProperties.ORIGIN_TTL_COLS);
         if (null != ttlColsStr && ttlColsStr.trim().length() > 0) {
             for (String ttlCol : ttlColsStr.split(",")) {
                 ttlCols.add(Integer.parseInt(ttlCol));
             }
         }
 
-        String writeTimestampColsStr = Util.getSparkPropOrEmpty(sc, "spark.query.writetime.cols");
+        String writeTimestampColsStr = Util.getSparkPropOrEmpty(sc, KnownProperties.ORIGIN_WRITETIME_COLS);
         if (null != writeTimestampColsStr && writeTimestampColsStr.trim().length() > 0) {
             for (String writeTimeStampCol : writeTimestampColsStr.split(",")) {
                 writeTimeStampCols.add(Integer.parseInt(writeTimeStampCol));
             }
         }
 
         writeTimeStampFilter = Boolean
-                .parseBoolean(Util.getSparkPropOr(sc, "spark.origin.writeTimeStampFilter", "false"));
+                .parseBoolean(Util.getSparkPropOr(sc, KnownProperties.ORIGIN_FILTER_WRITETS_ENABLED, "false"));
         // batchsize set to 1 if there is a writeFilter
         if (writeTimeStampFilter) {
             batchSize = 1;
         }
 
         String minWriteTimeStampFilterStr =
-                Util.getSparkPropOr(sc, "spark.origin.minWriteTimeStampFilter", "0");
+                Util.getSparkPropOr(sc, KnownProperties.ORIGIN_FILTER_WRITETS_MIN, "0");
         if (null != minWriteTimeStampFilterStr && minWriteTimeStampFilterStr.trim().length() > 1) {
             minWriteTimeStampFilter = Long.parseLong(minWriteTimeStampFilterStr);
         }
         String maxWriteTimeStampFilterStr =
-                Util.getSparkPropOr(sc, "spark.origin.maxWriteTimeStampFilter", "0");
+                Util.getSparkPropOr(sc, KnownProperties.ORIGIN_FILTER_WRITETS_MAX, "0");
         if (null != maxWriteTimeStampFilterStr && maxWriteTimeStampFilterStr.trim().length() > 1) {
             maxWriteTimeStampFilter = Long.parseLong(maxWriteTimeStampFilterStr);
         }
 
         String customWriteTimeStr =
-                Util.getSparkPropOr(sc, "spark.target.custom.writeTime", "0");
+                Util.getSparkPropOr(sc, KnownProperties.TARGET_CUSTOM_WRITETIME, "0");
         if (null != customWriteTimeStr && customWriteTimeStr.trim().length() > 1 && StringUtils.isNumeric(customWriteTimeStr.trim())) {
             customWritetime = Long.parseLong(customWriteTimeStr);
         }
@@ -105,9 +106,9 @@ protected AbstractJobSession(CqlSession originSession, CqlSession targetSession,
                     Instant.ofEpochMilli(maxWriteTimeStampFilter / 1000));
         }
 
-        String selectCols = Util.getSparkProp(sc, "spark.query.origin");
-        String partitionKey = Util.getSparkProp(sc, "spark.query.origin.partitionKey");
-        String originSelectCondition = Util.getSparkPropOrEmpty(sc, "spark.query.condition");
+        String selectCols = Util.getSparkProp(sc, KnownProperties.ORIGIN_COLUMN_NAMES);
+        String partitionKey = Util.getSparkProp(sc, KnownProperties.ORIGIN_PARTITION_KEY);
+        String originSelectCondition = Util.getSparkPropOrEmpty(sc, KnownProperties.ORIGIN_FILTER_CONDITION);
         if (!originSelectCondition.isEmpty() && !originSelectCondition.trim().toUpperCase().startsWith("AND")) {
             originSelectCondition = " AND " + originSelectCondition;
         }
@@ -120,11 +121,11 @@ protected AbstractJobSession(CqlSession originSession, CqlSession targetSession,
         writeTimeStampCols.forEach(col -> {
             selectTTLWriteTimeCols.append(",writetime(" + allCols[col] + ")");
         });
-        selectColTypes = getTypes(Util.getSparkProp(sc, "spark.query.types"));
-        String idCols = Util.getSparkPropOrEmpty(sc, "spark.query.target.id");
+        selectColTypes = getTypes(Util.getSparkProp(sc, KnownProperties.ORIGIN_COLUMN_TYPES));
+        String idCols = Util.getSparkPropOrEmpty(sc, KnownProperties.TARGET_PRIMARY_KEY);
         idColTypes = selectColTypes.subList(0, idCols.split(",").length);
 
-        String insertCols = Util.getSparkPropOrEmpty(sc, "spark.query.target");
+        String insertCols = Util.getSparkPropOrEmpty(sc, KnownProperties.TARGET_COLUMN_NAMES);
         if (null == insertCols || insertCols.trim().isEmpty()) {
             insertCols = selectCols;
         }
@@ -152,15 +153,15 @@ protected AbstractJobSession(CqlSession originSession, CqlSession targetSession,
                 "select " + insertCols + " from " + targetKeyspaceTable
                         + " where " + insertBinds);
 
-        hasRandomPartitioner = Boolean.parseBoolean(Util.getSparkPropOr(sc, "spark.origin.hasRandomPartitioner", "false"));
-        isCounterTable = Boolean.parseBoolean(Util.getSparkPropOr(sc, "spark.counterTable", "false"));
+        hasRandomPartitioner = Boolean.parseBoolean(Util.getSparkPropOr(sc, KnownProperties.ORIGIN_HAS_RANDOM_PARTITIONER, "false"));
+        isCounterTable = Boolean.parseBoolean(Util.getSparkPropOr(sc, KnownProperties.ORIGIN_IS_COUNTER, "false"));
         if (isCounterTable) {
-            String updateSelectMappingStr = Util.getSparkPropOr(sc, "spark.counterTable.cql.index", "0");
+            String updateSelectMappingStr = Util.getSparkPropOr(sc, KnownProperties.ORIGIN_COUNTER_INDEXES, "0");
             for (String updateSelectIndex : updateSelectMappingStr.split(",")) {
                 updateSelectMapping.add(Integer.parseInt(updateSelectIndex));
             }
 
-            String counterTableUpdate = Util.getSparkProp(sc, "spark.counterTable.cql");
+            String counterTableUpdate = Util.getSparkProp(sc, KnownProperties.ORIGIN_COUNTER_CQL);
             targetInsertStatement = targetSession.prepare(counterTableUpdate);
         } else {
             insertBinds = "";
@@ -185,7 +186,7 @@ protected AbstractJobSession(CqlSession originSession, CqlSession targetSession,
         }
 
         // Handle rows with blank values for 'timestamp' data-type in primary-key fields
-        tsReplaceValStr = Util.getSparkPropOr(sc, "spark.target.replace.blankTimestampKeyUsingEpoch", "");
+        tsReplaceValStr = Util.getSparkPropOr(sc, KnownProperties.TARGET_REPLACE_MISSING_TS, "");
         if (!tsReplaceValStr.isEmpty()) {
             tsReplaceVal = Long.parseLong(tsReplaceValStr);
         }
@@ -283,7 +284,7 @@ protected Optional<Object> handleBlankInPrimaryKey(int index, Object colData, Cl
         if (index < idColTypes.size() && colData == null && dataType == Instant.class) {
             if (tsReplaceValStr.isEmpty()) {
                 logger.error("Skipping row with Key: {} as Timestamp primary-key column {} has invalid blank value. " +
-                        "Alternatively rerun the job with --conf spark.target.replace.blankTimestampKeyUsingEpoch=\"<fixed-epoch-value>\" " +
+                        "Alternatively rerun the job with --conf "+KnownProperties.TARGET_REPLACE_MISSING_TS+"\"<fixed-epoch-value>\" " +
                         "option to replace the blanks with a fixed timestamp value", getKey(originRow), allCols[index]);
                 return Optional.empty();
             }
diff --git a/src/main/java/datastax/astra/migrate/BaseJobSession.java b/src/main/java/datastax/astra/migrate/BaseJobSession.java
@@ -5,6 +5,7 @@
 import com.datastax.oss.driver.api.core.cql.PreparedStatement;
 import com.datastax.oss.driver.api.core.cql.Row;
 import com.datastax.oss.driver.shaded.guava.common.util.concurrent.RateLimiter;
+import datastax.astra.migrate.properties.KnownProperties;
 import org.apache.spark.SparkConf;
 
 import java.util.ArrayList;
@@ -64,8 +65,8 @@ public abstract class BaseJobSession {
     protected long tsReplaceVal;
 
     protected BaseJobSession(SparkConf sc) {
-        readConsistencyLevel = Util.mapToConsistencyLevel(Util.getSparkPropOrEmpty(sc, "spark.consistency.read"));
-        writeConsistencyLevel = Util.mapToConsistencyLevel(Util.getSparkPropOrEmpty(sc, "spark.consistency.write"));
+        readConsistencyLevel = Util.mapToConsistencyLevel(Util.getSparkPropOrEmpty(sc, KnownProperties.READ_CL));
+        writeConsistencyLevel = Util.mapToConsistencyLevel(Util.getSparkPropOrEmpty(sc, KnownProperties.WRITE_CL));
     }
 
     public String getKey(Row originRow) {
diff --git a/src/main/java/datastax/astra/migrate/CopyJobSession.java b/src/main/java/datastax/astra/migrate/CopyJobSession.java
@@ -2,6 +2,7 @@
 
 import com.datastax.oss.driver.api.core.CqlSession;
 import com.datastax.oss.driver.api.core.cql.*;
+import datastax.astra.migrate.properties.KnownProperties;
 import org.apache.spark.SparkConf;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -23,11 +24,11 @@ public class CopyJobSession extends AbstractJobSession {
 
     protected CopyJobSession(CqlSession originSession, CqlSession targetSession, SparkConf sc) {
         super(originSession, targetSession, sc);
-        filterData = Boolean.parseBoolean(sc.get("spark.origin.FilterData", "false"));
-        filterColName = Util.getSparkPropOrEmpty(sc, "spark.origin.FilterColumn");
-        filterColType = Util.getSparkPropOrEmpty(sc, "spark.origin.FilterColumnType");
-        filterColIndex = Integer.parseInt(sc.get("spark.origin.FilterColumnIndex", "0"));
-        filterColValue = Util.getSparkPropOrEmpty(sc, "spark.origin.FilterColumnValue");
+        filterData = Boolean.parseBoolean(sc.get(KnownProperties.ORIGIN_FILTER_COLUMN_ENABLED, "false"));
+        filterColName = Util.getSparkPropOrEmpty(sc, KnownProperties.ORIGIN_FILTER_COLUMN_NAME);
+        filterColType = Util.getSparkPropOrEmpty(sc, KnownProperties.ORIGIN_FILTER_COLUMN_TYPE);
+        filterColIndex = Integer.parseInt(sc.get(KnownProperties.ORIGIN_FILTER_COLUMN_INDEX, "0"));
+        filterColValue = Util.getSparkPropOrEmpty(sc, KnownProperties.ORIGIN_FILTER_COLUMN_VALUE);
     }
 
     public static CopyJobSession getInstance(CqlSession originSession, CqlSession targetSession, SparkConf sc) {
diff --git a/src/main/java/datastax/astra/migrate/DiffJobSession.java b/src/main/java/datastax/astra/migrate/DiffJobSession.java
@@ -6,6 +6,7 @@
 import com.datastax.oss.driver.api.core.cql.ResultSet;
 import com.datastax.oss.driver.api.core.cql.Row;
 import com.datastax.oss.driver.api.core.data.UdtValue;
+import datastax.astra.migrate.properties.KnownProperties;
 import org.apache.spark.SparkConf;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -36,10 +37,10 @@ public class DiffJobSession extends CopyJobSession {
     private DiffJobSession(CqlSession originSession, CqlSession targetSession, SparkConf sc) {
         super(originSession, targetSession, sc);
 
-        autoCorrectMissing = Boolean.parseBoolean(Util.getSparkPropOr(sc, "spark.target.autocorrect.missing", "false"));
+        autoCorrectMissing = Boolean.parseBoolean(Util.getSparkPropOr(sc, KnownProperties.TARGET_AUTOCORRECT_MISSING, "false"));
         logger.info("PARAM -- Autocorrect Missing: {}", autoCorrectMissing);
 
-        autoCorrectMismatch = Boolean.parseBoolean(Util.getSparkPropOr(sc, "spark.target.autocorrect.mismatch", "false"));
+        autoCorrectMismatch = Boolean.parseBoolean(Util.getSparkPropOr(sc, KnownProperties.TARGET_AUTOCORRECT_MISMATCH, "false"));
         logger.info("PARAM -- Autocorrect Mismatch: {}", autoCorrectMismatch);
     }
 
diff --git a/src/main/java/datastax/astra/migrate/OriginCountJobSession.java b/src/main/java/datastax/astra/migrate/OriginCountJobSession.java
@@ -3,6 +3,7 @@
 import com.datastax.oss.driver.api.core.CqlSession;
 import com.datastax.oss.driver.api.core.cql.*;
 import com.datastax.oss.driver.shaded.guava.common.util.concurrent.RateLimiter;
+import datastax.astra.migrate.properties.KnownProperties;
 import org.apache.commons.lang.SerializationUtils;
 import org.apache.spark.SparkConf;
 import org.slf4j.Logger;
@@ -29,35 +30,36 @@ public class OriginCountJobSession extends BaseJobSession {
     protected OriginCountJobSession(CqlSession originSession, SparkConf sc) {
         super(sc);
         this.originSessionSession = originSession;
-        batchSize = new Integer(sc.get("spark.batchSize", "1"));
-        printStatsAfter = new Integer(sc.get("spark.printStatsAfter", "100000"));
+        batchSize = new Integer(sc.get(KnownProperties.SPARK_BATCH_SIZE, "1"));
+        printStatsAfter = new Integer(sc.get(KnownProperties.SPARK_STATS_AFTER, "100000"));
         if (printStatsAfter < 1) {
             printStatsAfter = 100000;
         }
 
-        readLimiter = RateLimiter.create(new Integer(sc.get("spark.readRateLimit", "20000")));
-        originKeyspaceTable = sc.get("spark.origin.keyspaceTable");
+        readLimiter = RateLimiter.create(new Integer(sc.get(KnownProperties.SPARK_LIMIT_READ, "20000")));
+        originKeyspaceTable = sc.get(KnownProperties.ORIGIN_KEYSPACE_TABLE);
 
-        hasRandomPartitioner = Boolean.parseBoolean(sc.get("spark.origin.hasRandomPartitioner", "false"));
-        isCounterTable = Boolean.parseBoolean(sc.get("spark.counterTable", "false"));
+        hasRandomPartitioner = Boolean.parseBoolean(sc.get(KnownProperties.ORIGIN_HAS_RANDOM_PARTITIONER, "false"));
+        isCounterTable = Boolean.parseBoolean(sc.get(KnownProperties.ORIGIN_IS_COUNTER, "false"));
 
-        checkTableforColSize = Boolean.parseBoolean(sc.get("spark.origin.checkTableforColSize", "false"));
-        checkTableforselectCols = sc.get("spark.origin.checkTableforColSize.cols");
-        checkTableforColSizeTypes = getTypes(sc.get("spark.origin.checkTableforColSize.cols.types"));
-        filterColName = Util.getSparkPropOrEmpty(sc, "spark.origin.FilterColumn");
-        filterColType = Util.getSparkPropOrEmpty(sc, "spark.origin.FilterColumnType");
-        filterColIndex = Integer.parseInt(sc.get("spark.origin.FilterColumnIndex", "0"));
-        fieldGuardraillimitMB = Integer.parseInt(sc.get("spark.fieldGuardraillimitMB", "0"));
+        checkTableforColSize = Boolean.parseBoolean(sc.get(KnownProperties.ORIGIN_CHECK_COLSIZE_ENABLED, "false"));
+        checkTableforselectCols = sc.get(KnownProperties.ORIGIN_CHECK_COLSIZE_COLUMN_NAMES);
+        checkTableforColSizeTypes = getTypes(sc.get(KnownProperties.ORIGIN_CHECK_COLSIZE_COLUMN_TYPES));
+        filterColName = Util.getSparkPropOrEmpty(sc, KnownProperties.ORIGIN_FILTER_COLUMN_NAME);
+        filterColType = Util.getSparkPropOrEmpty(sc, KnownProperties.ORIGIN_FILTER_COLUMN_TYPE);
+        filterColIndex = Integer.parseInt(sc.get(KnownProperties.ORIGIN_FILTER_COLUMN_INDEX, "0"));
+        fieldGuardraillimitMB = Integer.parseInt(sc.get(KnownProperties.FIELD_GUARDRAIL_MB, "0"));
 
-        String partionKey = sc.get("spark.query.cols.partitionKey");
-        idColTypes = getTypes(sc.get("spark.query.cols.id.types"));
+        String partionKey = sc.get(KnownProperties.ORIGIN_PARTITION_KEY);
+        idColTypes = getTypes(sc.get(KnownProperties.TARGET_PRIMARY_KEY_TYPES));
 
-        String selectCols = sc.get("spark.query.cols.select");
-        String updateSelectMappingStr = sc.get("spark.counterTable.cql.index", "0");
+        String selectCols = sc.get(KnownProperties.ORIGIN_COLUMN_NAMES);
+        String updateSelectMappingStr = sc.get(KnownProperties.ORIGIN_COUNTER_INDEXES, "0");
         for (String updateSelectIndex : updateSelectMappingStr.split(",")) {
             updateSelectMapping.add(Integer.parseInt(updateSelectIndex));
         }
-        String originSelectCondition = sc.get("spark.query.cols.select.condition", "");
+        String originSelectCondition = sc.get(KnownProperties.ORIGIN_FILTER_CONDITION, "");
+        // TODO: AbstractJobSession has some checks to ensure AND is added to the condition
         originSelectStatement = originSession.prepare(
                 "select " + selectCols + " from " + originKeyspaceTable + " where token(" + partionKey.trim()
                         + ") >= ? and token(" + partionKey.trim() + ") <= ?  " + originSelectCondition + " ALLOW FILTERING");
diff --git a/src/main/java/datastax/astra/migrate/properties/KnownProperties.java b/src/main/java/datastax/astra/migrate/properties/KnownProperties.java
@@ -174,7 +174,7 @@ public enum PropertyType {
     public static final String SPARK_MAX_RETRIES = "spark.maxRetries";            // 0
     public static final String READ_FETCH_SIZE   = "spark.read.fetch.sizeInRows"; //1000
     public static final String SPARK_STATS_AFTER = "spark.printStatsAfter";       //100000
-    public static final String FIELD_GUARDRAIL   = "spark.fieldGuardraillimitMB"; //10
+    public static final String FIELD_GUARDRAIL_MB = "spark.fieldGuardraillimitMB"; //10
     public static final String PARTITION_MIN     = "spark.origin.minPartition";   // -9223372036854775808
     public static final String PARTITION_MAX     = "spark.origin.maxPartition";   // 9223372036854775807
 
@@ -195,8 +195,8 @@ public enum PropertyType {
         defaults.put(READ_FETCH_SIZE, "1000");
            types.put(SPARK_STATS_AFTER, PropertyType.NUMBER);
         defaults.put(SPARK_STATS_AFTER, "100000");
-           types.put(FIELD_GUARDRAIL, PropertyType.NUMBER);
-        defaults.put(FIELD_GUARDRAIL, "10");
+           types.put(FIELD_GUARDRAIL_MB, PropertyType.NUMBER);
+        defaults.put(FIELD_GUARDRAIL_MB, "10");
            types.put(PARTITION_MIN, PropertyType.NUMBER);
         defaults.put(PARTITION_MIN, "-9223372036854775808");
            types.put(PARTITION_MAX, PropertyType.NUMBER);
diff --git a/src/main/scala/datastax/astra/migrate/BaseJob.scala b/src/main/scala/datastax/astra/migrate/BaseJob.scala