Merge pull request #25 from Ankitp1342/feature/percent_random

Ankitp1342 · web-flow · commit b4c9baca86ed · 2022-09-16T14:55:37.000-04:00
Feature/percent random
diff --git a/pom.xml b/pom.xml
@@ -1,9 +1,9 @@
 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
   <modelVersion>4.0.0</modelVersion>
 
-  <groupId>com.datastax.spark.example</groupId>
+  <groupId>datastax.astra.migrate</groupId>
   <artifactId>migrate</artifactId>
-  <version>0.17</version>
+  <version>0.18</version>
   <packaging>jar</packaging>
 
   <properties>
diff --git a/src/main/java/datastax/astra/migrate/NoSparkMigrate.java b/src/main/java/datastax/astra/migrate/NoSparkMigrate.java
@@ -22,7 +22,7 @@ public static void main(String[] args) throws IOException {
         String splitSize = System.getProperty("spark.migrate.splitSize","10000");
         BigInteger minPartition = new BigInteger(System.getProperty("spark.migrate.source.minPartition"));
         BigInteger maxPartition = new BigInteger(System.getProperty("spark.migrate.source.maxPartition"));
-        Collection<SplitPartitions.Partition> partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition);
+        Collection<SplitPartitions.Partition> partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition, 100);
 
 /*
         partitions.parallelStream().forEach( part ->
diff --git a/src/main/java/datastax/astra/migrate/SplitPartitions.java b/src/main/java/datastax/astra/migrate/SplitPartitions.java
@@ -15,57 +15,28 @@ public class SplitPartitions {
     public final static Long MIN_PARTITION = Long.MIN_VALUE;
     public final static Long MAX_PARTITION  = Long.MAX_VALUE;
 
-    public static final BigInteger MIN_RANDOM = new BigInteger("-1");
-    public static final BigInteger MAX_RANDOM = (new BigInteger("2")).pow(127);
-
-
     public static void main(String[] args){
-        Collection<Partition> partitions = getSubPartitions(new BigInteger("20"), MIN_RANDOM, MAX_RANDOM);
+        Collection<Partition> partitions = getSubPartitions(new BigInteger("20"), BigInteger.valueOf(MIN_PARTITION),
+                BigInteger.valueOf(MAX_PARTITION), 20);
         for(Partition partition: partitions){
             System.out.println(partition);
         }
     }
-    public static Collection<Partition> getRandomSubPartitions(BigInteger splitSize, BigInteger min, BigInteger max){
 
+    public static Collection<Partition> getRandomSubPartitions(BigInteger splitSize, BigInteger min, BigInteger max, int coveragePercent){
         logger.info("TreadID: " + Thread.currentThread().getId() + " Splitting min: " + min + " max:" + max);
-        List<Partition> partitions = getSubPartitions(splitSize,min,max);
+        List<Partition> partitions = getSubPartitions(splitSize,min,max, coveragePercent);
         Collections.shuffle(partitions);
         Collections.shuffle(partitions);
         Collections.shuffle(partitions);
         Collections.shuffle(partitions);
         return partitions;
     }
-//    private static List<Partition> getSubPartitions(BigInteger splitSize, BigInteger min, BigInteger max){
-//        long curMax = min.longValueExact();
-//        long partitionSize =  max.subtract(min).divide(splitSize).longValueExact();
-//        List<Partition> partitions = new ArrayList<Partition>();
-//        if(partitionSize==0){
-//            partitionSize=100000;
-//        }
-//        boolean exausted = false;
-//        while(curMax<=max.longValueExact()){
-//            long curMin = curMax;
-//            long newCurMax = curMin + partitionSize;
-//            if (newCurMax < curMax) {
-//                newCurMax = max.longValueExact();
-//                exausted = true;
-//            }
-//            if(newCurMax > max.longValueExact()){
-//                newCurMax=max.longValueExact();
-//                exausted=true;
-//            }
-//            curMax = newCurMax;
-//            partitions.add(new Partition(curMin,curMax));
-//            if(exausted){
-//                break;
-//            }
-//        }
-//
-//        return partitions;
-//    }
-
 
-    private static List<Partition> getSubPartitions(BigInteger splitSize, BigInteger min, BigInteger max){
+    private static List<Partition> getSubPartitions(BigInteger splitSize, BigInteger min, BigInteger max, int coveragePercent){
+        if (coveragePercent < 1 || coveragePercent > 100) {
+            coveragePercent = 100;
+        }
         BigInteger curMax = new BigInteger(min.toString());
         BigInteger partitionSize =  max.subtract(min).divide(splitSize);
         List<Partition> partitions = new ArrayList<Partition>();
@@ -85,7 +56,10 @@ private static List<Partition> getSubPartitions(BigInteger splitSize, BigInteger
                 exausted=true;
             }
             curMax = newCurMax;
-            partitions.add(new Partition(curMin,curMax));
+
+            BigInteger range = curMax.subtract(curMin);
+            BigInteger curRange = range.multiply(BigInteger.valueOf(coveragePercent)).divide(BigInteger.valueOf(100));
+            partitions.add(new Partition(curMin,curMin.add(curRange)));
             if(exausted){
                 break;
             }
@@ -94,22 +68,17 @@ private static List<Partition> getSubPartitions(BigInteger splitSize, BigInteger
         return partitions;
     }
 
-
-
     public static class Partition implements Serializable{
         private static final long serialVersionUID = 1L;
 
         private BigInteger min;
         private BigInteger max;
 
-
         public Partition(BigInteger min, BigInteger max){
             this.min = min;
             this.max = max;
         }
 
-
-
         public BigInteger getMin() {
             return min;
         }
@@ -119,9 +88,7 @@ public BigInteger getMax() {
         }
 
         public String toString(){
-//            return "--conf spark.migrate.source.minPartition="+ min + " --conf spark.migrate.source.maxPartition=" + max;
-
-            return "select * from field_api.field_users where token(account_id,field_id)>="+ min + " and token(account_id,field_id)<=" + max  + "  and account_id=ee8556f4-9a1a-4c89-ae05-e8105d42ed6f allow  filtering; ";
+            return "Processing partition for token range "+ min + " to " + max;
         }
     }
 }
diff --git a/src/main/scala/datastax/astra/migrate/AbstractJob.scala b/src/main/scala/datastax/astra/migrate/AbstractJob.scala
@@ -5,6 +5,7 @@ import org.apache.log4j.Logger
 import org.apache.spark.sql.SparkSession
 
 import java.math.BigInteger
+import java.lang.Long
 
 class AbstractJob extends App {
 
@@ -26,6 +27,7 @@ class AbstractJob extends App {
   val sourceTrustStoreType = sc.getConf.get("spark.migrate.source.trustStore.type", "JKS")
   val sourceKeyStorePath = sc.getConf.get("spark.migrate.source.keyStore.path", "")
   val sourceKeyStorePassword = sc.getConf.get("spark.migrate.source.keyStore.password", "")
+  val sourceEnabledAlgorithms = sc.getConf.get("spark.migrate.source.enabledAlgorithms", "")
 
   val destinationIsAstra = sc.getConf.get("spark.migrate.destination.isAstra", "true")
   val destinationScbPath = sc.getConf.get("spark.migrate.destination.scb", "")
@@ -38,17 +40,19 @@ class AbstractJob extends App {
   val destinationTrustStoreType = sc.getConf.get("spark.migrate.destination.trustStore.type", "JKS")
   val destinationKeyStorePath = sc.getConf.get("spark.migrate.destination.keyStore.path", "")
   val destinationKeyStorePassword = sc.getConf.get("spark.migrate.destination.keyStore.password", "")
+  val destinationEnabledAlgorithms = sc.getConf.get("spark.migrate.destination.enabledAlgorithms", "")
 
   val minPartition = new BigInteger(sc.getConf.get("spark.migrate.source.minPartition"))
   val maxPartition = new BigInteger(sc.getConf.get("spark.migrate.source.maxPartition"))
-
+  val coveragePercent = sc.getConf.get("spark.migrate.coveragePercent", "100")
   val splitSize = sc.getConf.get("spark.migrate.splitSize", "10000")
+  val partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition,Integer.parseInt(coveragePercent))
 
   var sourceConnection = getConnection(true, sourceIsAstra, sourceScbPath, sourceHost, sourceUsername, sourcePassword, sourceReadConsistencyLevel,
-    sourceTrustStorePath, sourceTrustStorePassword, sourceTrustStoreType, sourceKeyStorePath, sourceKeyStorePassword);
+    sourceTrustStorePath, sourceTrustStorePassword, sourceTrustStoreType, sourceKeyStorePath, sourceKeyStorePassword, sourceEnabledAlgorithms);
 
   var destinationConnection = getConnection(false, destinationIsAstra, destinationScbPath, destinationHost, destinationUsername, destinationPassword, destinationReadConsistencyLevel,
-    destinationTrustStorePath, destinationTrustStorePassword, destinationTrustStoreType, destinationKeyStorePath, destinationKeyStorePassword);
+    destinationTrustStorePath, destinationTrustStorePassword, destinationTrustStoreType, destinationKeyStorePath, destinationKeyStorePassword, destinationEnabledAlgorithms);
 
   protected def exitSpark() = {
     spark.stop()
@@ -57,7 +61,7 @@ class AbstractJob extends App {
 
   private def getConnection(isSource: Boolean, isAstra: String, scbPath: String, host: String, username: String, password: String, readConsistencyLevel: String,
                             trustStorePath: String, trustStorePassword: String, trustStoreType: String,
-                            keyStorePath: String, keyStorePassword: String): CassandraConnector = {
+                            keyStorePath: String, keyStorePassword: String, enabledAlgorithms: String): CassandraConnector = {
     var connType: String = "Source"
     if (!isSource) {
       connType = "Destination"
@@ -74,17 +78,24 @@ class AbstractJob extends App {
     } else if (null != trustStorePath && !trustStorePath.trim.isEmpty) {
       abstractLogger.info(connType + ": Connected to Cassandra (or DSE) with SSL!");
 
+      // Use defaults when not provided
+      var enabledAlgorithmsVar = enabledAlgorithms
+      if (enabledAlgorithms == null || enabledAlgorithms.trim.isEmpty) {
+        enabledAlgorithmsVar = "TLS_RSA_WITH_AES_128_CBC_SHA, TLS_RSA_WITH_AES_256_CBC_SHA"
+      }
+
       return CassandraConnector(sc.getConf
         .set("spark.cassandra.auth.username", username)
         .set("spark.cassandra.auth.password", password)
         .set("spark.cassandra.input.consistency.level", readConsistencyLevel)
         .set("spark.cassandra.connection.host", host)
         .set("spark.cassandra.connection.ssl.enabled", "true")
+        .set("spark.cassandra.connection.ssl.enabledAlgorithms", enabledAlgorithmsVar)
         .set("spark.cassandra.connection.ssl.trustStore.password", trustStorePassword)
         .set("spark.cassandra.connection.ssl.trustStore.path", trustStorePath)
         .set("spark.cassandra.connection.ssl.keyStore.password", keyStorePassword)
         .set("spark.cassandra.connection.ssl.keyStore.path", keyStorePath)
-        .set("spark.cassandra.connection.ssl.trustStore.type", trustStoreType) 
+        .set("spark.cassandra.connection.ssl.trustStore.type", trustStoreType)
         .set("spark.cassandra.connection.ssl.clientAuth.enabled", "true")
       )
     } else {
diff --git a/src/main/scala/datastax/astra/migrate/DiffData.scala b/src/main/scala/datastax/astra/migrate/DiffData.scala
@@ -3,23 +3,19 @@ package datastax.astra.migrate
 import com.datastax.spark.connector.cql.CassandraConnector
 import org.apache.log4j.Logger
 
-import java.lang.Long
-import java.math.BigInteger
 import scala.collection.JavaConversions._
 
 object DiffData extends AbstractJob {
 
   val logger = Logger.getLogger(this.getClass.getName)
   logger.info("Started Data Validation App")
 
-  diffTable(sourceConnection, destinationConnection, minPartition, maxPartition)
+  diffTable(sourceConnection, destinationConnection)
 
   exitSpark
 
-  private def diffTable(sourceConnection: CassandraConnector, destinationConnection: CassandraConnector, minPartition:BigInteger, maxPartition:BigInteger) = {
-    val partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition)
+  private def diffTable(sourceConnection: CassandraConnector, destinationConnection: CassandraConnector) = {
     val parts = sc.parallelize(partitions.toSeq,partitions.size);
-
     logger.info("Spark parallelize created : " + parts.count() + " parts!");
 
     parts.foreach(part => {
diff --git a/src/main/scala/datastax/astra/migrate/DiffMetaData.scala b/src/main/scala/datastax/astra/migrate/DiffMetaData.scala
@@ -76,7 +76,7 @@ object DiffMetaData extends App {
 
   private def diffTable(sourceConnection: CassandraConnector, astraConnection: CassandraConnector, minPartition:BigInteger, maxPartition:BigInteger) = {
 
-    val partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition)
+    val partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition, 100)
     val parts = sc.parallelize(partitions.toSeq,partitions.size);
     parts.foreach(part => {
       sourceConnection.withSessionDo(sourceSession => astraConnection.withSessionDo(astraSession=>DiffMetaJobSession.getInstance(sourceSession,astraSession, sc.getConf).getDataDiffAndCorrect(part.getMin, part.getMax)))
diff --git a/src/main/scala/datastax/astra/migrate/Migrate.scala b/src/main/scala/datastax/astra/migrate/Migrate.scala
@@ -3,8 +3,6 @@ package datastax.astra.migrate
 import com.datastax.spark.connector.cql.CassandraConnector
 import org.apache.log4j.Logger
 
-import java.lang.Long
-import java.math.BigInteger
 import scala.collection.JavaConversions._
 
 // http://www.russellspitzer.com/2016/02/16/Multiple-Clusters-SparkSql-Cassandra/
@@ -14,14 +12,12 @@ object Migrate extends AbstractJob {
   val logger = Logger.getLogger(this.getClass.getName)
   logger.info("Started Migration App")
 
-  migrateTable(sourceConnection, destinationConnection, minPartition, maxPartition)
+  migrateTable(sourceConnection, destinationConnection)
 
   exitSpark
 
-  private def migrateTable(sourceConnection: CassandraConnector, destinationConnection: CassandraConnector, minPartition:BigInteger, maxPartition:BigInteger) = {
-    val partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition)
+  private def migrateTable(sourceConnection: CassandraConnector, destinationConnection: CassandraConnector) = {
     val parts = sc.parallelize(partitions.toSeq,partitions.size);
-
     logger.info("Spark parallelize created : " + parts.count() + " parts!");
 
     parts.foreach(part => {
diff --git a/src/resources/diff_data.sh b/src/resources/diff_data.sh
diff --git a/src/resources/sparkConf.properties b/src/resources/sparkConf.properties
@@ -15,10 +15,11 @@ spark.migrate.destination.autocorrect.missing                   false
 spark.migrate.destination.autocorrect.mismatch                  false
 
 spark.migrate.maxRetries                                        10
-spark.migrate.readRateLimit                                     40000
-spark.migrate.writeRateLimit                                    40000
-spark.migrate.splitSize                                         5
+spark.migrate.readRateLimit                                     20000
+spark.migrate.writeRateLimit                                    20000
+spark.migrate.splitSize                                         10000
 spark.migrate.batchSize                                         5
+spark.migrate.coveragePercent                                   100
 spark.migrate.printStatsAfter                                   100000
 
 spark.migrate.query.cols.select                                 partition-key,clustering-key,order-date,amount,writetime(order-date),writetime(amount),ttl(order-date),ttl(amount)
@@ -49,13 +50,15 @@ spark.migrate.source.maxWriteTimeStampFilter                    9223372036854775
 #spark.migrate.source.trustStore.type                            JKS
 #spark.migrate.source.keyStore.path
 #spark.migrate.source.keyStore.password
+#spark.migrate.source.enabledAlgorithms                          TLS_RSA_WITH_AES_128_CBC_SHA,TLS_RSA_WITH_AES_256_CBC_SHA
 
 ####################### ONLY USE if SSL clientAuth is enabled on destination Cassandra/DSE #############################
 #spark.migrate.destination.trustStore.path
 #spark.migrate.destination.trustStore.password
 #spark.migrate.destination.trustStore.type                       JKS
 #spark.migrate.destination.keyStore.path
 #spark.migrate.destination.keyStore.password
+#spark.migrate.destination.enabledAlgorithms                     TLS_RSA_WITH_AES_128_CBC_SHA,TLS_RSA_WITH_AES_256_CBC_SHA
 
 ########################################################################################################################
 # Following are the supported data types and their corresponding [Cassandra data-types]