Implemented percentage based random Migrate & Validation (DiffData) - This will help test migration speed & validation accuracy using a small dataset.

pravinbhat · pravinbhat · commit ebf13c3125ae · 2022-09-14T15:34:48.000-04:00
diff --git a/pom.xml b/pom.xml
@@ -1,9 +1,9 @@
 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
   <modelVersion>4.0.0</modelVersion>
 
-  <groupId>com.datastax.spark.example</groupId>
+  <groupId>datastax.astra.migrate</groupId>
   <artifactId>migrate</artifactId>
-  <version>0.17</version>
+  <version>0.18</version>
   <packaging>jar</packaging>
 
   <properties>
diff --git a/src/main/java/datastax/astra/migrate/NoSparkMigrate.java b/src/main/java/datastax/astra/migrate/NoSparkMigrate.java
@@ -22,7 +22,7 @@ public static void main(String[] args) throws IOException {
         String splitSize = System.getProperty("spark.migrate.splitSize","10000");
         BigInteger minPartition = new BigInteger(System.getProperty("spark.migrate.source.minPartition"));
         BigInteger maxPartition = new BigInteger(System.getProperty("spark.migrate.source.maxPartition"));
-        Collection<SplitPartitions.Partition> partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition);
+        Collection<SplitPartitions.Partition> partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition, 100);
 
 /*
         partitions.parallelStream().forEach( part ->
diff --git a/src/main/java/datastax/astra/migrate/SplitPartitions.java b/src/main/java/datastax/astra/migrate/SplitPartitions.java
@@ -15,57 +15,28 @@ public class SplitPartitions {
     public final static Long MIN_PARTITION = Long.MIN_VALUE;
     public final static Long MAX_PARTITION  = Long.MAX_VALUE;
 
-    public static final BigInteger MIN_RANDOM = new BigInteger("-1");
-    public static final BigInteger MAX_RANDOM = (new BigInteger("2")).pow(127);
-
-
     public static void main(String[] args){
-        Collection<Partition> partitions = getSubPartitions(new BigInteger("20"), MIN_RANDOM, MAX_RANDOM);
+        Collection<Partition> partitions = getSubPartitions(new BigInteger("20"), BigInteger.valueOf(MIN_PARTITION),
+                BigInteger.valueOf(MAX_PARTITION), 20);
         for(Partition partition: partitions){
             System.out.println(partition);
         }
     }
-    public static Collection<Partition> getRandomSubPartitions(BigInteger splitSize, BigInteger min, BigInteger max){
 
+    public static Collection<Partition> getRandomSubPartitions(BigInteger splitSize, BigInteger min, BigInteger max, int coveragePercent){
         logger.info("TreadID: " + Thread.currentThread().getId() + " Splitting min: " + min + " max:" + max);
-        List<Partition> partitions = getSubPartitions(splitSize,min,max);
+        List<Partition> partitions = getSubPartitions(splitSize,min,max, coveragePercent);
         Collections.shuffle(partitions);
         Collections.shuffle(partitions);
         Collections.shuffle(partitions);
         Collections.shuffle(partitions);
         return partitions;
     }
-//    private static List<Partition> getSubPartitions(BigInteger splitSize, BigInteger min, BigInteger max){
-//        long curMax = min.longValueExact();
-//        long partitionSize =  max.subtract(min).divide(splitSize).longValueExact();
-//        List<Partition> partitions = new ArrayList<Partition>();
-//        if(partitionSize==0){
-//            partitionSize=100000;
-//        }
-//        boolean exausted = false;
-//        while(curMax<=max.longValueExact()){
-//            long curMin = curMax;
-//            long newCurMax = curMin + partitionSize;
-//            if (newCurMax < curMax) {
-//                newCurMax = max.longValueExact();
-//                exausted = true;
-//            }
-//            if(newCurMax > max.longValueExact()){
-//                newCurMax=max.longValueExact();
-//                exausted=true;
-//            }
-//            curMax = newCurMax;
-//            partitions.add(new Partition(curMin,curMax));
-//            if(exausted){
-//                break;
-//            }
-//        }
-//
-//        return partitions;
-//    }
-
 
-    private static List<Partition> getSubPartitions(BigInteger splitSize, BigInteger min, BigInteger max){
+    private static List<Partition> getSubPartitions(BigInteger splitSize, BigInteger min, BigInteger max, int coveragePercent){
+        if (coveragePercent < 1 || coveragePercent > 100) {
+            coveragePercent = 100;
+        }
         BigInteger curMax = new BigInteger(min.toString());
         BigInteger partitionSize =  max.subtract(min).divide(splitSize);
         List<Partition> partitions = new ArrayList<Partition>();
@@ -85,7 +56,10 @@ private static List<Partition> getSubPartitions(BigInteger splitSize, BigInteger
                 exausted=true;
             }
             curMax = newCurMax;
-            partitions.add(new Partition(curMin,curMax));
+
+            BigInteger range = curMax.subtract(curMin);
+            BigInteger curRange = range.multiply(BigInteger.valueOf(coveragePercent)).divide(BigInteger.valueOf(100));
+            partitions.add(new Partition(curMin,curMin.add(curRange)));
             if(exausted){
                 break;
             }
@@ -94,22 +68,17 @@ private static List<Partition> getSubPartitions(BigInteger splitSize, BigInteger
         return partitions;
     }
 
-
-
     public static class Partition implements Serializable{
         private static final long serialVersionUID = 1L;
 
         private BigInteger min;
         private BigInteger max;
 
-
         public Partition(BigInteger min, BigInteger max){
             this.min = min;
             this.max = max;
         }
 
-
-
         public BigInteger getMin() {
             return min;
         }
@@ -119,9 +88,7 @@ public BigInteger getMax() {
         }
 
         public String toString(){
-//            return "--conf spark.migrate.source.minPartition="+ min + " --conf spark.migrate.source.maxPartition=" + max;
-
-            return "select * from field_api.field_users where token(account_id,field_id)>="+ min + " and token(account_id,field_id)<=" + max  + "  and account_id=ee8556f4-9a1a-4c89-ae05-e8105d42ed6f allow  filtering; ";
+            return "Processing partition for token range "+ min + " to " + max;
         }
     }
 }
diff --git a/src/main/scala/datastax/astra/migrate/AbstractJob.scala b/src/main/scala/datastax/astra/migrate/AbstractJob.scala
@@ -5,6 +5,7 @@ import org.apache.log4j.Logger
 import org.apache.spark.sql.SparkSession
 
 import java.math.BigInteger
+import java.lang.Long
 
 class AbstractJob extends App {
 
@@ -43,8 +44,9 @@ class AbstractJob extends App {
 
   val minPartition = new BigInteger(sc.getConf.get("spark.migrate.source.minPartition"))
   val maxPartition = new BigInteger(sc.getConf.get("spark.migrate.source.maxPartition"))
-
+  val coveragePercent = sc.getConf.get("spark.migrate.coveragePercent", "100")
   val splitSize = sc.getConf.get("spark.migrate.splitSize", "10000")
+  val partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition,Integer.parseInt(coveragePercent))
 
   var sourceConnection = getConnection(true, sourceIsAstra, sourceScbPath, sourceHost, sourceUsername, sourcePassword, sourceReadConsistencyLevel,
     sourceTrustStorePath, sourceTrustStorePassword, sourceTrustStoreType, sourceKeyStorePath, sourceKeyStorePassword, sourceEnabledAlgorithms);
diff --git a/src/main/scala/datastax/astra/migrate/DiffData.scala b/src/main/scala/datastax/astra/migrate/DiffData.scala
@@ -3,23 +3,19 @@ package datastax.astra.migrate
 import com.datastax.spark.connector.cql.CassandraConnector
 import org.apache.log4j.Logger
 
-import java.lang.Long
-import java.math.BigInteger
 import scala.collection.JavaConversions._
 
 object DiffData extends AbstractJob {
 
   val logger = Logger.getLogger(this.getClass.getName)
   logger.info("Started Data Validation App")
 
-  diffTable(sourceConnection, destinationConnection, minPartition, maxPartition)
+  diffTable(sourceConnection, destinationConnection)
 
   exitSpark
 
-  private def diffTable(sourceConnection: CassandraConnector, destinationConnection: CassandraConnector, minPartition:BigInteger, maxPartition:BigInteger) = {
-    val partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition)
+  private def diffTable(sourceConnection: CassandraConnector, destinationConnection: CassandraConnector) = {
     val parts = sc.parallelize(partitions.toSeq,partitions.size);
-
     logger.info("Spark parallelize created : " + parts.count() + " parts!");
 
     parts.foreach(part => {
diff --git a/src/main/scala/datastax/astra/migrate/DiffMetaData.scala b/src/main/scala/datastax/astra/migrate/DiffMetaData.scala
@@ -76,7 +76,7 @@ object DiffMetaData extends App {
 
   private def diffTable(sourceConnection: CassandraConnector, astraConnection: CassandraConnector, minPartition:BigInteger, maxPartition:BigInteger) = {
 
-    val partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition)
+    val partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition, 100)
     val parts = sc.parallelize(partitions.toSeq,partitions.size);
     parts.foreach(part => {
       sourceConnection.withSessionDo(sourceSession => astraConnection.withSessionDo(astraSession=>DiffMetaJobSession.getInstance(sourceSession,astraSession, sc.getConf).getDataDiffAndCorrect(part.getMin, part.getMax)))
diff --git a/src/main/scala/datastax/astra/migrate/Migrate.scala b/src/main/scala/datastax/astra/migrate/Migrate.scala
@@ -3,8 +3,6 @@ package datastax.astra.migrate
 import com.datastax.spark.connector.cql.CassandraConnector
 import org.apache.log4j.Logger
 
-import java.lang.Long
-import java.math.BigInteger
 import scala.collection.JavaConversions._
 
 // http://www.russellspitzer.com/2016/02/16/Multiple-Clusters-SparkSql-Cassandra/
@@ -14,14 +12,12 @@ object Migrate extends AbstractJob {
   val logger = Logger.getLogger(this.getClass.getName)
   logger.info("Started Migration App")
 
-  migrateTable(sourceConnection, destinationConnection, minPartition, maxPartition)
+  migrateTable(sourceConnection, destinationConnection)
 
   exitSpark
 
-  private def migrateTable(sourceConnection: CassandraConnector, destinationConnection: CassandraConnector, minPartition:BigInteger, maxPartition:BigInteger) = {
-    val partitions = SplitPartitions.getRandomSubPartitions(BigInteger.valueOf(Long.parseLong(splitSize)), minPartition, maxPartition)
+  private def migrateTable(sourceConnection: CassandraConnector, destinationConnection: CassandraConnector) = {
     val parts = sc.parallelize(partitions.toSeq,partitions.size);
-
     logger.info("Spark parallelize created : " + parts.count() + " parts!");
 
     parts.foreach(part => {
diff --git a/src/resources/diff_data.sh b/src/resources/diff_data.sh
diff --git a/src/resources/sparkConf.properties b/src/resources/sparkConf.properties
@@ -15,10 +15,11 @@ spark.migrate.destination.autocorrect.missing                   false
 spark.migrate.destination.autocorrect.mismatch                  false
 
 spark.migrate.maxRetries                                        10
-spark.migrate.readRateLimit                                     40000
-spark.migrate.writeRateLimit                                    40000
-spark.migrate.splitSize                                         5
+spark.migrate.readRateLimit                                     20000
+spark.migrate.writeRateLimit                                    20000
+spark.migrate.splitSize                                         10000
 spark.migrate.batchSize                                         5
+spark.migrate.coveragePercent                                   100
 spark.migrate.printStatsAfter                                   100000
 
 spark.migrate.query.cols.select                                 partition-key,clustering-key,order-date,amount,writetime(order-date),writetime(amount),ttl(order-date),ttl(amount)