Merge pull request #1272 from datastax/SPARKC-619-2.5

jtgrabowski · web-flow · commit ae825f6957f1 · 2020-09-17T13:41:15.000+02:00
SPARKC-619 restore PrefetchingResultSetIterator
diff --git a/connector/src/it/scala/com/datastax/spark/connector/SparkCassandraITFlatSpecBase.scala b/connector/src/it/scala/com/datastax/spark/connector/SparkCassandraITFlatSpecBase.scala
@@ -183,6 +183,10 @@ trait SparkCassandraITSpecBase
 
   implicit val ec = SparkCassandraITSpecBase.ec
 
+  def await[T](unit: Future[T]): T = {
+    Await.result(unit, Duration.Inf)
+  }
+
   def awaitAll[T](units: Future[T]*): Seq[T] = {
     Await.result(Future.sequence(units), Duration.Inf)
   }
diff --git a/connector/src/it/scala/com/datastax/spark/connector/rdd/reader/PrefetchingResultSetIteratorSpec.scala b/connector/src/it/scala/com/datastax/spark/connector/rdd/reader/PrefetchingResultSetIteratorSpec.scala
@@ -0,0 +1,67 @@
+package com.datastax.spark.connector.rdd.reader
+
+import com.codahale.metrics.Timer
+import com.datastax.oss.driver.api.core.cql.SimpleStatement.newInstance
+import com.datastax.spark.connector.SparkCassandraITFlatSpecBase
+import com.datastax.spark.connector.cluster.DefaultCluster
+import com.datastax.spark.connector.cql.CassandraConnector
+import org.scalatest.concurrent.Eventually.{eventually, timeout}
+import org.scalatest.time.{Seconds, Span}
+
+class PrefetchingResultSetIteratorSpec extends SparkCassandraITFlatSpecBase with DefaultCluster {
+
+  private val table = "prefetching"
+  private val emptyTable = "empty_prefetching"
+  override lazy val conn = CassandraConnector(sparkConf)
+
+  override def beforeClass {
+    conn.withSessionDo { session =>
+      session.execute(
+        s"CREATE KEYSPACE IF NOT EXISTS $ks WITH REPLICATION = { 'class': 'SimpleStrategy', 'replication_factor': 1 }")
+
+      session.execute(
+        s"CREATE TABLE IF NOT EXISTS $ks.$table (key INT, x INT, PRIMARY KEY (key))")
+
+      session.execute(
+        s"CREATE TABLE IF NOT EXISTS $ks.$emptyTable (key INT, x INT, PRIMARY KEY (key))")
+
+      awaitAll(
+        for (i <- 1 to 999) yield {
+          executor.executeAsync(newInstance(s"INSERT INTO $ks.$table (key, x) values ($i, $i)"))
+        }
+      )
+    }
+  }
+
+  "PrefetchingResultSetIterator" should "return all rows regardless of the  page sizes" in {
+    val pageSizes = Seq(1, 2, 5, 111, 998, 999, 1000, 1001)
+    for (pageSize <- pageSizes) {
+      withClue(s"Prefetching iterator failed for the page size: $pageSize") {
+        val statement = newInstance(s"select * from $ks.$table").setPageSize(pageSize)
+        val result = executor.executeAsync(statement).map(new PrefetchingResultSetIterator(_))
+        await(result).toList should have size 999
+      }
+    }
+  }
+
+  it should "be empty for an empty table" in {
+    val statement = newInstance(s"select * from $ks.$emptyTable")
+    val result = executor.executeAsync(statement).map(new PrefetchingResultSetIterator(_))
+
+    await(result).hasNext should be(false)
+    intercept[NoSuchElementException] {
+      await(result).next()
+    }
+  }
+
+  it should "update the provided timer" in {
+    val statement = newInstance(s"select * from $ks.$table").setPageSize(200)
+    val timer = new Timer()
+    val result = executor.executeAsync(statement).map(rs => new PrefetchingResultSetIterator(rs, Option(timer)))
+    await(result).toList
+
+    eventually(timeout(Span(2, Seconds))) {
+      timer.getCount should be(4)
+    }
+  }
+}
diff --git a/connector/src/main/scala/com/datastax/bdp/util/ScalaJavaUtil.scala b/connector/src/main/scala/com/datastax/bdp/util/ScalaJavaUtil.scala
@@ -7,10 +7,11 @@
 package com.datastax.bdp.util
 
 import java.time.{Duration => JavaDuration}
-import java.util.concurrent.Callable
+import java.util.concurrent.{Callable, CompletionStage}
 import java.util.function
-import java.util.function.{Consumer, Predicate, Supplier}
+import java.util.function.{BiConsumer, Consumer, Predicate, Supplier}
 
+import scala.concurrent.{ExecutionContext, ExecutionContextExecutor, Future, Promise}
 import scala.concurrent.duration.{Duration => ScalaDuration}
 import scala.language.implicitConversions
 
@@ -45,4 +46,19 @@ object ScalaJavaUtil {
   }
 
   def asScalaFunction[T, R](f: java.util.function.Function[T, R]): T => R = x => f(x)
+
+  def asScalaFuture[T](completionStage: CompletionStage[T])
+                      (implicit context: ExecutionContextExecutor): Future[T] = {
+    val promise = Promise[T]()
+    completionStage.whenCompleteAsync(new BiConsumer[T, java.lang.Throwable] {
+      override def accept(t: T, throwable: Throwable): Unit = {
+        if (throwable == null)
+          promise.success(t)
+        else
+          promise.failure(throwable)
+
+      }
+    }, context)
+    promise.future
+  }
 }
diff --git a/connector/src/main/scala/com/datastax/spark/connector/cql/Scanner.scala b/connector/src/main/scala/com/datastax/spark/connector/cql/Scanner.scala
@@ -1,5 +1,6 @@
 package com.datastax.spark.connector.cql
 
+import com.datastax.bdp.util.ScalaJavaUtil.asScalaFuture
 import com.datastax.oss.driver.api.core.CqlSession
 import com.datastax.oss.driver.api.core.cql.{Row, Statement}
 import com.datastax.spark.connector.CassandraRowMetadata
@@ -8,6 +9,9 @@ import com.datastax.spark.connector.rdd.reader.PrefetchingResultSetIterator
 import com.datastax.spark.connector.util.maybeExecutingAs
 import com.datastax.spark.connector.writer.RateLimiter
 
+import scala.concurrent.duration.Duration
+import scala.concurrent.{Await}
+
 /**
   * Object which will be used in Table Scanning Operations.
   * One Scanner will be created per Spark Partition, it will be
@@ -35,21 +39,25 @@ class DefaultScanner (
   }
 
   override def scan[StatementT <: Statement[StatementT]](statement: StatementT): ScanResult = {
-    val rs = session.execute(maybeExecutingAs(statement, readConf.executeAs))
-    val columnMetaData = CassandraRowMetadata.fromResultSet(columnNames, rs, codecRegistry)
-    val prefetchingIterator = new PrefetchingResultSetIterator(rs, readConf.fetchSizeInRows)
-    val rateLimitingIterator = readConf.throughputMiBPS match {
-      case Some(throughput) =>
-        val rateLimiter = new RateLimiter((throughput * 1024 * 1024).toLong, 1024 * 1024)
-        prefetchingIterator.map { row =>
-          rateLimiter.maybeSleep(getRowBinarySize(row))
-          row
-        }
-      case None =>
-        prefetchingIterator
-    }
+    import com.datastax.spark.connector.util.Threads.BlockingIOExecutionContext
 
-    ScanResult(rateLimitingIterator, columnMetaData)
+    val rs = session.executeAsync(maybeExecutingAs(statement, readConf.executeAs))
+    val scanResult = asScalaFuture(rs).map { rs =>
+      val columnMetaData = CassandraRowMetadata.fromResultSet(columnNames, rs, codecRegistry)
+      val prefetchingIterator = new PrefetchingResultSetIterator(rs)
+      val rateLimitingIterator = readConf.throughputMiBPS match {
+        case Some(throughput) =>
+          val rateLimiter = new RateLimiter((throughput * 1024 * 1024).toLong, 1024 * 1024)
+          prefetchingIterator.map { row =>
+            rateLimiter.maybeSleep(getRowBinarySize(row))
+            row
+          }
+        case None =>
+          prefetchingIterator
+      }
+      ScanResult(rateLimitingIterator, columnMetaData)
+    }
+    Await.result(scanResult, Duration.Inf)
   }
 
   override def getSession(): CqlSession = session
diff --git a/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraCoGroupedRDD.scala b/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraCoGroupedRDD.scala
@@ -7,9 +7,11 @@ package com.datastax.spark.connector.rdd
 
 import java.io.IOException
 
+import com.datastax.bdp.util.ScalaJavaUtil._
 import com.datastax.oss.driver.api.core.CqlSession
 import com.datastax.oss.driver.api.core.cql.{BoundStatement, Row}
 import com.datastax.spark.connector.util._
+
 import scala.collection.JavaConversions._
 import scala.language.existentials
 import scala.reflect.ClassTag
@@ -28,6 +30,9 @@ import com.datastax.spark.connector.types.ColumnType
 import com.datastax.spark.connector.util.Quote._
 import com.datastax.spark.connector.util.{CountingIterator, MultiMergeJoinIterator, NameTools}
 
+import scala.concurrent.Await
+import scala.concurrent.duration.Duration
+
 /**
   * A RDD which pulls from provided separate CassandraTableScanRDDs which share partition keys type and
   * keyspaces. These tables will be joined on READ using a merge iterator. As long as we join
@@ -158,21 +163,21 @@ class CassandraCoGroupedRDD[T](
         s"with params ${values.mkString("[", ",", "]")}")
     val stmt = createStatement(session, fromRDD.readConf, cql, values: _*)
 
-    try {
-      val rs = session.execute(stmt)
+    import com.datastax.spark.connector.util.Threads.BlockingIOExecutionContext
+
+    val fetchResult = asScalaFuture(session.executeAsync(stmt)).map { rs =>
       val columnNames = fromRDD.selectedColumnRefs.map(_.selectedAs).toIndexedSeq ++ Seq(TokenColumn)
-      val columnMetaData = CassandraRowMetadata.fromResultSet(columnNames,rs, session)
-      val iterator = new PrefetchingResultSetIterator(rs, fromRDD.readConf.fetchSizeInRows)
+      val columnMetaData = CassandraRowMetadata.fromResultSet(columnNames, rs, session.getContext.getCodecRegistry)
+      val iterator = new PrefetchingResultSetIterator(rs)
       val iteratorWithMetrics = iterator.map(inputMetricsUpdater.updateMetrics)
       logDebug(s"Row iterator for range $range obtained successfully.")
       (columnMetaData, iteratorWithMetrics)
-    } catch {
-      case t: Throwable =>
-        throw new IOException(s"Exception during execution of $cql: ${t.getMessage}", t)
+    }.recover {
+      case t: Throwable => throw new IOException(s"Exception during execution of $cql: ${t.getMessage}", t)
     }
+    Await.result(fetchResult, Duration.Inf)
   }
 
-
   @DeveloperApi
   override def compute(split: Partition, context: TaskContext): Iterator[Seq[Seq[T]]] = {
     /** Open two sessions if Cluster Configurations are different **/
diff --git a/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraJoinRDD.scala b/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraJoinRDD.scala
@@ -124,16 +124,20 @@ class CassandraJoinRDD[L, R] (
     metricsUpdater: InputMetricsUpdater
   ): Iterator[(L, R)] = {
 
-
     val queryExecutor = QueryExecutor(session, readConf.parallelismLevel, None, None)
 
     def pairWithRight(left: L): SettableFuture[Iterator[(L, R)]] = {
       val resultFuture = SettableFuture.create[Iterator[(L, R)]]
       val leftSide = Iterator.continually(left)
 
-      queryExecutor.executeAsync(bsb.bind(left).executeAs(readConf.executeAs)).onComplete {
+      import com.datastax.spark.connector.util.Threads.BlockingIOExecutionContext
+
+      val stmt = bsb.bind(left)
+        .update(_.setPageSize(readConf.fetchSizeInRows))
+        .executeAs(readConf.executeAs)
+      queryExecutor.executeAsync(stmt).onComplete {
         case Success(rs) =>
-          val resultSet = new PrefetchingResultSetIterator(ResultSets.newInstance(rs), fetchSize)
+          val resultSet = new PrefetchingResultSetIterator(rs)
           val iteratorWithMetrics = resultSet.map(metricsUpdater.updateMetrics)
           /* This is a much less than ideal place to actually rate limit, we are buffering
           these futures this means we will most likely exceed our threshold*/
@@ -142,13 +146,11 @@ class CassandraJoinRDD[L, R] (
           resultFuture.set(leftSide.zip(rightSide))
         case Failure(throwable) =>
           resultFuture.setException(throwable)
-      }(ExecutionContext.Implicits.global) // TODO: use dedicated context, use Future down the road, remove SettableFuture
+      }
 
       resultFuture
     }
 
-
-
     val queryFutures = leftIterator.map(left => {
       requestsPerSecondRateLimiter.maybeSleep(1)
       pairWithRight(left)
diff --git a/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraLeftJoinRDD.scala b/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraLeftJoinRDD.scala
@@ -149,16 +149,20 @@ class CassandraLeftJoinRDD[L, R] (
     leftIterator: Iterator[L],
     metricsUpdater: InputMetricsUpdater
   ): Iterator[(L, Option[R])] = {
+    import com.datastax.spark.connector.util.Threads.BlockingIOExecutionContext
 
     val queryExecutor = QueryExecutor(session, readConf.parallelismLevel, None, None)
 
     def pairWithRight(left: L): SettableFuture[Iterator[(L, Option[R])]] = {
       val resultFuture = SettableFuture.create[Iterator[(L, Option[R])]]
       val leftSide = Iterator.continually(left)
 
-      queryExecutor.executeAsync(bsb.bind(left).executeAs(readConf.executeAs)).onComplete {
+      val stmt = bsb.bind(left)
+        .update(_.setPageSize(readConf.fetchSizeInRows))
+        .executeAs(readConf.executeAs)
+      queryExecutor.executeAsync(stmt).onComplete {
         case Success(rs) =>
-          val resultSet = new PrefetchingResultSetIterator(ResultSets.newInstance(rs), fetchSize)
+          val resultSet = new PrefetchingResultSetIterator(rs)
           val iteratorWithMetrics = resultSet.map(metricsUpdater.updateMetrics)
           /* This is a much less than ideal place to actually rate limit, we are buffering
           these futures this means we will most likely exceed our threshold*/
@@ -170,10 +174,11 @@ class CassandraLeftJoinRDD[L, R] (
           resultFuture.set(leftSide.zip(rightSide))
         case Failure(throwable) =>
           resultFuture.setException(throwable)
-      }(ExecutionContext.Implicits.global) // TODO: use dedicated context, use Future instead of SettableFuture
+      }
 
       resultFuture
     }
+
     val queryFutures = leftIterator.map(left => {
       requestsPerSecondRateLimiter.maybeSleep(1)
       pairWithRight(left)
diff --git a/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraMergeJoinRDD.scala b/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraMergeJoinRDD.scala
@@ -7,26 +7,30 @@ package com.datastax.spark.connector.rdd
 
 import java.io.IOException
 
+import com.datastax.bdp.util.ScalaJavaUtil.asScalaFuture
+
 import scala.collection.JavaConversions._
 import scala.language.existentials
 import scala.reflect.ClassTag
 import org.apache.spark.annotation.DeveloperApi
 import org.apache.spark.metrics.InputMetricsUpdater
 import org.apache.spark.rdd.RDD
 import org.apache.spark.{Partition, SparkContext, TaskContext}
-import com.datastax.driver.core._
 import com.datastax.oss.driver.api.core.CqlSession
-import com.datastax.oss.driver.api.core.cql.{BoundStatement, Row, Statement}
+import com.datastax.oss.driver.api.core.cql.{BoundStatement, Row}
 import com.datastax.oss.driver.api.core.metadata.Metadata
 import com.datastax.oss.driver.api.core.metadata.token.Token
 import com.datastax.spark.connector.CassandraRowMetadata
-import com.datastax.spark.connector.cql.{CassandraConnector, ColumnDef, Schema}
+import com.datastax.spark.connector.cql.{CassandraConnector, ColumnDef}
 import com.datastax.spark.connector.rdd.partitioner.{CassandraPartition, CqlTokenRange, NodeAddresses}
 import com.datastax.spark.connector.rdd.reader.{PrefetchingResultSetIterator, RowReader}
 import com.datastax.spark.connector.types.ColumnType
 import com.datastax.spark.connector.util.Quote._
 import com.datastax.spark.connector.util.{CountingIterator, MergeJoinIterator, NameTools, schemaFromCassandra}
 
+import scala.concurrent.Await
+import scala.concurrent.duration.Duration
+
 /**
   * A RDD which pulls from two separate CassandraTableScanRDDs which share partition keys and
   * keyspaces. These tables will be joined on READ using a merge iterator. As long as we join
@@ -151,21 +155,21 @@ class CassandraMergeJoinRDD[L,R](
         s"with params ${values.mkString("[", ",", "]")}")
     val stmt = createStatement(session, fromRDD.readConf, cql, values: _*)
 
-    try {
-      val rs = session.execute(stmt)
+    import com.datastax.spark.connector.util.Threads.BlockingIOExecutionContext
+
+    val fetchResult = asScalaFuture(session.executeAsync(stmt)).map { rs =>
       val columnNames = fromRDD.selectedColumnRefs.map(_.selectedAs).toIndexedSeq ++ Seq(TokenColumn)
       val columnMetaData = CassandraRowMetadata.fromResultSet(columnNames, rs, session)
-      val iterator = new PrefetchingResultSetIterator(rs, fromRDD.readConf.fetchSizeInRows)
+      val iterator = new PrefetchingResultSetIterator(rs)
       val iteratorWithMetrics = iterator.map(inputMetricsUpdater.updateMetrics)
       logDebug(s"Row iterator for range $range obtained successfully.")
       (columnMetaData, iteratorWithMetrics)
-    } catch {
-      case t: Throwable =>
-        throw new IOException(s"Exception during execution of $cql: ${t.getMessage}", t)
+    }.recover {
+      case t: Throwable => throw new IOException(s"Exception during execution of $cql: ${t.getMessage}", t)
     }
+    Await.result(fetchResult, Duration.Inf)
   }
 
-
   @DeveloperApi
   override def compute(split: Partition, context: TaskContext): Iterator[(Seq[L], Seq[R])] = {
 
diff --git a/connector/src/main/scala/com/datastax/spark/connector/rdd/reader/PrefetchingResultSetIterator.scala b/connector/src/main/scala/com/datastax/spark/connector/rdd/reader/PrefetchingResultSetIterator.scala
diff --git a/connector/src/main/scala/com/datastax/spark/connector/util/Threads.scala b/connector/src/main/scala/com/datastax/spark/connector/util/Threads.scala
diff --git a/connector/src/main/scala/com/datastax/spark/connector/writer/RichStatement.scala b/connector/src/main/scala/com/datastax/spark/connector/writer/RichStatement.scala
diff --git a/driver/src/main/scala/com/datastax/spark/connector/CassandraRow.scala b/driver/src/main/scala/com/datastax/spark/connector/CassandraRow.scala

Original file line number	Diff line number	Diff line change
`@@ -183,6 +183,10 @@ trait SparkCassandraITSpecBase`
`183`	`183`
`184`	`184`	`implicit val ec = SparkCassandraITSpecBase.ec`
`185`	`185`
	`186`	`+ def await[T](unit: Future[T]): T = {`
	`187`	`+ Await.result(unit, Duration.Inf)`
	`188`	`+ }`
	`189`	`+`
`186`	`190`	`def awaitAll[T](units: Future[T]*): Seq[T] = {`
`187`	`191`	`Await.result(Future.sequence(units), Duration.Inf)`
`188`	`192`	`}`