SPARKC-619 use async queries in row fetching

jtgrabowski · jtgrabowski · commit 443f7e4e4f02 · 2020-09-17T09:23:38.000+02:00
This is a base for eager page prefetching.
diff --git a/connector/src/main/scala/com/datastax/bdp/util/ScalaJavaUtil.scala b/connector/src/main/scala/com/datastax/bdp/util/ScalaJavaUtil.scala
@@ -7,10 +7,11 @@
 package com.datastax.bdp.util
 
 import java.time.{Duration => JavaDuration}
-import java.util.concurrent.Callable
+import java.util.concurrent.{Callable, CompletionStage}
 import java.util.function
-import java.util.function.{Consumer, Predicate, Supplier}
+import java.util.function.{BiConsumer, Consumer, Predicate, Supplier}
 
+import scala.concurrent.{ExecutionContext, Future, Promise}
 import scala.concurrent.duration.{Duration => ScalaDuration}
 import scala.language.implicitConversions
 
@@ -45,4 +46,19 @@ object ScalaJavaUtil {
   }
 
   def asScalaFunction[T, R](f: java.util.function.Function[T, R]): T => R = x => f(x)
+
+  def asScalaFuture[T](completionStage: CompletionStage[T])
+                      (implicit context: ExecutionContext): Future[T] = {
+    val promise = Promise[T]()
+    completionStage.whenCompleteAsync(new BiConsumer[T, java.lang.Throwable] {
+      override def accept(t: T, throwable: Throwable): Unit = {
+        if (throwable == null)
+          promise.success(t)
+        else
+          promise.failure(throwable)
+
+      }
+    })
+    promise.future
+  }
 }
diff --git a/connector/src/main/scala/com/datastax/spark/connector/cql/Scanner.scala b/connector/src/main/scala/com/datastax/spark/connector/cql/Scanner.scala
@@ -1,5 +1,6 @@
 package com.datastax.spark.connector.cql
 
+import com.datastax.bdp.util.ScalaJavaUtil.asScalaFuture
 import com.datastax.oss.driver.api.core.CqlSession
 import com.datastax.oss.driver.api.core.cql.{Row, Statement}
 import com.datastax.spark.connector.CassandraRowMetadata
@@ -8,6 +9,9 @@ import com.datastax.spark.connector.rdd.reader.PrefetchingResultSetIterator
 import com.datastax.spark.connector.util.maybeExecutingAs
 import com.datastax.spark.connector.writer.RateLimiter
 
+import scala.concurrent.duration.Duration
+import scala.concurrent.{Await}
+
 /**
   * Object which will be used in Table Scanning Operations.
   * One Scanner will be created per Spark Partition, it will be
@@ -35,21 +39,25 @@ class DefaultScanner (
   }
 
   override def scan[StatementT <: Statement[StatementT]](statement: StatementT): ScanResult = {
-    val rs = session.execute(maybeExecutingAs(statement, readConf.executeAs))
-    val columnMetaData = CassandraRowMetadata.fromResultSet(columnNames, rs, codecRegistry)
-    val prefetchingIterator = new PrefetchingResultSetIterator(rs, readConf.fetchSizeInRows)
-    val rateLimitingIterator = readConf.throughputMiBPS match {
-      case Some(throughput) =>
-        val rateLimiter = new RateLimiter((throughput * 1024 * 1024).toLong, 1024 * 1024)
-        prefetchingIterator.map { row =>
-          rateLimiter.maybeSleep(getRowBinarySize(row))
-          row
-        }
-      case None =>
-        prefetchingIterator
-    }
+    import com.datastax.spark.connector.util.Threads.BlockingIOExecutionContext
 
-    ScanResult(rateLimitingIterator, columnMetaData)
+    val rs = session.executeAsync(maybeExecutingAs(statement, readConf.executeAs))
+    val scanResult = asScalaFuture(rs).map { rs =>
+      val columnMetaData = CassandraRowMetadata.fromResultSet(columnNames, rs, codecRegistry)
+      val prefetchingIterator = new PrefetchingResultSetIterator(rs, readConf.fetchSizeInRows)
+      val rateLimitingIterator = readConf.throughputMiBPS match {
+        case Some(throughput) =>
+          val rateLimiter = new RateLimiter((throughput * 1024 * 1024).toLong, 1024 * 1024)
+          prefetchingIterator.map { row =>
+            rateLimiter.maybeSleep(getRowBinarySize(row))
+            row
+          }
+        case None =>
+          prefetchingIterator
+      }
+      ScanResult(rateLimitingIterator, columnMetaData)
+    }
+    Await.result(scanResult, Duration.Inf)
   }
 
   override def getSession(): CqlSession = session
diff --git a/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraCoGroupedRDD.scala b/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraCoGroupedRDD.scala
@@ -7,9 +7,11 @@ package com.datastax.spark.connector.rdd
 
 import java.io.IOException
 
+import com.datastax.bdp.util.ScalaJavaUtil._
 import com.datastax.oss.driver.api.core.CqlSession
 import com.datastax.oss.driver.api.core.cql.{BoundStatement, Row}
 import com.datastax.spark.connector.util._
+
 import scala.collection.JavaConversions._
 import scala.language.existentials
 import scala.reflect.ClassTag
@@ -28,6 +30,9 @@ import com.datastax.spark.connector.types.ColumnType
 import com.datastax.spark.connector.util.Quote._
 import com.datastax.spark.connector.util.{CountingIterator, MultiMergeJoinIterator, NameTools}
 
+import scala.concurrent.Await
+import scala.concurrent.duration.Duration
+
 /**
   * A RDD which pulls from provided separate CassandraTableScanRDDs which share partition keys type and
   * keyspaces. These tables will be joined on READ using a merge iterator. As long as we join
@@ -158,21 +163,21 @@ class CassandraCoGroupedRDD[T](
         s"with params ${values.mkString("[", ",", "]")}")
     val stmt = createStatement(session, fromRDD.readConf, cql, values: _*)
 
-    try {
-      val rs = session.execute(stmt)
+    import com.datastax.spark.connector.util.Threads.BlockingIOExecutionContext
+
+    val fetchResult = asScalaFuture(session.executeAsync(stmt)).map { rs =>
       val columnNames = fromRDD.selectedColumnRefs.map(_.selectedAs).toIndexedSeq ++ Seq(TokenColumn)
-      val columnMetaData = CassandraRowMetadata.fromResultSet(columnNames,rs, session)
+      val columnMetaData = CassandraRowMetadata.fromResultSet(columnNames, rs, session.getContext.getCodecRegistry)
       val iterator = new PrefetchingResultSetIterator(rs, fromRDD.readConf.fetchSizeInRows)
       val iteratorWithMetrics = iterator.map(inputMetricsUpdater.updateMetrics)
       logDebug(s"Row iterator for range $range obtained successfully.")
       (columnMetaData, iteratorWithMetrics)
-    } catch {
-      case t: Throwable =>
-        throw new IOException(s"Exception during execution of $cql: ${t.getMessage}", t)
+    }.recover {
+      case t: Throwable => throw new IOException(s"Exception during execution of $cql: ${t.getMessage}", t)
     }
+    Await.result(fetchResult, Duration.Inf)
   }
 
-
   @DeveloperApi
   override def compute(split: Partition, context: TaskContext): Iterator[Seq[Seq[T]]] = {
     /** Open two sessions if Cluster Configurations are different **/
diff --git a/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraJoinRDD.scala b/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraJoinRDD.scala
@@ -131,9 +131,11 @@ class CassandraJoinRDD[L, R] (
       val resultFuture = SettableFuture.create[Iterator[(L, R)]]
       val leftSide = Iterator.continually(left)
 
+      import com.datastax.spark.connector.util.Threads.BlockingIOExecutionContext
+
       queryExecutor.executeAsync(bsb.bind(left).executeAs(readConf.executeAs)).onComplete {
         case Success(rs) =>
-          val resultSet = new PrefetchingResultSetIterator(ResultSets.newInstance(rs), fetchSize)
+          val resultSet = new PrefetchingResultSetIterator(rs, fetchSize)
           val iteratorWithMetrics = resultSet.map(metricsUpdater.updateMetrics)
           /* This is a much less than ideal place to actually rate limit, we are buffering
           these futures this means we will most likely exceed our threshold*/
@@ -142,13 +144,11 @@ class CassandraJoinRDD[L, R] (
           resultFuture.set(leftSide.zip(rightSide))
         case Failure(throwable) =>
           resultFuture.setException(throwable)
-      }(ExecutionContext.Implicits.global) // TODO: use dedicated context, use Future down the road, remove SettableFuture
+      }
 
       resultFuture
     }
 
-
-
     val queryFutures = leftIterator.map(left => {
       requestsPerSecondRateLimiter.maybeSleep(1)
       pairWithRight(left)
diff --git a/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraLeftJoinRDD.scala b/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraLeftJoinRDD.scala
@@ -149,6 +149,7 @@ class CassandraLeftJoinRDD[L, R] (
     leftIterator: Iterator[L],
     metricsUpdater: InputMetricsUpdater
   ): Iterator[(L, Option[R])] = {
+    import com.datastax.spark.connector.util.Threads.BlockingIOExecutionContext
 
     val queryExecutor = QueryExecutor(session, readConf.parallelismLevel, None, None)
 
@@ -158,7 +159,7 @@ class CassandraLeftJoinRDD[L, R] (
 
       queryExecutor.executeAsync(bsb.bind(left).executeAs(readConf.executeAs)).onComplete {
         case Success(rs) =>
-          val resultSet = new PrefetchingResultSetIterator(ResultSets.newInstance(rs), fetchSize)
+          val resultSet = new PrefetchingResultSetIterator(rs, fetchSize)
           val iteratorWithMetrics = resultSet.map(metricsUpdater.updateMetrics)
           /* This is a much less than ideal place to actually rate limit, we are buffering
           these futures this means we will most likely exceed our threshold*/
@@ -170,10 +171,11 @@ class CassandraLeftJoinRDD[L, R] (
           resultFuture.set(leftSide.zip(rightSide))
         case Failure(throwable) =>
           resultFuture.setException(throwable)
-      }(ExecutionContext.Implicits.global) // TODO: use dedicated context, use Future instead of SettableFuture
+      }
 
       resultFuture
     }
+
     val queryFutures = leftIterator.map(left => {
       requestsPerSecondRateLimiter.maybeSleep(1)
       pairWithRight(left)
diff --git a/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraMergeJoinRDD.scala b/connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraMergeJoinRDD.scala
@@ -7,26 +7,30 @@ package com.datastax.spark.connector.rdd
 
 import java.io.IOException
 
+import com.datastax.bdp.util.ScalaJavaUtil.asScalaFuture
+
 import scala.collection.JavaConversions._
 import scala.language.existentials
 import scala.reflect.ClassTag
 import org.apache.spark.annotation.DeveloperApi
 import org.apache.spark.metrics.InputMetricsUpdater
 import org.apache.spark.rdd.RDD
 import org.apache.spark.{Partition, SparkContext, TaskContext}
-import com.datastax.driver.core._
 import com.datastax.oss.driver.api.core.CqlSession
-import com.datastax.oss.driver.api.core.cql.{BoundStatement, Row, Statement}
+import com.datastax.oss.driver.api.core.cql.{BoundStatement, Row}
 import com.datastax.oss.driver.api.core.metadata.Metadata
 import com.datastax.oss.driver.api.core.metadata.token.Token
 import com.datastax.spark.connector.CassandraRowMetadata
-import com.datastax.spark.connector.cql.{CassandraConnector, ColumnDef, Schema}
+import com.datastax.spark.connector.cql.{CassandraConnector, ColumnDef}
 import com.datastax.spark.connector.rdd.partitioner.{CassandraPartition, CqlTokenRange, NodeAddresses}
 import com.datastax.spark.connector.rdd.reader.{PrefetchingResultSetIterator, RowReader}
 import com.datastax.spark.connector.types.ColumnType
 import com.datastax.spark.connector.util.Quote._
 import com.datastax.spark.connector.util.{CountingIterator, MergeJoinIterator, NameTools, schemaFromCassandra}
 
+import scala.concurrent.Await
+import scala.concurrent.duration.Duration
+
 /**
   * A RDD which pulls from two separate CassandraTableScanRDDs which share partition keys and
   * keyspaces. These tables will be joined on READ using a merge iterator. As long as we join
@@ -151,21 +155,21 @@ class CassandraMergeJoinRDD[L,R](
         s"with params ${values.mkString("[", ",", "]")}")
     val stmt = createStatement(session, fromRDD.readConf, cql, values: _*)
 
-    try {
-      val rs = session.execute(stmt)
+    import com.datastax.spark.connector.util.Threads.BlockingIOExecutionContext
+
+    val fetchResult = asScalaFuture(session.executeAsync(stmt)).map { rs =>
       val columnNames = fromRDD.selectedColumnRefs.map(_.selectedAs).toIndexedSeq ++ Seq(TokenColumn)
       val columnMetaData = CassandraRowMetadata.fromResultSet(columnNames, rs, session)
       val iterator = new PrefetchingResultSetIterator(rs, fromRDD.readConf.fetchSizeInRows)
       val iteratorWithMetrics = iterator.map(inputMetricsUpdater.updateMetrics)
       logDebug(s"Row iterator for range $range obtained successfully.")
       (columnMetaData, iteratorWithMetrics)
-    } catch {
-      case t: Throwable =>
-        throw new IOException(s"Exception during execution of $cql: ${t.getMessage}", t)
+    }.recover {
+      case t: Throwable => throw new IOException(s"Exception during execution of $cql: ${t.getMessage}", t)
     }
+    Await.result(fetchResult, Duration.Inf)
   }
 
-
   @DeveloperApi
   override def compute(split: Partition, context: TaskContext): Iterator[(Seq[L], Seq[R])] = {
 
diff --git a/connector/src/main/scala/com/datastax/spark/connector/rdd/reader/PrefetchingResultSetIterator.scala b/connector/src/main/scala/com/datastax/spark/connector/rdd/reader/PrefetchingResultSetIterator.scala
@@ -1,11 +1,8 @@
 package com.datastax.spark.connector.rdd.reader
 
-import java.util.concurrent.TimeUnit
-
 import com.codahale.metrics.Timer
-import com.datastax.oss.driver.api.core.cql.{AsyncResultSet, ResultSet, Row}
-import com.datastax.oss.driver.internal.core.cql.MultiPageResultSet
-import com.google.common.util.concurrent.{FutureCallback, Futures, ListenableFuture}
+import com.datastax.oss.driver.api.core.cql.{AsyncResultSet, Row}
+import com.datastax.oss.driver.internal.core.cql.ResultSets
 
 /** Allows to efficiently iterate over a large, paged ResultSet,
   * asynchronously prefetching the next page.
@@ -15,10 +12,10 @@ import com.google.common.util.concurrent.{FutureCallback, Futures, ListenableFut
   *                           initiates fetching the next page
   * @param timer a Codahale timer to optionally gather the metrics of fetching time
   */
-class PrefetchingResultSetIterator(resultSet: ResultSet, prefetchWindowSize: Int, timer: Option[Timer] = None)
+class PrefetchingResultSetIterator(resultSet: AsyncResultSet, prefetchWindowSize: Int, timer: Option[Timer] = None)
   extends Iterator[Row] {
 
-  private[this] val iterator = resultSet.iterator()
+  private val iterator = ResultSets.newInstance(resultSet).iterator() //TODO
 
   override def hasNext = iterator.hasNext
 
diff --git a/connector/src/main/scala/com/datastax/spark/connector/util/Threads.scala b/connector/src/main/scala/com/datastax/spark/connector/util/Threads.scala
@@ -0,0 +1,19 @@
+package com.datastax.spark.connector.util
+
+import java.util.concurrent.{Executors, LinkedBlockingQueue, ThreadPoolExecutor, TimeUnit}
+
+import com.google.common.util.concurrent.ThreadFactoryBuilder
+
+import scala.concurrent.ExecutionContext
+
+object Threads {
+
+  implicit val BlockingIOExecutionContext = {
+    val threadFactory = new ThreadFactoryBuilder()
+      .setDaemon(true)
+      .setNameFormat("spark-cassandra-connector-io" + "%d")
+      .build
+    ExecutionContext.fromExecutorService(Executors.newCachedThreadPool(threadFactory))
+  }
+}
+
diff --git a/driver/src/main/scala/com/datastax/spark/connector/CassandraRow.scala b/driver/src/main/scala/com/datastax/spark/connector/CassandraRow.scala
@@ -3,7 +3,7 @@ package com.datastax.spark.connector
 import com.datastax.oss.driver.api.core.CqlSession
 import com.datastax.oss.driver.api.core.`type`.codec.TypeCodec
 import com.datastax.oss.driver.api.core.`type`.codec.registry.CodecRegistry
-import com.datastax.oss.driver.api.core.cql.{ColumnDefinitions, PreparedStatement, ResultSet, Row}
+import com.datastax.oss.driver.api.core.cql.{AsyncResultSet, ColumnDefinitions, PreparedStatement, ResultSet, Row}
 import com.datastax.spark.connector.util.DriverUtil.toName
 
 /** Represents a single row fetched from Cassandra.
@@ -129,22 +129,25 @@ case class CassandraRowMetadata(columnNames: IndexedSeq[String],
 
 object CassandraRowMetadata {
 
+  def fromResultSet(columnNames: IndexedSeq[String], rs: AsyncResultSet, session: CqlSession): CassandraRowMetadata = {
+    fromResultSet(columnNames: IndexedSeq[String], rs, session.getContext.getCodecRegistry)
+  }
 
-  def fromResultSet(columnNames: IndexedSeq[String], rs: ResultSet, session: CqlSession) :CassandraRowMetadata = {
-    fromResultSet(columnNames: IndexedSeq[String], rs: ResultSet, session.getContext.getCodecRegistry)
+  def fromResultSet(columnNames: IndexedSeq[String], rs: AsyncResultSet, registry: CodecRegistry): CassandraRowMetadata = {
+    fromColumnDefs(columnNames, rs.getColumnDefinitions, registry)
   }
 
-  def fromResultSet(columnNames: IndexedSeq[String], rs: ResultSet, registry: CodecRegistry) :CassandraRowMetadata = {
+  def fromResultSet(columnNames: IndexedSeq[String], rs: ResultSet, registry: CodecRegistry): CassandraRowMetadata = {
     fromColumnDefs(columnNames, rs.getColumnDefinitions, registry)
   }
 
-  def fromPreparedStatement(columnNames: IndexedSeq[String], statement: PreparedStatement, registry: CodecRegistry) :CassandraRowMetadata = {
+  def fromPreparedStatement(columnNames: IndexedSeq[String], statement: PreparedStatement, registry: CodecRegistry): CassandraRowMetadata = {
     fromColumnDefs(columnNames, statement.getResultSetDefinitions, registry)
   }
 
-  private def fromColumnDefs(columnNames: IndexedSeq[String], columnDefs: ColumnDefinitions, registry: CodecRegistry) = {
-    import scala.collection.JavaConversions._
-    val scalaColumnDefs = columnDefs.toList
+  private def fromColumnDefs(columnNames: IndexedSeq[String], columnDefs: ColumnDefinitions, registry: CodecRegistry): CassandraRowMetadata = {
+    import scala.collection.JavaConverters._
+    val scalaColumnDefs = columnDefs.asScala.toList
     val rsColumnNames = scalaColumnDefs.map(c => toName(c.getName))
     val codecs = scalaColumnDefs.map(col => registry.codecFor(col.getType))
       .asInstanceOf[List[TypeCodec[AnyRef]]]