documentation

ifilonenko · ifilonenko · commit 514ac19b6bcb · 2017-08-01T16:28:03.000-07:00
diff --git a/docs/running-on-kubernetes.md b/docs/running-on-kubernetes.md
@@ -768,6 +768,53 @@ from the other deployment modes. See the [configuration page](configuration.html
     <code>myIdentifier</code>. Multiple node selector keys can be added by setting multiple configurations with this prefix.
   </td>
 </tr>
+<tr>
+  <td><code>spark.kubernetes.kerberos</code></td> 
+  <td>false</td>
+  <td>
+    Specify whether your job is a job that will require a Delegation Token to access HDFS. By default, we
+    will assume that you will not require secure HDFS access. 
+  </td>
+</tr>
+<tr>
+  <td><code>spark.kubernetes.kerberos.keytab</code></td> 
+  <td>(none)</td>
+  <td>
+    Assuming you have set <code>spark.kubernetes.kerberos</code> to be true. This will let you specify 
+    the location of your Kerberos keytab to be used in order to access Secure HDFS. This is optional as you 
+    may login by running <code>kinit -kt</code> before running the spark-submit, and the submission client
+    will look within your local TGT cache to resolve this. 
+  </td>
+</tr>
+<tr>
+  <td><code>spark.kubernetes.kerberos.principal</code></td> 
+  <td>(none)</td>
+  <td>
+    Assuming you have set <code>spark.kubernetes.kerberos</code> to be true. This will let you specify 
+    your Kerberos principal that you wish to use to access Secure HDFS. This is optional as you 
+    may login by running <code>kinit -kt</code> before running the spark-submit, and the submission client
+    will look within your local TGT cache to resolve this. 
+  </td>
+</tr>
+<tr>
+  <td><code>spark.kubernetes.kerberos.tokensecret.name</code></td> 
+  <td>(none)</td>
+  <td>
+    Assuming you have set <code>spark.kubernetes.kerberos</code> to be true. This will let you specify 
+    the name of the secret where your existing delegation token data is stored. You must also specify the 
+    label <code>spark.kubernetes.kerberos.tokensecret.name</code> where your data is stored on the secret. 
+  </td>
+</tr>
+<tr>
+  <td><code>spark.kubernetes.kerberos.tokensecret.label</code></td> 
+  <td>spark.kubernetes.kerberos.dt.label</td>
+  <td>
+    Assuming you have set <code>spark.kubernetes.kerberos</code> to be true. This will let you specify 
+    the label within the pre-specified secret where the data of your existing delegation token data is stored. 
+    We have a default value of <code>spark.kubernetes.kerberos.dt.label</code> should you not include it. But
+    you should always include this if you are proposing a pre-existing secret contain the delegation token data.
+  </td>
+</tr>
 </table>
 
 
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/HadoopConfBootstrap.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/HadoopConfBootstrap.scala
@@ -28,7 +28,7 @@ import org.apache.spark.internal.Logging
 
 /**
  * This is separated out from the HadoopConf steps API because this component can be reused to
- * set up the hadoop-conf for executors as well.
+ * set up the Hadoop Configuration for executors as well.
  */
 private[spark] trait HadoopConfBootstrap {
  /**
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/KerberosConfBootstrap.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/KerberosConfBootstrap.scala
@@ -19,12 +19,18 @@ package org.apache.spark.deploy.kubernetes
 import io.fabric8.kubernetes.api.model.ContainerBuilder
 
 import org.apache.spark.deploy.kubernetes.constants._
-
+ /**
+  * This is separated out from hadoopsteps because this component can be reused to
+  * set up the Kerberos logic for executors as well.
+  */
 private[spark] trait KerberosConfBootstrap {
+   /**
+     * Bootstraps a main container with an ENV variable
+     * pointing to the data storing the DT in the secret
+     */
   def bootstrapMainContainerAndVolumes(originalPodWithMainContainer: PodWithMainContainer)
     : PodWithMainContainer
 }
-
 private[spark] class KerberosConfBootstrapImpl(
   delegationTokenLabelName: String) extends KerberosConfBootstrap{
   override def bootstrapMainContainerAndVolumes(
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/PodWithMainContainer.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/PodWithMainContainer.scala
@@ -18,6 +18,11 @@ package org.apache.spark.deploy.kubernetes
 
 import io.fabric8.kubernetes.api.model.{Container, Pod}
 
+ /**
+  * The purpose of this case class is so that we can package together
+  * the driver pod with its container so we can bootstrap and modify
+  * the class instead of each component seperately
+  */
 private[spark] case class PodWithMainContainer(
     pod: Pod,
     mainContainer: Container)
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/config.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/config.scala
@@ -510,6 +510,7 @@ package object config extends Logging {
       .createOptional
 
   private[spark] val KUBERNETES_NODE_SELECTOR_PREFIX = "spark.kubernetes.node.selector."
+
   private[spark] val KUBERNETES_KERBEROS_SUPPORT =
     ConfigBuilder("spark.kubernetes.kerberos")
       .doc("Specify whether your job is a job that will require a Delegation Token to access HDFS")
@@ -530,14 +531,22 @@ package object config extends Logging {
       .stringConf
       .createOptional
 
-  private[spark] val KUBERNETES_KERBEROS_DT_SECRET =
-    ConfigBuilder("spark.kubernetes.kerberos.tokensecret")
-      .doc("Specify the label of the secret where " +
+  private[spark] val KUBERNETES_KERBEROS_DT_SECRET_NAME =
+    ConfigBuilder("spark.kubernetes.kerberos.tokensecret.name")
+      .doc("Specify the name of the secret where " +
         " your existing delegation token is stored. This removes the need" +
         " for the job user to provide any keytab for launching a job")
       .stringConf
       .createOptional
 
+  private[spark] val KUBERNETES_KERBEROS_DT_SECRET_LABEL =
+    ConfigBuilder("spark.kubernetes.kerberos.tokensecret.label")
+      .doc("Specify the label of the data where " +
+        " your existing delegation token is stored. This removes the need" +
+        " for the job user to provide any keytab for launching a job")
+      .stringConf
+      .createWithDefault("spark.kubernetes.kerberos.dt.label")
+
   private[spark] def resolveK8sMaster(rawMasterString: String): String = {
     if (!rawMasterString.startsWith("k8s://")) {
       throw new IllegalArgumentException("Master URL should start with k8s:// in Kubernetes mode.")
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/constants.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/constants.scala
@@ -99,12 +99,15 @@ package object constants {
   private[spark] val DEFAULT_SHUFFLE_MOUNT_NAME = "shuffle"
   private[spark] val INIT_CONTAINER_SECRET_VOLUME_NAME = "spark-init-secret"
 
+  // Hadoop Configuration
   private[spark] val HADOOP_FILE_VOLUME = "hadoop-properties"
   private[spark] val HADOOP_FILE_DIR = "/etc/hadoop"
   private[spark] val HADOOP_CONF_DIR = "HADOOP_CONF_DIR"
   private[spark] val HADOOP_CONF_DIR_LOC = "spark.kubernetes.hadoop.conf.dir"
   private[spark] val HADOOP_CONFIG_MAP_SPARK_CONF_NAME =
     "spark.kubernetes.hadoop.executor.hadoopconfigmapname"
+
+  // Kerberos Configuration
   private[spark] val HADOOP_KERBEROS_SECRET_NAME =
     "spark.kubernetes.kerberos.dt"
   private[spark] val KERBEROS_SPARK_CONF_NAME =
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/Client.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/Client.scala
@@ -198,6 +198,8 @@ private[spark] object Client {
   def main(args: Array[String]): Unit = {
     val parsedArguments = ClientArguments.fromCommandLineArgs(args)
     val sparkConf = new SparkConf()
+    // hadoopConfDir is passed into Client#run() to allow for us to
+    // test this env variable within the integration test environment
     val hadoopConfDir = sys.env.get("HADOOP_CONF_DIR")
     run(sparkConf, parsedArguments, hadoopConfDir)
   }
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/HadoopConfigBootstrapStep.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/HadoopConfigBootstrapStep.scala
@@ -23,9 +23,11 @@ import io.fabric8.kubernetes.api.model.ConfigMapBuilder
 import org.apache.spark.deploy.kubernetes.constants._
 import org.apache.spark.deploy.kubernetes.submit.submitsteps.hadoopsteps.{HadoopConfigSpec, HadoopConfigurationStep}
 
-
  /**
-  * Configures the driverSpec that bootstraps dependencies into the driver pod.
+  * This class configures the driverSpec with hadoop configuration logic which includes
+  * volume mounts, config maps, and environment variable manipulation. The steps are
+  * resolved with the orchestrator and they are run modifying the HadoopSpec with each
+  * step. The final HadoopSpec's contents will be appended to the driverSpec.
   */
 private[spark] class HadoopConfigBootstrapStep(
   hadoopConfigurationSteps: Seq[HadoopConfigurationStep],
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HDFSDelegationToken.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HDFSDelegationToken.scala
@@ -16,4 +16,8 @@
  */
 package org.apache.spark.deploy.kubernetes.submit.submitsteps.hadoopsteps
 
+ /**
+  * This case class contain the information that is important to be stored for
+  * delegation token logic
+  */
 private[spark] case class HDFSDelegationToken(bytes: Array[Byte], renewal: Long)
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HadoopConfMounterStep.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HadoopConfMounterStep.scala
@@ -24,7 +24,11 @@ import org.apache.spark.deploy.kubernetes.{HadoopConfBootstrap, PodWithMainConta
 import org.apache.spark.deploy.kubernetes.constants._
 
  /**
-  * Step that configures the ConfigMap + Volumes for the driver
+  * This step is responsible for taking the contents from each file in
+  * HADOOP_CONF_DIR, grabbing its contents as a string and storing each of them
+  * as a key-value pair in a configmap. Each key-value pair will be stored
+  * as a file, via Volume Mounts, later. The HADOOP_CONF_DIR_LOC is passed into the
+  * SchedulerBackend via sparkConf.
   */
 private[spark] class HadoopConfMounterStep(
     hadoopConfigMapName: String,
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HadoopConfigSpec.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HadoopConfigSpec.scala
@@ -28,7 +28,7 @@ import io.fabric8.kubernetes.api.model.{Container, Pod, Secret}
   *   the hadoop logic needs)
   * - The properties that will be stored into the config map which have (key, value)
   *   pairs of (path, data)
-  * - The secret containing a DT, either previously specified or re-built
+  * - The secret containing a DT, either previously specified or built on the fly
   */
 private[spark] case class HadoopConfigSpec(
   additionalDriverSparkConf: Map[String, String],
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HadoopConfigurationStep.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HadoopConfigurationStep.scala
@@ -17,7 +17,7 @@
 package org.apache.spark.deploy.kubernetes.submit.submitsteps.hadoopsteps
 
  /**
-  * Represents a step in preparing the driver
+  * Represents a step in preparing the driver with Hadoop Configuration logic.
   */
 private[spark] trait HadoopConfigurationStep {
 
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HadoopKerberosKeytabResolverStep.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HadoopKerberosKeytabResolverStep.scala
@@ -31,16 +31,22 @@ import org.apache.hadoop.security.token.{Token, TokenIdentifier}
 import org.apache.hadoop.security.token.delegation.AbstractDelegationTokenIdentifier
 
 import org.apache.spark.SparkConf
-
-import org.apache.spark.deploy.SparkHadoopUtil
 import org.apache.spark.deploy.kubernetes.{KerberosConfBootstrapImpl, PodWithMainContainer}
 import org.apache.spark.deploy.kubernetes.constants._
+import org.apache.spark.deploy.SparkHadoopUtil
 import org.apache.spark.internal.Logging
 
-
-
  /**
-  * Step that configures the ConfigMap + Volumes for the driver
+  * This step does all the heavy lifting for Delegation Token logic. This step
+  * assumes that the job user has either specified a principal and keytab or ran
+  * $kinit before running spark-submit. With a TGT stored locally, by running
+  * UGI.getCurrentUser you are able to obtain the current user, alternatively
+  * you can run UGI.logingUserFromKeytabAndReturnUGI and by running .doAs run
+  * as the logged into user instead of the current user. With the Job User principal
+  * you then retrieve the delegation token from the NameNode and store values in
+  * DelegationToken. Lastly, the class puts the data into a secret. All this is
+  * appended to the current HadoopSpec which in turn will append to the current
+  * DriverSpec.
   */
 private[spark] class HadoopKerberosKeytabResolverStep(
   submissionSparkConf: SparkConf,
@@ -96,7 +102,8 @@ private[spark] class HadoopKerberosKeytabResolverStep(
     val data = serialize(renewedCredentials)
     val renewalTime = getTokenRenewalInterval(renewedTokens, hadoopConf).getOrElse(Long.MaxValue)
     val delegationToken = HDFSDelegationToken(data, renewalTime)
-    val initialTokenLabelName = s"$KERBEROS_SECRET_LABEL_PREFIX-1-$renewalTime"
+    val currentTime: Long = System.currentTimeMillis()
+    val initialTokenLabelName = s"$KERBEROS_SECRET_LABEL_PREFIX-$currentTime-$renewalTime"
     logInfo(s"Storing dt in $initialTokenLabelName")
     val secretDT =
       new SecretBuilder()
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HadoopKerberosSecretResolverStep.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HadoopKerberosSecretResolverStep.scala
@@ -20,10 +20,14 @@ import org.apache.spark.SparkConf
 import org.apache.spark.deploy.kubernetes.{KerberosConfBootstrapImpl, PodWithMainContainer}
 
  /**
-  * Step that configures the ConfigMap + Volumes for the driver
+  * This step assumes that you have already done all the heavy lifting in retrieving a
+  * delegation token and storing the following data in a secret before running this job.
+  * This step requires that you just specify the secret name and label corresponding to the
+  * data where the delegation token is stored.
   */
 private[spark] class HadoopKerberosSecretResolverStep(
   submissionSparkConf: SparkConf,
+  tokenSecretName: String,
   tokenLabelName: String) extends HadoopConfigurationStep {
 
   override def configureContainers(hadoopConfigSpec: HadoopConfigSpec): HadoopConfigSpec = {
diff --git a/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HadoopStepsOrchestrator.scala b/resource-managers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/submitsteps/hadoopsteps/HadoopStepsOrchestrator.scala
@@ -35,7 +35,9 @@ private[spark] class HadoopStepsOrchestrator(
   private val maybePrincipal = submissionSparkConf.get(KUBERNETES_KERBEROS_PRINCIPAL)
   private val maybeKeytab = submissionSparkConf.get(KUBERNETES_KERBEROS_KEYTAB)
     .map(k => new File(k))
-  private val maybeExistingSecret = submissionSparkConf.get(KUBERNETES_KERBEROS_DT_SECRET)
+  private val maybeExistingSecret = submissionSparkConf.get(KUBERNETES_KERBEROS_DT_SECRET_NAME)
+  private val maybeExistingSecretLabel =
+    submissionSparkConf.get(KUBERNETES_KERBEROS_DT_SECRET_LABEL)
   private val hadoopConfigurationFiles = hadoopConfDir.map(conf => getHadoopConfFiles(conf))
      .getOrElse(Seq.empty[File])
 
@@ -52,7 +54,8 @@ private[spark] class HadoopStepsOrchestrator(
       if (maybeKerberosSupport) {
         maybeExistingSecret.map(secretLabel => Some(new HadoopKerberosSecretResolverStep(
          submissionSparkConf,
-         secretLabel))).getOrElse(Some(
+          secretLabel,
+          maybeExistingSecretLabel))).getOrElse(Some(
             new HadoopKerberosKeytabResolverStep(
               submissionSparkConf,
               maybePrincipal,
diff --git a/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/KerberizedHadoopClusterLauncher.scala b/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/KerberizedHadoopClusterLauncher.scala
@@ -21,21 +21,30 @@ import io.fabric8.kubernetes.client.KubernetesClient
 import org.apache.spark.deploy.kubernetes.integrationtest.kerberos._
 
  /**
-  * Stuff
+  * This class is responsible for launching a psuedo-distributed, single noded,
+  * kerberized, Hadoop cluster to test secure HDFS interaction. Because each node:
+  * kdc, data node, and name node rely on Persistent Volumes and Config Maps to be set,
+  * and a particular order in pod-launching, this class leverages Watchers and thread locks
+  * to ensure that order is always preserved and the cluster is the same for every run.
   */
 private[spark] class KerberizedHadoopClusterLauncher(
     kubernetesClient: KubernetesClient,
     namespace: String) {
    private val LABELS = Map("job" -> "kerberostest")
 
    def launchKerberizedCluster(): Unit = {
+     // These Utils allow for each step in this launch process to re-use
+     // common functionality for setting up hadoop nodes.
      val kerberosUtils = new KerberosUtils(kubernetesClient, namespace)
+     // Launches persistent volumes and its claims for sharing keytabs across pods
      val pvWatcherCache = new KerberosPVWatcherCache(kerberosUtils, LABELS)
      pvWatcherCache.start()
      pvWatcherCache.stop()
+     // Launches config map for the files in HADOOP_CONF_DIR
      val cmWatcherCache = new KerberosCMWatcherCache(kerberosUtils)
      cmWatcherCache.start()
      cmWatcherCache.stop()
+     // Launches the Hadoop cluster pods: KDC --> NN --> DN1 --> Data-Populator
      val podWatcherCache = new KerberosPodWatcherCache(kerberosUtils, LABELS)
      podWatcherCache.start()
      podWatcherCache.stop()
diff --git a/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/KerberosTestPodLauncher.scala b/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/KerberosTestPodLauncher.scala
@@ -27,7 +27,10 @@ import io.fabric8.kubernetes.client.KubernetesClient
 import org.apache.spark.deploy.kubernetes.submit.ContainerNameEqualityPredicate
 
  /**
-  * Stuff
+  * This class is responsible for launching a pod that runs spark-submit to simulate
+  * the necessary global environmental variables and files expected for a Kerberos task.
+  * In this test we specify HADOOP_CONF_DIR and ensure that for any arbitrary namespace
+  * the krb5.conf, core-site.xml, and hdfs-site.xml are resolved accordingly.
   */
 private[spark] class KerberosTestPodLauncher(
   kubernetesClient: KubernetesClient,
diff --git a/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/KubernetesSuite.scala b/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/KubernetesSuite.scala
@@ -73,21 +73,21 @@ private[spark] class KubernetesSuite extends SparkFunSuite with BeforeAndAfter {
 
   after {
     kubernetesTestComponents.deleteKubernetesResources()
-    // kubernetesTestComponents.deleteNamespace()
+    kubernetesTestComponents.deleteNamespace()
   }
 
-//  test("Include HADOOP_CONF for HDFS based jobs") {
-//    assume(testBackend.name == MINIKUBE_TEST_BACKEND)
-//    // Ensuring that HADOOP_CONF_DIR variable is set, could also be one via env HADOOP_CONF_DIR
-//    sparkConf.setJars(Seq(CONTAINER_LOCAL_HELPER_JAR_PATH))
-//    runSparkApplicationAndVerifyCompletion(
-//      JavaMainAppResource(CONTAINER_LOCAL_MAIN_APP_RESOURCE),
-//      SPARK_PI_MAIN_CLASS,
-//      Seq("HADOOP_CONF_DIR defined. Mounting HDFS specific .xml files", "Pi is roughly 3"),
-//      Array("5"),
-//      Seq.empty[String],
-//      Some("src/test/resources"))
-//  }
+  test("Include HADOOP_CONF for HDFS based jobs") {
+    assume(testBackend.name == MINIKUBE_TEST_BACKEND)
+    // Ensuring that HADOOP_CONF_DIR variable is set, could also be one via env HADOOP_CONF_DIR
+    sparkConf.setJars(Seq(CONTAINER_LOCAL_HELPER_JAR_PATH))
+    runSparkApplicationAndVerifyCompletion(
+      JavaMainAppResource(CONTAINER_LOCAL_MAIN_APP_RESOURCE),
+      SPARK_PI_MAIN_CLASS,
+      Seq("HADOOP_CONF_DIR defined. Mounting HDFS specific .xml files", "Pi is roughly 3"),
+      Array("5"),
+      Seq.empty[String],
+      Some("src/test/resources"))
+  }
 
   test("Secure HDFS test with HDFS keytab") {
     assume(testBackend.name == MINIKUBE_TEST_BACKEND)
diff --git a/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/kerberos/KerberosCMWatcherCache.scala b/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/kerberos/KerberosCMWatcherCache.scala
@@ -27,6 +27,10 @@ import io.fabric8.kubernetes.client.Watcher.Action
 
 import org.apache.spark.internal.Logging
 
+ /**
+  * This class is responsible for ensuring that no logic progresses in the cluster launcher
+  * until a configmap with the HADOOP_CONF_DIR specifications has been created.
+  */
 private[spark] class KerberosCMWatcherCache(kerberosUtils: KerberosUtils) extends Logging {
   private val kubernetesClient = kerberosUtils.getClient
   private val namespace = kerberosUtils.getNamespace
diff --git a/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/kerberos/KerberosDriverWatcherCache.scala b/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/kerberos/KerberosDriverWatcherCache.scala
@@ -27,6 +27,10 @@ import io.fabric8.kubernetes.client.Watcher.Action
 
 import org.apache.spark.internal.Logging
 
+ /**
+  * This class is responsible for ensuring that the driver-pod launched by the KerberosTestPod
+  * is running before trying to grab its logs for the sake of monitoring success of completition.
+  */
 private[spark] class KerberosDriverWatcherCache(
   kubernetesClient: KubernetesClient,
   labels: Map[String, String]) extends Logging {
diff --git a/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/kerberos/KerberosPVWatcherCache.scala b/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/kerberos/KerberosPVWatcherCache.scala
@@ -27,7 +27,11 @@ import io.fabric8.kubernetes.client.Watcher.Action
 
 import org.apache.spark.internal.Logging
 
-
+ /**
+  * This class is responsible for ensuring that the persistent volume claims are bounded
+  * to the correct persistent volume and that they are both created before launching the
+  * pods which expect to use them.
+  */
 private[spark] class KerberosPVWatcherCache(
     kerberosUtils: KerberosUtils,
     labels: Map[String, String]) extends Logging {
diff --git a/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/kerberos/KerberosPodWatcherCache.scala b/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/kerberos/KerberosPodWatcherCache.scala
diff --git a/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/kerberos/KerberosUtils.scala b/resource-managers/kubernetes/integration-tests/src/test/scala/org/apache/spark/deploy/kubernetes/integrationtest/kerberos/KerberosUtils.scala

Original file line number	Diff line number	Diff line change
`@@ -198,6 +198,8 @@ private[spark] object Client {`
`198`	`198`	`def main(args: Array[String]): Unit = {`
`199`	`199`	`val parsedArguments = ClientArguments.fromCommandLineArgs(args)`
`200`	`200`	`val sparkConf = new SparkConf()`
	`201`	`+ // hadoopConfDir is passed into Client#run() to allow for us to`
	`202`	`+ // test this env variable within the integration test environment`
`201`	`203`	`val hadoopConfDir = sys.env.get("HADOOP_CONF_DIR")`
`202`	`204`	`run(sparkConf, parsedArguments, hadoopConfDir)`
`203`	`205`	`}`