Default profiles are on by default (apache-spark-on-k8s#486)

robert3005 · bulldozer-bot[bot] · commit 5f203cdd1eca · 2019-02-26T12:53:06.000Z
This avoids annoying issues with IDE integration and building where you have to remember incantation to run correct combination. This entails following changes

* Hadoop default changed from 2.7.4 to 2.9.1
* yarn, kubernetes, hadoop-cloud and kinesis modules are on by default

SparkR is left out since it requries a bit more invasive changes to enable by default
diff --git a/.circleci/config.yml b/.circleci/config.yml
@@ -149,7 +149,7 @@ jobs:
           keys:
             - build-binaries-{{ checksum "build/mvn" }}-{{ checksum "build/sbt" }}
             - build-binaries-
-      - run: ./build/mvn -DskipTests -Phadoop-cloud -Phadoop-palantir -Pkinesis-asl -Pkubernetes -Pyarn -Psparkr install
+      - run: ./build/mvn -DskipTests -Psparkr install
       # Get sbt to run trivially, ensures its launcher is downloaded under build/
       - run: ./build/sbt -h || true
       - save_cache:
diff --git a/assembly/pom.xml b/assembly/pom.xml
@@ -79,7 +79,29 @@
       <artifactId>spark-avro_${scala.binary.version}</artifactId>
       <version>${project.version}</version>
     </dependency>
-
+    <dependency>
+      <groupId>org.apache.spark</groupId>
+      <artifactId>spark-hadoop-cloud_${scala.binary.version}</artifactId>
+      <version>${project.version}</version>
+    </dependency>
+    <!--
+    Redeclare this dependency to force it into the distribution.
+    -->
+    <dependency>
+      <groupId>org.eclipse.jetty</groupId>
+      <artifactId>jetty-util</artifactId>
+      <scope>${hadoop.deps.scope}</scope>
+    </dependency>
+    <dependency>
+      <groupId>org.apache.spark</groupId>
+      <artifactId>spark-yarn_${scala.binary.version}</artifactId>
+      <version>${project.version}</version>
+    </dependency>
+    <dependency>
+      <groupId>org.apache.spark</groupId>
+      <artifactId>spark-kubernetes_${scala.binary.version}</artifactId>
+      <version>${project.version}</version>
+    </dependency>
     <!--
       Because we don't shade dependencies anymore, we need to restore Guava to compile scope so
       that the libraries Spark depend on have it available. We'll package the version that Spark
diff --git a/dev/deps/spark-deps-hadoop-palantir b/dev/deps/spark-deps-hadoop-palantir
@@ -19,6 +19,7 @@ avro-1.8.2.jar
 avro-ipc-1.8.2.jar
 avro-mapred-1.8.2-hadoop2.jar
 aws-java-sdk-bundle-1.11.201.jar
+azure-data-lake-store-sdk-2.2.3.jar
 azure-keyvault-core-0.8.0.jar
 azure-storage-5.4.0.jar
 breeze-macros_2.12-0.13.2.jar
@@ -66,6 +67,7 @@ hadoop-annotations-2.9.1-palantir.11.jar
 hadoop-auth-2.9.1-palantir.11.jar
 hadoop-aws-2.9.1-palantir.11.jar
 hadoop-azure-2.9.1-palantir.11.jar
+hadoop-azure-datalake-2.9.1-palantir.11.jar
 hadoop-client-2.9.1-palantir.11.jar
 hadoop-common-2.9.1-palantir.11.jar
 hadoop-hdfs-client-2.9.1-palantir.11.jar
diff --git a/dev/mima b/dev/mima
@@ -24,7 +24,7 @@ set -e
 FWDIR="$(cd "`dirname "$0"`"/..; pwd)"
 cd "$FWDIR"
 
-SPARK_PROFILES="-Phadoop-palantir -Pmesos -Phadoop-cloud -Pkubernetes -Pyarn -Pspark-ganglia-lgpl -Pkinesis-asl -Phive-thriftserver -Phive"
+SPARK_PROFILES="-Pmesos -Pkubernetes -Pyarn -Pspark-ganglia-lgpl -Pkinesis-asl -Phive-thriftserver -Phive"
 TOOLS_CLASSPATH="$(build/sbt -DcopyDependencies=false "export tools/fullClasspath" | tail -n1)"
 OLD_DEPS_CLASSPATH="$(build/sbt -DcopyDependencies=false $SPARK_PROFILES "export oldDeps/fullClasspath" | tail -n1)"
 
diff --git a/dev/publish-local.sh b/dev/publish-local.sh
@@ -1,27 +1,14 @@
 #!/usr/bin/env bash
 
 set -euo pipefail
-version=$(git describe --tags --first-parent)
-
-PALANTIR_FLAGS=(-Phadoop-cloud -Phadoop-palantir -Pkinesis-asl -Pkubernetes -Pyarn -Psparkr)
 
+FWDIR="$(cd "`dirname "${BASH_SOURCE[0]}"`"; pwd)"
 MVN_LOCAL=~/.m2/repository
 
-publish_artifacts() {
-  ./build/mvn versions:set -DnewVersion=$version
-  ./build/mvn -DskipTests "${PALANTIR_FLAGS[@]}" install
-}
+source "$FWDIR/publish_functions.sh"
 
-make_dist() {
-  build_flags="$1"
-  shift 1
-  hadoop_name="hadoop-palantir"
-  artifact_name="spark-dist_2.12-${hadoop_name}"
-  file_name="spark-dist-${version}-${hadoop_name}.tgz"
-  ./dev/make-distribution.sh --name "hadoop-palantir" --tgz "$@" $build_flags
-  mkdir -p $MVN_LOCAL/org/apache/spark/${artifact_name}/${version} && \
-  cp $file_name $MVN_LOCAL/org/apache/spark/${artifact_name}/${version}/${artifact_name}-${version}.tgz
-}
+set_version_and_install
+DONT_BUILD=true make_dist
+mkdir -p $MVN_LOCAL/org/apache/spark/${artifact_name}/${version}
+cp $file_name $MVN_LOCAL/org/apache/spark/${artifact_name}/${version}/${artifact_name}-${version}.tgz
 
-publish_artifacts
-make_dist "${PALANTIR_FLAGS[*]}"
diff --git a/dev/publish.sh b/dev/publish.sh
@@ -7,4 +7,4 @@ FWDIR="$(cd "`dirname "${BASH_SOURCE[0]}"`"; pwd)"
 source "$FWDIR/publish_functions.sh"
 
 publish_artifacts | tee -a "/tmp/publish_artifacts.log"
-DONT_BUILD=true make_dist "${PALANTIR_FLAGS[*]}" | tee -a "/tmp/make-dist.log"
+DONT_BUILD=true make_dist_and_deploy | tee -a "/tmp/make-dist.log"
diff --git a/dev/publish_functions.sh b/dev/publish_functions.sh
@@ -2,7 +2,7 @@
 
 set -euo pipefail
 
-PALANTIR_FLAGS=(-Phadoop-cloud -Phadoop-palantir -Pkinesis-asl -Pkubernetes -Pyarn -Psparkr)
+PALANTIR_FLAGS=(-Psparkr)
 
 get_version() {
   git describe --tags --first-parent
@@ -14,6 +14,12 @@ set_version_and_package() {
   ./build/mvn -DskipTests "${PALANTIR_FLAGS[@]}" package
 }
 
+set_version_and_install() {
+  version=$(get_version)
+  ./build/mvn versions:set -DnewVersion="$version"
+  ./build/mvn -DskipTests "${PALANTIR_FLAGS[@]}" install
+}
+
 publish_artifacts() {
   tmp_settings="tmp-settings.xml"
   echo "<settings><servers><server>" > $tmp_settings
@@ -25,13 +31,15 @@ publish_artifacts() {
 }
 
 make_dist() {
-  build_flags="$1"
-  shift 1
   version=$(get_version)
   hadoop_name="hadoop-palantir"
   artifact_name="spark-dist_2.12-${hadoop_name}"
   file_name="spark-dist-${version}-${hadoop_name}.tgz"
-  ./dev/make-distribution.sh --name "hadoop-palantir" --tgz "$@" $build_flags
+  ./dev/make-distribution.sh --name "hadoop-palantir" --tgz "$@" "${PALANTIR_FLAGS[@]}"
+}
+
+make_dist_and_deploy() {
+  make_dist
   curl -u $BINTRAY_USERNAME:$BINTRAY_PASSWORD -T "$file_name" "https://api.bintray.com/content/palantir/releases/spark/${version}/org/apache/spark/${artifact_name}/${version}/${artifact_name}-${version}.tgz"
   curl -u $BINTRAY_USERNAME:$BINTRAY_PASSWORD -X POST "https://api.bintray.com/content/palantir/releases/spark/${version}/publish"
 }
diff --git a/dev/sbt-checkstyle b/dev/sbt-checkstyle
@@ -21,7 +21,6 @@
 # with failure (either resolution or compilation); the "q" makes SBT quit.
 ERRORS=$(echo -e "q\n" \
     | build/sbt \
-        -Phadoop-palantir \
         -Pkinesis-asl \
         -Pmesos \
         -Pkubernetes \
diff --git a/dev/test-dependencies.sh b/dev/test-dependencies.sh
@@ -29,7 +29,7 @@ export LC_ALL=C
 # TODO: This would be much nicer to do in SBT, once SBT supports Maven-style resolution.
 
 # NOTE: These should match those in the release publishing script
-HADOOP2_MODULE_PROFILES="-Phadoop-cloud -Pkubernetes -Pkinesis-asl -Pyarn"
+HADOOP2_MODULE_PROFILES=""
 MVN="build/mvn"
 HADOOP_PROFILES=(
     hadoop-palantir
diff --git a/hadoop-cloud/pom.xml b/hadoop-cloud/pom.xml
@@ -138,7 +138,6 @@
     <dependency>
       <groupId>org.apache.hadoop</groupId>
       <artifactId>hadoop-azure</artifactId>
-      <version>${hadoop.version}</version>
       <scope>${hadoop.deps.scope}</scope>
       <exclusions>
         <exclusion>
@@ -159,25 +158,14 @@
         </exclusion>
       </exclusions>
     </dependency>
+    <dependency>
+        <groupId>org.apache.hadoop</groupId>
+        <artifactId>hadoop-azure-datalake</artifactId>
+        <scope>${hadoop.deps.scope}</scope>
+    </dependency>
   </dependencies>
 
   <profiles>
-    <profile>
-        <id>hadoop-palantir</id>
-        <dependencies>
-            <dependency>
-                <groupId>org.apache.hadoop</groupId>
-                <artifactId>hadoop-azure-datalake</artifactId>
-                <scope>${hadoop.deps.scope}</scope>
-            </dependency>
-            <dependency>
-                <groupId>org.apache.hadoop</groupId>
-                <artifactId>hadoop-azure</artifactId>
-                <scope>${hadoop.deps.scope}</scope>
-            </dependency>
-        </dependencies>
-    </profile>
-
     <!--
      Hadoop 3 simplifies the classpath, and adds a new committer base class which
      enables store-specific committers.
diff --git a/pom.xml b/pom.xml
@@ -82,31 +82,37 @@
   </mailingLists>
 
   <modules>
-    <module>common/sketch</module>
+    <module>assembly</module>
     <module>common/kvstore</module>
     <module>common/network-common</module>
     <module>common/network-shuffle</module>
-    <module>common/unsafe</module>
+    <module>common/network-yarn</module>
+    <module>common/sketch</module>
     <module>common/tags</module>
+    <module>common/unsafe</module>
     <module>core</module>
+    <module>dists/hadoop-palantir-bom</module>
+    <module>dists/hadoop-palantir</module>
+    <module>examples</module>
+    <module>external/avro</module>
+    <module>external/kafka-0-10-assembly</module>
+    <module>external/kafka-0-10-sql</module>
+    <module>external/kafka-0-10</module>
+    <module>external/kinesis-asl-assembly</module>
+    <module>external/kinesis-asl</module>
     <module>graphx</module>
-    <module>mllib</module>
+    <module>hadoop-cloud</module>
+    <module>launcher</module>
     <module>mllib-local</module>
-    <module>tools</module>
-    <module>streaming</module>
+    <module>mllib</module>
+    <module>repl</module>
+    <module>resource-managers/kubernetes/core</module>
+    <module>resource-managers/yarn</module>
     <module>sql/catalyst</module>
     <module>sql/core</module>
     <module>sql/hive</module>
-    <module>assembly</module>
-    <module>examples</module>
-    <module>repl</module>
-    <module>launcher</module>
-    <module>external/kafka-0-10</module>
-    <module>external/kafka-0-10-assembly</module>
-    <module>external/kafka-0-10-sql</module>
-    <module>external/avro</module>
-    <module>dists/hadoop-palantir-bom</module>
-    <module>dists/hadoop-palantir</module>
+    <module>streaming</module>
+    <module>tools</module>
     <!-- See additional modules enabled by profiles below -->
   </modules>
 
@@ -120,7 +126,7 @@
     <sbt.project.name>spark</sbt.project.name>
     <slf4j.version>1.7.25</slf4j.version>
     <log4j.version>1.2.17</log4j.version>
-    <hadoop.version>2.7.4</hadoop.version>
+    <hadoop.version>2.9.1-palantir.11</hadoop.version>
     <protobuf.version>2.5.0</protobuf.version>
     <yarn.version>${hadoop.version}</yarn.version>
     <zookeeper.version>3.4.7</zookeeper.version>
@@ -843,11 +849,6 @@
         <artifactId>jersey-client</artifactId>
         <version>${jersey.version}</version>
       </dependency>
-      <dependency>
-        <groupId>javax.activation</groupId>
-        <artifactId>activation</artifactId>
-        <version>${javax-activation.version}</version>
-      </dependency>
       <dependency>
         <groupId>org.glassfish.jersey.media</groupId>
         <artifactId>jersey-media-multipart</artifactId>
@@ -1141,6 +1142,18 @@
           </exclusion>
         </exclusions>
       </dependency>
+      <dependency>
+        <groupId>org.apache.hadoop</groupId>
+        <artifactId>hadoop-azure-datalake</artifactId>
+        <version>${hadoop.version}</version>
+        <scope>${hadoop.deps.scope}</scope>
+      </dependency>
+      <dependency>
+        <groupId>org.apache.hadoop</groupId>
+        <artifactId>hadoop-azure</artifactId>
+        <version>${hadoop.version}</version>
+        <scope>${hadoop.deps.scope}</scope>
+      </dependency>
       <dependency>
         <groupId>org.apache.avro</groupId>
         <artifactId>avro</artifactId>
@@ -1219,7 +1232,7 @@
       <dependency>
         <groupId>javax.activation</groupId>
         <artifactId>activation</artifactId>
-        <version>1.1.1</version>
+        <version>${javax-activation.version}</version>
         <scope>${hadoop.deps.scope}</scope>
       </dependency>
       <dependency>
@@ -2954,44 +2967,6 @@
 
     <profile>
       <id>hadoop-palantir</id>
-      <properties>
-        <hadoop.version>2.9.1-palantir.11</hadoop.version>
-        <curator.version>2.7.1</curator.version>
-      </properties>
-      <dependencyManagement>
-        <dependencies>
-          <dependency>
-            <groupId>org.apache.hadoop</groupId>
-            <artifactId>hadoop-azure-datalake</artifactId>
-            <version>${hadoop.version}</version>
-            <scope>${hadoop.deps.scope}</scope>
-          </dependency>
-          <!--
-          Hadoop-Azure isn't in Hadoop 2.6, so this has to be made
-          a 2.7+ moodule.
-          -->
-          <dependency>
-            <groupId>org.apache.hadoop</groupId>
-            <artifactId>hadoop-azure</artifactId>
-            <version>${hadoop.version}</version>
-            <scope>${hadoop.deps.scope}</scope>
-            <exclusions>
-              <exclusion>
-                <groupId>org.apache.hadoop</groupId>
-                <artifactId>hadoop-common</artifactId>
-              </exclusion>
-              <exclusion>
-                <groupId>org.codehaus.jackson</groupId>
-                <artifactId>jackson-mapper-asl</artifactId>
-              </exclusion>
-              <exclusion>
-                <groupId>com.fasterxml.jackson.core</groupId>
-                <artifactId>jackson-core</artifactId>
-              </exclusion>
-            </exclusions>
-          </dependency>
-        </dependencies>
-      </dependencyManagement>
     </profile>
 
     <profile>