a spark instrumentation poc to collect table dataset run by spark sql

yiliangzhou · yiliangzhou · commit 9292a6c4b99c · 2024-12-20T13:54:45.000-05:00
diff --git a/dd-java-agent/instrumentation/spark/build.gradle b/dd-java-agent/instrumentation/spark/build.gradle
@@ -7,8 +7,8 @@ configurations.all {
   resolutionStrategy.deactivateDependencyLocking()
 }
 dependencies {
-  compileOnly group: 'org.apache.spark', name: 'spark-core_2.12', version: '2.4.0'
-  compileOnly group: 'org.apache.spark', name: 'spark-sql_2.12', version: '2.4.0'
+  compileOnly group: 'org.apache.spark', name: 'spark-core_2.12', version: '3.5.1'
+  compileOnly group: 'org.apache.spark', name: 'spark-sql_2.12', version: '3.5.1'
 
   testFixturesImplementation group: 'com.datadoghq', name: 'sketches-java', version: '0.8.2'
   testFixturesImplementation group: 'com.google.protobuf', name: 'protobuf-java', version: '3.14.0'
@@ -17,7 +17,7 @@ dependencies {
   testFixturesApi project(':dd-java-agent:instrumentation:trace-annotation')
   testFixturesApi project(':dd-java-agent:testing')
 
-  testFixturesCompileOnly group: 'org.apache.spark', name: 'spark-core_2.12', version: '2.4.0'
-  testFixturesCompileOnly group: 'org.apache.spark', name: 'spark-sql_2.12', version: '2.4.0'
-  testFixturesCompileOnly group: 'org.apache.spark', name: 'spark-yarn_2.12', version: '2.4.0'
+  testFixturesCompileOnly group: 'org.apache.spark', name: 'spark-core_2.12', version: '3.5.1'
+  testFixturesCompileOnly group: 'org.apache.spark', name: 'spark-sql_2.12', version: '3.5.1'
+  testFixturesCompileOnly group: 'org.apache.spark', name: 'spark-yarn_2.12', version: '3.5.1'
 }
diff --git a/dd-java-agent/instrumentation/spark/spark_2.12/build.gradle b/dd-java-agent/instrumentation/spark/spark_2.12/build.gradle
@@ -2,7 +2,7 @@ plugins {
   id 'java-test-fixtures'
 }
 
-def sparkVersion = '2.4.0'
+def sparkVersion = '3.5.1'
 def scalaVersion = '2.12'
 
 muzzle {
@@ -41,13 +41,13 @@ dependencies {
   testImplementation group: 'org.apache.spark', name: "spark-sql_$scalaVersion", version: "$sparkVersion"
   testImplementation group: 'org.apache.spark', name: "spark-yarn_$scalaVersion", version: "$sparkVersion"
 
-  test_spark24Implementation group: 'org.apache.spark', name: "spark-core_$scalaVersion", version: "2.4.8"
-  test_spark24Implementation group: 'org.apache.spark', name: "spark-sql_$scalaVersion", version: "2.4.8"
-  test_spark24Implementation group: 'org.apache.spark', name: "spark-yarn_$scalaVersion", version: "2.4.8"
+  test_spark24Implementation group: 'org.apache.spark', name: "spark-core_$scalaVersion", version: "3.5.1"
+  test_spark24Implementation group: 'org.apache.spark', name: "spark-sql_$scalaVersion", version: "3.5.1"
+  test_spark24Implementation group: 'org.apache.spark', name: "spark-yarn_$scalaVersion", version: "3.5.1"
 
-  test_spark32Implementation group: 'org.apache.spark', name: "spark-core_$scalaVersion", version: "3.2.4"
-  test_spark32Implementation group: 'org.apache.spark', name: "spark-sql_$scalaVersion", version: "3.2.4"
-  test_spark32Implementation group: 'org.apache.spark', name: "spark-yarn_$scalaVersion", version: "3.2.4"
+  test_spark32Implementation group: 'org.apache.spark', name: "spark-core_$scalaVersion", version: "3.5.1"
+  test_spark32Implementation group: 'org.apache.spark', name: "spark-sql_$scalaVersion", version: "3.5.1"
+  test_spark32Implementation group: 'org.apache.spark', name: "spark-yarn_$scalaVersion", version: "3.5.1"
   // We do not support netty versions older than this because of a change to the number of parameters to the
   // PooledByteBufAllocator constructor. See this PR where the new constructor (the only one we support) was introduced:
   // https://github.com/netty/netty/pull/10267
diff --git a/dd-java-agent/instrumentation/spark/spark_2.12/src/main/java/datadog/trace/instrumentation/spark/Spark212Instrumentation.java b/dd-java-agent/instrumentation/spark/spark_2.12/src/main/java/datadog/trace/instrumentation/spark/Spark212Instrumentation.java
@@ -23,6 +23,9 @@ public String[] helperClassNames() {
       packageName + ".SparkSQLUtils",
       packageName + ".SparkSQLUtils$SparkPlanInfoForStage",
       packageName + ".SparkSQLUtils$AccumulatorWithStage",
+      packageName + ".SparkSQLUtils$LineageDataset",
+      packageName + ".SparkSQLUtils$1",
+      packageName + ".SparkSQLUtils$2",
     };
   }
 
diff --git a/dd-java-agent/instrumentation/spark/spark_2.13/src/main/java/datadog/trace/instrumentation/spark/Spark213Instrumentation.java b/dd-java-agent/instrumentation/spark/spark_2.13/src/main/java/datadog/trace/instrumentation/spark/Spark213Instrumentation.java
@@ -23,6 +23,9 @@ public String[] helperClassNames() {
       packageName + ".SparkSQLUtils",
       packageName + ".SparkSQLUtils$SparkPlanInfoForStage",
       packageName + ".SparkSQLUtils$AccumulatorWithStage",
+      packageName + ".SparkSQLUtils$LineageDataset",
+      packageName + ".SparkSQLUtils$1",
+      packageName + ".SparkSQLUtils$2",
     };
   }
 
diff --git a/dd-java-agent/instrumentation/spark/src/main/java/datadog/trace/instrumentation/spark/AbstractDatadogSparkListener.java b/dd-java-agent/instrumentation/spark/src/main/java/datadog/trace/instrumentation/spark/AbstractDatadogSparkListener.java
@@ -39,6 +39,8 @@
 import org.apache.spark.SparkConf;
 import org.apache.spark.TaskFailedReason;
 import org.apache.spark.scheduler.*;
+import org.apache.spark.sql.catalyst.plans.logical.LogicalPlan;
+import org.apache.spark.sql.execution.QueryExecution;
 import org.apache.spark.sql.execution.SQLExecution;
 import org.apache.spark.sql.execution.SparkPlanInfo;
 import org.apache.spark.sql.execution.metric.SQLMetricInfo;
@@ -102,6 +104,8 @@ public abstract class AbstractDatadogSparkListener extends SparkListener {
   protected final HashMap<Long, SparkPlanInfo> sqlPlans = new HashMap<>();
   private final HashMap<String, SparkListenerExecutorAdded> liveExecutors = new HashMap<>();
 
+  private final HashMap<Long, List<SparkSQLUtils.LineageDataset>> lineageDatasets = new HashMap<>();
+
   // There is no easy way to know if an accumulator is not useful anymore (meaning it is not part of
   // an active SQL query)
   // so capping the size of the collection storing them
@@ -752,11 +756,49 @@ private synchronized void updateAdaptiveSQLPlan(SparkListenerEvent event) {
   private synchronized void onSQLExecutionStart(SparkListenerSQLExecutionStart sqlStart) {
     sqlPlans.put(sqlStart.executionId(), sqlStart.sparkPlanInfo());
     sqlQueries.put(sqlStart.executionId(), sqlStart);
+
+    long sqlExecutionId = sqlStart.executionId();
+    QueryExecution queryExecution = SQLExecution.getQueryExecution(sqlExecutionId);
+    if (queryExecution != null) {
+      LogicalPlan logicalPlan = queryExecution.analyzed();
+
+      log.info("Logical plan for query execution id {}: {}", sqlExecutionId, logicalPlan);
+
+      if (logicalPlan != null) {
+        //        Collection<DataSourceV2Relation> relations =
+        // JavaConverters.asJavaCollection(logicalPlan.collect(SparkSQLUtils.pf));
+        //        List<SparkSQLUtils.LineageDataset> datasets = new ArrayList<>();
+        //
+        //        for (DataSourceV2Relation relation : relations) {
+        //          String name = relation.table().name();
+        //          String schema = relation.schema().json();
+        //          String stats = relation.stats().toString();
+        //          String properties = relation.table().properties().toString();
+        //
+        //          datasets.add(new SparkSQLUtils.LineageDataset(name, schema, stats, properties));
+        //        }
+
+        List<SparkSQLUtils.LineageDataset> datasets =
+            JavaConverters.seqAsJavaList(logicalPlan.collect(SparkSQLUtils.logicalPlanToDataset));
+        if (!datasets.isEmpty()) {
+          lineageDatasets.put(sqlExecutionId, datasets);
+        }
+
+        //        if (relations.isEmpty()) {
+        //          log.info("No DataSourceV2Relation found for query execution id {}",
+        // sqlExecutionId);
+        //        }
+      }
+    } else {
+      log.warn("Start: QueryExecution not found for sqlEnd queryExecutionId: {}", sqlExecutionId);
+    }
   }
 
   private synchronized void onSQLExecutionEnd(SparkListenerSQLExecutionEnd sqlEnd) {
     AgentSpan span = sqlSpans.remove(sqlEnd.executionId());
     SparkAggregatedTaskMetrics metrics = sqlMetrics.remove(sqlEnd.executionId());
+    List<SparkSQLUtils.LineageDataset> datasets = lineageDatasets.remove(sqlEnd.executionId());
+
     sqlQueries.remove(sqlEnd.executionId());
     sqlPlans.remove(sqlEnd.executionId());
 
@@ -765,6 +807,24 @@ private synchronized void onSQLExecutionEnd(SparkListenerSQLExecutionEnd sqlEnd)
         metrics.setSpanMetrics(span);
       }
 
+      if (datasets != null) {
+        log.info(
+            "adding {} datasets to span for query execution id {}",
+            datasets.size(),
+            sqlEnd.executionId());
+
+        // iterate over the datasets with index
+        for (int i = 0; i < datasets.size(); i++) {
+          SparkSQLUtils.LineageDataset dataset = datasets.get(i);
+
+          span.setTag("dataset." + i + ".name", dataset.name);
+          span.setTag("dataset." + i + ".schema", dataset.schema);
+          span.setTag("dataset." + i + ".stats", dataset.stats);
+          span.setTag("dataset." + i + ".properties", dataset.properties);
+          span.setTag("dataset." + i + ".type", dataset.type);
+        }
+      }
+
       span.finish(sqlEnd.time() * 1000);
     }
   }
diff --git a/dd-java-agent/instrumentation/spark/src/main/java/datadog/trace/instrumentation/spark/SparkSQLUtils.java b/dd-java-agent/instrumentation/spark/src/main/java/datadog/trace/instrumentation/spark/SparkSQLUtils.java
@@ -14,12 +14,20 @@
 import java.util.Map;
 import java.util.Set;
 import org.apache.spark.scheduler.AccumulableInfo;
+import org.apache.spark.sql.catalyst.plans.logical.AppendData;
+import org.apache.spark.sql.catalyst.plans.logical.LogicalPlan;
 import org.apache.spark.sql.execution.SparkPlanInfo;
+import org.apache.spark.sql.execution.datasources.v2.DataSourceV2Relation;
 import org.apache.spark.sql.execution.metric.SQLMetricInfo;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+import scala.PartialFunction;
 import scala.Tuple2;
 import scala.collection.JavaConverters;
 
 public class SparkSQLUtils {
+  private static final Logger log = LoggerFactory.getLogger(SparkSQLUtils.class);
+
   public static void addSQLPlanToStageSpan(
       AgentSpan span,
       SparkPlanInfo plan,
@@ -206,4 +214,81 @@ private void toJson(JsonGenerator generator, Map<Long, AccumulatorWithStage> acc
       generator.writeEndObject();
     }
   }
+
+  static class LineageDataset {
+    final String name;
+    final String schema;
+    final String properties;
+    final String stats;
+    final String type;
+
+    public LineageDataset(
+        String name, String schema, String stats, String properties, String type) {
+      this.name = name;
+      this.schema = schema;
+      this.properties = properties;
+      this.stats = stats;
+      this.type = type;
+    }
+
+    public LineageDataset(String name, String schema, String stats, String properties) {
+      this.name = name;
+      this.schema = schema;
+      this.properties = properties;
+      this.stats = stats;
+      this.type = "unknown";
+    }
+  }
+
+  static PartialFunction<LogicalPlan, DataSourceV2Relation> pf =
+      new PartialFunction<LogicalPlan, DataSourceV2Relation>() {
+        @Override
+        public boolean isDefinedAt(LogicalPlan x) {
+          return x instanceof DataSourceV2Relation;
+        }
+
+        @Override
+        public DataSourceV2Relation apply(LogicalPlan x) {
+          return (DataSourceV2Relation) x;
+        }
+      };
+
+  static PartialFunction<LogicalPlan, LineageDataset> logicalPlanToDataset =
+      new PartialFunction<LogicalPlan, LineageDataset>() {
+        @Override
+        public boolean isDefinedAt(LogicalPlan x) {
+          return x instanceof DataSourceV2Relation
+              || (x instanceof AppendData
+                  && ((AppendData) x).table() instanceof DataSourceV2Relation);
+        }
+
+        @Override
+        public LineageDataset apply(LogicalPlan x) {
+          try {
+            if (x instanceof DataSourceV2Relation) {
+              DataSourceV2Relation relation = (DataSourceV2Relation) x;
+              return new LineageDataset(
+                  relation.table().name(),
+                  relation.schema().json(),
+                  "",
+                  relation.table().properties().toString(),
+                  "input");
+            } else if (x instanceof AppendData) {
+              AppendData appendData = (AppendData) x;
+              DataSourceV2Relation relation = (DataSourceV2Relation) appendData.table();
+              return new LineageDataset(
+                  relation.table().name(),
+                  relation.schema().json(),
+                  "",
+                  relation.table().properties().toString(),
+                  "output");
+            }
+          } catch (Exception e) {
+            log.debug("Error while converting logical plan to dataset", e);
+            return null;
+          }
+
+          return null;
+        }
+      };
 }

Original file line number	Diff line number	Diff line change
`@@ -23,6 +23,9 @@ public String[] helperClassNames() {`
`23`	`23`	`packageName + ".SparkSQLUtils",`
`24`	`24`	`packageName + ".SparkSQLUtils$SparkPlanInfoForStage",`
`25`	`25`	`packageName + ".SparkSQLUtils$AccumulatorWithStage",`
	`26`	`+ packageName + ".SparkSQLUtils$LineageDataset",`
	`27`	`+ packageName + ".SparkSQLUtils$1",`
	`28`	`+ packageName + ".SparkSQLUtils$2",`
`26`	`29`	`};`
`27`	`30`	`}`
`28`	`31`