Remove unused logic to parse children, enrich product parsing to support more types and use JSON arrays

charlesmyu · charlesmyu · commit 94f313939673 · 2025-10-16T09:24:57.000-04:00
diff --git a/dd-java-agent/instrumentation/spark/spark_2.12/src/main/java/datadog/trace/instrumentation/spark/Spark212PlanUtils.java b/dd-java-agent/instrumentation/spark/spark_2.12/src/main/java/datadog/trace/instrumentation/spark/Spark212PlanUtils.java
@@ -1,42 +1,14 @@
 package datadog.trace.instrumentation.spark;
 
-import java.util.ArrayList;
 import java.util.HashMap;
 import java.util.Iterator;
 import java.util.Map;
 import org.apache.spark.sql.execution.SparkPlan;
-import org.apache.spark.sql.execution.exchange.ReusedExchangeExec;
 import scala.collection.JavaConverters;
 
 // An extension of how Spark translates `SparkPlan`s to `SparkPlanInfo`, see here:
 // https://github.com/apache/spark/blob/v3.5.0/sql/core/src/main/scala/org/apache/spark/sql/execution/SparkPlanInfo.scala#L54
 public class Spark212PlanUtils {
-  public static ArrayList<SparkPlan> extractChildren(SparkPlan plan) {
-    /*
-    Get children of this node. Logic in Spark:
-
-    val children = plan match {
-      case ReusedExchangeExec(_, child) => child :: Nil
-      case _ => plan.children ++ plan.subqueries
-    }
-     */
-    ArrayList<SparkPlan> children = new ArrayList<>();
-    if (plan instanceof ReusedExchangeExec) {
-      children.add(((ReusedExchangeExec) plan).child());
-    }
-
-    for (Iterator<SparkPlan> it = JavaConverters.asJavaIterator(plan.subqueries().iterator());
-        it.hasNext(); ) {
-      children.add(it.next());
-    }
-    for (Iterator<SparkPlan> it = JavaConverters.asJavaIterator(plan.children().iterator());
-        it.hasNext(); ) {
-      children.add(it.next());
-    }
-
-    return children;
-  }
-
   public static Map<String, String> extractPlanProduct(SparkPlan plan) {
     HashMap<String, String> args = new HashMap<>();
     HashMap<String, String> unparsed = new HashMap<>();
diff --git a/dd-java-agent/instrumentation/spark/spark_2.13/src/main/java/datadog/trace/instrumentation/spark/Spark213PlanUtils.java b/dd-java-agent/instrumentation/spark/spark_2.13/src/main/java/datadog/trace/instrumentation/spark/Spark213PlanUtils.java
@@ -1,64 +1,14 @@
 package datadog.trace.instrumentation.spark;
 
-import java.util.ArrayList;
 import java.util.HashMap;
 import java.util.Iterator;
 import java.util.Map;
-import org.apache.spark.sql.execution.ReusedSubqueryExec;
 import org.apache.spark.sql.execution.SparkPlan;
-import org.apache.spark.sql.execution.adaptive.AdaptiveSparkPlanExec;
-import org.apache.spark.sql.execution.adaptive.QueryStageExec;
-import org.apache.spark.sql.execution.columnar.InMemoryTableScanExec;
-import org.apache.spark.sql.execution.exchange.ReusedExchangeExec;
 import scala.collection.JavaConverters;
 
 // An extension of how Spark translates `SparkPlan`s to `SparkPlanInfo`, see here:
 // https://github.com/apache/spark/blob/v3.5.0/sql/core/src/main/scala/org/apache/spark/sql/execution/SparkPlanInfo.scala#L54
 public class Spark213PlanUtils {
-  public static ArrayList<SparkPlan> extractChildren(SparkPlan plan) {
-    /*
-    Get children of this node. Logic in Spark:
-
-    val children = plan match {
-      case ReusedExchangeExec(_, child) => child :: Nil
-      case ReusedSubqueryExec(child) => child :: Nil
-      case a: AdaptiveSparkPlanExec => a.executedPlan :: Nil
-      case stage: QueryStageExec => stage.plan :: Nil
-      case inMemTab: InMemoryTableScanExec => inMemTab.relation.cachedPlan :: Nil
-      case EmptyRelationExec(logical) => (logical :: Nil)
-      case _ => plan.children ++ plan.subqueries
-    }
-     */
-    // TODO: How does this interact with different versions of Spark? (specifically an older version
-    // that does not have those types)
-    ArrayList<SparkPlan> children = new ArrayList<>();
-    if (plan instanceof ReusedExchangeExec) {
-      children.add(((ReusedExchangeExec) plan).child());
-    } else if (plan instanceof ReusedSubqueryExec) {
-      children.add(((ReusedSubqueryExec) plan).child());
-    } else if (plan instanceof AdaptiveSparkPlanExec) {
-      children.add(((AdaptiveSparkPlanExec) plan).executedPlan());
-    } else if (plan instanceof QueryStageExec) {
-      children.add(((QueryStageExec) plan).plan());
-    } else if (plan instanceof InMemoryTableScanExec) {
-      children.add(((InMemoryTableScanExec) plan).relation().cachedPlan());
-      //  New as of Spark 4.0.0
-      //  } else if (plan instanceof EmptyRelationExec) {
-      //    children.add(((EmptyRelationExec) plan).logical);
-    }
-
-    for (Iterator<SparkPlan> it = JavaConverters.asJavaIterator(plan.subqueries().iterator());
-        it.hasNext(); ) {
-      children.add(it.next());
-    }
-    for (Iterator<SparkPlan> it = JavaConverters.asJavaIterator(plan.children().iterator());
-        it.hasNext(); ) {
-      children.add(it.next());
-    }
-
-    return children;
-  }
-
   public static Map<String, String> extractPlanProduct(SparkPlan plan) {
     HashMap<String, String> args = new HashMap<>();
     HashMap<String, String> unparsed = new HashMap<>();
diff --git a/dd-java-agent/instrumentation/spark/src/main/java/datadog/trace/instrumentation/spark/CommonSparkPlanUtils.java b/dd-java-agent/instrumentation/spark/src/main/java/datadog/trace/instrumentation/spark/CommonSparkPlanUtils.java
@@ -1,37 +1,21 @@
 package datadog.trace.instrumentation.spark;
 
-import java.util.Collection;
-import org.apache.spark.sql.catalyst.trees.TreeNode;
-import scala.None$;
-import scala.collection.JavaConverters;
-import scala.collection.immutable.$colon$colon;
-import scala.collection.immutable.Iterable;
-import scala.collection.immutable.Nil$;
+import java.util.ArrayList;
+import org.apache.spark.sql.catalyst.plans.QueryPlan;
+import scala.Option;
+import scala.collection.Iterable;
 
 public class CommonSparkPlanUtils {
   public static String parsePlanProduct(Object value) {
-    // TODO: improve parsing of certain types
-    //  1. Some() should be unwrapped
-    //  2. requiredSchema on Scan * (currently showing StructType)
-
-    // TODO: support a few more common types?
-    // condition=org.apache.spark.sql.catalyst.expressions.objects.Invoke
-    // joinType=org.apache.spark.sql.catalyst.plans.Inner$
-    // buildSide=org.apache.spark.sql.catalyst.optimizer.BuildRight$
-    // shuffleOrigin=org.apache.spark.sql.execution.exchange.ENSURE_REQUIREMENTS$
-    // outputPartitioning=org.apache.spark.sql.catalyst.plans.physical.SinglePartition$
-    if (value instanceof String
-        || value instanceof Boolean
-        || value instanceof Collection
-        || value instanceof None$
-        || value instanceof Integer) {
-      return value.toString();
-    } else if (value instanceof $colon$colon || value instanceof Nil$) {
-      return JavaConverters.asJavaIterable(((Iterable) value)).toString();
-    } else if (value instanceof TreeNode) {
-      // Filter out any potential child nodes
-      // TODO: Exempt conditions from this branch
-      // e.g. condition=class org.apache.spark.sql.catalyst.expressions.objects.Invoke
+    if (value == null) {
+      return "null";
+    } else if (value instanceof Iterable) {
+      ArrayList<String> list = new ArrayList<>();
+      ((Iterable) value).foreach(item -> list.add(parsePlanProduct(item)));
+      return "[\"" + String.join("\", \"", list) + "\"]";
+    } else if (value instanceof Option) {
+      return parsePlanProduct(((Option) value).getOrElse(() -> "none"));
+    } else if (value instanceof QueryPlan) { // Filter out values referencing child nodes
       return null;
     } else {
       return value.toString();
diff --git a/dd-java-agent/instrumentation/spark/src/main/java/datadog/trace/instrumentation/spark/SparkSQLUtils.java b/dd-java-agent/instrumentation/spark/src/main/java/datadog/trace/instrumentation/spark/SparkSQLUtils.java
@@ -173,13 +173,26 @@ private void toJson(JsonGenerator generator, Map<Long, AccumulatorWithStage> acc
         generator.writeStringField("nodeDetailString", nodeDetails);
       }
 
-      // Metadata is only present for FileSourceScan nodes
+      // Metadata is only added natively by Spark for FileSourceScan nodes
+      // We leverage this to extract & inject additional argument-level data
       if (!plan.metadata().isEmpty()) {
         generator.writeFieldName("meta");
         generator.writeStartObject();
 
         for (Tuple2<String, String> metadata : JavaConverters.asJavaCollection(plan.metadata())) {
-          generator.writeStringField(metadata._1, metadata._2);
+          // If it looks like a string array, break apart and write as native JSON array
+          if (metadata._2.startsWith("[\"") && metadata._2.endsWith("\"]")) {
+            String[] list = metadata._2.substring(2, metadata._2.length() - 2).split("\", \"");
+
+            generator.writeFieldName(metadata._1);
+            generator.writeStartArray();
+            for (String entry : list) {
+              generator.writeString(entry);
+            }
+            generator.writeEndArray();
+          } else {
+            generator.writeStringField(metadata._1, metadata._2);
+          }
         }
 
         generator.writeEndObject();