change drug molecule map into a struct

remo87 · SzymonSzyszkowski · remo87 · commit e2025747bab5 · 2025-06-10T15:21:18.000+01:00
Co-authored-by: project-defiant &lt;szymonszyszkowski@gmail.com&gt;
diff --git a/src/main/scala/io/opentargets/etl/backend/Search.scala b/src/main/scala/io/opentargets/etl/backend/Search.scala
@@ -447,6 +447,24 @@ object Transformers {
 
     }
 
+    /** Collect cross reference ids for the drugs
+      * @param crossReferences
+      *   crossReferences column from the drug dataframe
+      * @return
+      *   a column with an array of cross reference ids
+      */
+    def collectCrossReferenceIds(crossReferences: Column): Column =
+      sort_array(
+        array_distinct(
+          flatten(
+            transform(
+              crossReferences,
+              x => x.getField("ids")
+            )
+          )
+        )
+      ).alias("crossReferences")
+
     // uses target_ids, drug_id, target_labels, disease_id, disease_labels
     def setIdAndSelectFromDrugs(
         associatedDrugs: DataFrame,
@@ -502,6 +520,10 @@ object Transformers {
           when(col("disease_labels").isNull, Array.empty[String])
             .otherwise(col("disease_labels"))
         )
+        .withColumn(
+          "crossReferences",
+          collectCrossReferenceIds(col("crossReferences"))
+        )
       SearchIndex(
         id = col("id"),
         name = col("name"),
@@ -514,9 +536,7 @@ object Transformers {
           "array(name)",
           "array(id)",
           "childChemblIds",
-          "crossReferences.PubChem",
-          "crossReferences.drugbank",
-          "crossReferences.chEBI"
+          "crossReferences"
         ),
         prefixes = C.flattenCat(
           "synonyms",
diff --git a/src/main/scala/io/opentargets/etl/backend/drug/Drug.scala b/src/main/scala/io/opentargets/etl/backend/drug/Drug.scala
@@ -70,7 +70,7 @@ object Drug extends Serializable with LazyLogging {
     )
 
     // We define a drug as having either a drugbank id, a mechanism of action, an indication, or if it is a chemical probe.
-    val isDrugMolecule: Column = array_contains(map_keys(col("crossReferences")), "drugbank") ||
+    val isDrugMolecule: Column = array_contains(col("crossReferences.source"), "drugbank") ||
       col("indications").isNotNull ||
       col("mechanismsOfAction").isNotNull ||
       col("chemicalProbeDrugId").isNotNull
diff --git a/src/main/scala/io/opentargets/etl/backend/drug/Molecule.scala b/src/main/scala/io/opentargets/etl/backend/drug/Molecule.scala
@@ -15,6 +15,7 @@ import org.apache.spark.sql.functions.{
   explode,
   lit,
   map_concat,
+  struct,
   typedLit,
   udf,
   upper,
@@ -164,7 +165,14 @@ object Molecule extends LazyLogging {
       .foldLeft(chemblCrossReferences)((agg, a) => mergeCrossReferenceMaps(agg, a))
       .filter(col(XREF_COLUMN_NAME).isNotNull)
       .withColumnRenamed(XREF_COLUMN_NAME, "crossReferences")
-    references
+
+    val transformedCrossReference = references
+      .select(col("id"), explode(col("crossReferences")))
+      .withColumnRenamed("key", "source")
+      .withColumnRenamed("value", "ids")
+      .groupBy("id")
+      .agg(collect_set(struct(col("source"), col("ids"))).as("crossReferences"))
+    transformedCrossReference
   }
 
   /** @param preProcessedMolecules
diff --git a/src/test/scala/io/opentargets/etl/backend/Drug/MoleculeTest.scala b/src/test/scala/io/opentargets/etl/backend/Drug/MoleculeTest.scala
@@ -202,10 +202,10 @@ class MoleculeTest extends EtlSparkUnitTest {
       .json(this.getClass.getResource("/sample_mol_after_preprocessing.json").getPath)
     // when
     val results = Molecule invokePrivate processMoleculeCrossReferences(sampleMolecule)
-    val xrefMap = results.head.getMap(1)
+    val xrefMap = results.head.getList(1)
     // then
     assertResult(4) {
-      xrefMap.keySet.size
+      xrefMap.size
     }
   }
 

Original file line number	Diff line number	Diff line change
`@@ -70,7 +70,7 @@ object Drug extends Serializable with LazyLogging {`
`70`	`70`	`)`
`71`	`71`
`72`	`72`	`// We define a drug as having either a drugbank id, a mechanism of action, an indication, or if it is a chemical probe.`
`73`		`- val isDrugMolecule: Column = array_contains(map_keys(col("crossReferences")), "drugbank") \|\|`
	`73`	`+ val isDrugMolecule: Column = array_contains(col("crossReferences.source"), "drugbank") \|\|`
`74`	`74`	`col("indications").isNotNull \|\|`
`75`	`75`	`col("mechanismsOfAction").isNotNull \|\|`
`76`	`76`	`col("chemicalProbeDrugId").isNotNull`
Original file line number	Diff line number	Diff line change
`@@ -202,10 +202,10 @@ class MoleculeTest extends EtlSparkUnitTest {`
`202`	`202`	`.json(this.getClass.getResource("/sample_mol_after_preprocessing.json").getPath)`
`203`	`203`	`// when`
`204`	`204`	`val results = Molecule invokePrivate processMoleculeCrossReferences(sampleMolecule)`
`205`		`- val xrefMap = results.head.getMap(1)`
	`205`	`+ val xrefMap = results.head.getList(1)`
`206`	`206`	`// then`
`207`	`207`	`assertResult(4) {`
`208`		`- xrefMap.keySet.size`
	`208`	`+ xrefMap.size`
`209`	`209`	`}`
`210`	`210`	`}`
`211`	`211`