Dependency update

josemduarte · josemduarte · commit a1a93e511030 · 2021-06-25T16:38:32.000-07:00
diff --git a/.gitignore b/.gitignore
@@ -3,6 +3,9 @@
 # Mobile Tools for Java (J2ME)
 .mtj.tmp/
 
+.idea
+*.iml
+
 # Package Files #
 *.jar
 *.war
diff --git a/pom.xml b/pom.xml
@@ -44,8 +44,8 @@
 		<scala.version>2.11</scala.version>
 		<slf4j.version>1.7.20</slf4j.version>
 		<log4j.version>2.13.3</log4j.version>
-		<biojava.version>5.0.0-alpha6</biojava.version>
-		<mmtf-spark.version>0.0.6</mmtf-spark.version>
+		<biojava.version>6.0.0-alpha4</biojava.version>
+		<mmtf-spark.version>0.0.8</mmtf-spark.version>
 		<additionalparam>-Xdoclint:none</additionalparam>
 	</properties>
 
@@ -90,17 +90,27 @@
 			<artifactId>argparse4j</artifactId>
 			<version>0.7.0</version>
 		</dependency>
-		<!-- for CSV support -->
-		<dependency>
-			<groupId>com.databricks</groupId>
-			<artifactId>spark-csv_${scala.version}</artifactId>
-			<version>1.2.0</version>
-		</dependency>
+
 		<dependency>
 			<groupId>org.biojava</groupId>
 			<artifactId>biojava-structure</artifactId>
 			<version>${biojava.version}</version>
 		</dependency>
+		<dependency>
+			<groupId>org.rcsb</groupId>
+			<artifactId>mmtf-api</artifactId>
+			<version>1.0.10</version>
+		</dependency>
+		<dependency>
+			<groupId>org.rcsb</groupId>
+			<artifactId>mmtf-codec</artifactId>
+			<version>1.0.10</version>
+		</dependency>
+		<dependency>
+			<groupId>org.rcsb</groupId>
+			<artifactId>mmtf-serialization</artifactId>
+			<version>1.0.10</version>
+		</dependency>
 		<dependency>
 			<groupId>org.rcsb</groupId>
 			<artifactId>mmtf-spark</artifactId>
diff --git a/src/main/java/org/biojava/spark/mappers/MapperUtils.java b/src/main/java/org/biojava/spark/mappers/MapperUtils.java
@@ -16,7 +16,7 @@
 import org.biojava.nbio.structure.StructureImpl;
 import org.biojava.nbio.structure.io.mmtf.MmtfStructureReader;
 import org.biojava.nbio.structure.io.mmtf.MmtfStructureWriter;
-import org.biojava.nbio.structure.io.mmtf.MmtfUtils;
+import org.biojava.spark.utils.BiojavaSparkUtils;
 import org.rcsb.mmtf.dataholders.MmtfStructure;
 import org.rcsb.mmtf.decoder.GenericDecoder;
 import org.rcsb.mmtf.decoder.StructureDataToAdapter;
@@ -66,7 +66,7 @@ public static Structure byteArrToBiojavaStruct(String pdbCodePlus, byte[] inputB
 	 * @return a {@link JavaPairRDD} with key {@link Text} and value {@link BytesWritable}
 	 */
 	public static JavaPairRDD<Text, BytesWritable> generateRdd(List<String> inputList, String ccdUrl) {
-		MmtfUtils.setUpBioJava(ccdUrl);
+		BiojavaSparkUtils.setUpBioJava(ccdUrl);
 		return SparkUtils.getSparkContext().parallelize(inputList)
 				.mapToPair(t -> MapperUtils.getByteArray(t))
 				.mapToPair(t -> new Tuple2<String,byte[]>(t._1, WriterUtils.gzipCompress(t._2)))
@@ -100,7 +100,7 @@ public static Tuple2<String,byte[]> getByteArray(String pdbId, String producer)
 		return new Tuple2<String,byte[]>(structure.getPDBCode(), outByteArr);
 	}
 	
-	private static byte[] produceByteArray(Structure structure, String mmtfProducer) {
+	private static byte[] produceByteArray(Structure structure, String mmtfProducer) throws IOException {
 		MmtfStructure mmtfStructure = encodeStructure(structure);
 		mmtfStructure.setMmtfProducer(mmtfProducer);
 		ByteArrayOutputStream bos = new ByteArrayOutputStream();
@@ -114,7 +114,7 @@ private static MmtfStructure encodeStructure(Structure structure) {
 		MmtfStructure mmtfStructure = new GenericEncoder(inflatorToGet).getMmtfEncodedStructure();
 		return mmtfStructure;
 	}
-	private static Structure getFomByteArray(byte[] inputByteArr) {
+	private static Structure getFomByteArray(byte[] inputByteArr) throws IOException {
 		MmtfStructureReader mmtfStructureReader = new MmtfStructureReader();
 		new StructureDataToAdapter(new GenericDecoder(new MessagePackSerialization().deserialize(new ByteArrayInputStream(inputByteArr))), mmtfStructureReader);
 		return mmtfStructureReader.getStructure();
diff --git a/src/main/java/org/biojava/spark/utils/BiojavaSparkUtils.java b/src/main/java/org/biojava/spark/utils/BiojavaSparkUtils.java
@@ -38,13 +38,18 @@
 import org.biojava.nbio.structure.ResidueNumber;
 import org.biojava.nbio.structure.Structure;
 import org.biojava.nbio.structure.StructureIO;
+import org.biojava.nbio.structure.align.util.AtomCache;
+import org.biojava.nbio.structure.chem.ChemCompGroupFactory;
+import org.biojava.nbio.structure.chem.DownloadChemCompProvider;
 import org.biojava.nbio.structure.contact.AtomContact;
 import org.biojava.nbio.structure.contact.AtomContactSet;
 import org.biojava.nbio.structure.contact.Grid;
 import org.biojava.nbio.structure.contact.Pair;
-import org.biojava.nbio.structure.io.mmcif.SimpleMMcifConsumer;
-import org.biojava.nbio.structure.io.mmcif.SimpleMMcifParser;
-import org.biojava.nbio.structure.io.mmcif.model.ChemComp;
+import org.biojava.nbio.structure.io.FileParsingParameters;
+import org.biojava.nbio.structure.io.LocalPDBDirectory;
+import org.biojava.nbio.structure.io.StructureFiletype;
+import org.biojava.nbio.structure.io.cif.CifStructureConverter;
+import org.biojava.nbio.structure.chem.ChemComp;
 import org.biojava.nbio.structure.io.mmtf.MmtfStructureReader;
 import org.biojava.nbio.structure.io.mmtf.MmtfStructureWriter;
 import org.biojava.nbio.structure.io.mmtf.MmtfUtils;
@@ -434,11 +439,7 @@ public static StructureDataInterface convertToStructDataInt(Structure structure)
 	 * @throws IOException 
 	 */
 	private static Structure getStructureFromMmmCifText(byte[] inputText) throws IOException {
-		SimpleMMcifConsumer simpleMMcifConsumer = new SimpleMMcifConsumer();
-		SimpleMMcifParser simpleMMcifParser =  new SimpleMMcifParser();
-		simpleMMcifParser.addMMcifConsumer(simpleMMcifConsumer);
-		simpleMMcifParser.parse(new ByteArrayInputStream(inputText));
-		return simpleMMcifConsumer.getStructure();
+		return CifStructureConverter.fromInputStream(new ByteArrayInputStream(inputText));
 	}
 
 	/**
@@ -477,7 +478,7 @@ public static String getTypeFromChainId(StructureDataInterface structureDataInte
 	 */
 	public static void writeToFile(List<String> pdbCodeList, String uri, String producer) {
 		JavaSparkContext javaSparkContext = SparkUtils.getSparkContext();
-		MmtfUtils.setUpBioJava();
+		setUpBioJava();
 		JavaPairRDD<Text, BytesWritable> distData =
 				javaSparkContext.parallelize(pdbCodeList)
 				.mapToPair(new PdbIdToMmtf(producer))
@@ -486,4 +487,54 @@ public static void writeToFile(List<String> pdbCodeList, String uri, String prod
 		distData.saveAsHadoopFile(uri, Text.class, BytesWritable.class, SequenceFileOutputFormat.class);
 		javaSparkContext.close();
 	}
+
+	/**
+	 * Set up the configuration parameters for BioJava.
+	 */
+	public static AtomCache setUpBioJava() {
+		// Set up the atom cache etc
+		AtomCache cache = new AtomCache();
+		cache.setFiletype(StructureFiletype.CIF);
+
+		// important: we want always to get the mmCIF file from server (sandbox). BioJava default behaviour would read from local cache and we don't want that for updated entries
+		cache.setFetchBehavior(LocalPDBDirectory.FetchBehavior.FORCE_DOWNLOAD);
+
+		FileParsingParameters params = cache.getFileParsingParams();
+		params.setCreateAtomBonds(true);
+		params.setAlignSeqRes(true);
+		params.setParseBioAssembly(true);
+		DownloadChemCompProvider cc = new DownloadChemCompProvider();
+		ChemCompGroupFactory.setChemCompProvider(cc);
+		cc.checkDoFirstInstall();
+		cache.setFileParsingParams(params);
+		StructureIO.setAtomCache(cache);
+		return cache;
+	}
+
+	/**
+	 * Set up the configuration parameters for BioJava.
+	 * @param ccBaseUrl base URL for chemcomp files (in sandbox layout .../H/HEM/HEM.cif) from which chem comp cif files
+	 *                 will be read
+	 */
+	public static AtomCache setUpBioJava(String ccBaseUrl) {
+		// Set up the atom cache etc
+		AtomCache cache = new AtomCache();
+		cache.setFiletype(StructureFiletype.CIF);
+
+		// important: we want always to get the mmCIF file from server (sandbox). BioJava default behaviour would read from local cache and we don't want that for updated entries
+		cache.setFetchBehavior(LocalPDBDirectory.FetchBehavior.FORCE_DOWNLOAD);
+
+		FileParsingParameters params = cache.getFileParsingParams();
+		params.setCreateAtomBonds(true);
+		params.setAlignSeqRes(true);
+		params.setParseBioAssembly(true);
+		DownloadChemCompProvider.serverBaseUrl = ccBaseUrl;
+		DownloadChemCompProvider.useDefaultUrlLayout = false;
+		DownloadChemCompProvider cc = new DownloadChemCompProvider();
+		ChemCompGroupFactory.setChemCompProvider(cc);
+		cc.checkDoFirstInstall();
+		cache.setFileParsingParams(params);
+		StructureIO.setAtomCache(cache);
+		return cache;
+	}
 }
diff --git a/src/test/java/org/biojava/spark/utils/TestEntryPoint.java b/src/test/java/org/biojava/spark/utils/TestEntryPoint.java
@@ -2,6 +2,8 @@
 
 import org.apache.spark.api.java.JavaSparkContext;
 import org.junit.Test;
+import org.rcsb.mmtf.spark.utils.SparkUtils;
+
 /**
  * A basic test of {@link EntryPoint} class.
  * @author Anthony Bradley
@@ -14,8 +16,7 @@ public class TestEntryPoint {
 	 */
 	@Test
 	public void testBasic(){
-		EntryPoint entryPoint = new EntryPoint();
-		JavaSparkContext sparkCont = entryPoint.getSparkUtils().getSparkContext();
+		JavaSparkContext sparkCont = SparkUtils.getSparkContext();
 		System.out.println(sparkCont);
 	}