Merge pull request #11398 from IQSS/11305-export-drafts

ofahimIQSS · web-flow · commit 1bc9ca82cb19 · 2025-05-09T11:38:32.000-04:00
metadata export for drafts via API
diff --git a/doc/release-notes/11305-export-drafts.md b/doc/release-notes/11305-export-drafts.md
@@ -0,0 +1,7 @@
+### Dataset Metadata Can Be Exported From Draft Datasets (via API)
+
+In previous versions of Dataverse, it was only possible to export metadata from published datasets. It is now possible to export metadata from draft datasets via API as long as you supply an API token that has access to the draft. As before, when exporting metadata from published datasets, only the latest published version is supported. Internal exporters have been updated to work with drafts but external exporters might need to be updated (Croissant definitely does). See "upgrade instructions" below for details. See [the guides](https://dataverse-guide--11398.org.readthedocs.build/en/11398/api/native-api.html#export-metadata-of-a-dataset-in-various-formats), #11305, and #11398.
+
+## Upgrade Instructions
+
+If you are using the Croissant exporter, [update it](https://github.com/gdcc/exporter-croissant) to version 0.1.4 or newer for compatibility with exporting drafts. Other external exporters may need to be updated as well. See https://github.com/gdcc/dataverse-exporters for a list.
diff --git a/doc/sphinx-guides/source/api/native-api.rst b/doc/sphinx-guides/source/api/native-api.rst
@@ -1605,25 +1605,29 @@ Usage example:
 Export Metadata of a Dataset in Various Formats
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
-|CORS| Export the metadata of the current published version of a dataset in various formats.
+|CORS| Export the metadata of either the current published version or the draft version of a dataset in various formats.
 
 To get a list of available formats, see :ref:`available-exporters` and :ref:`get-export-formats`.
 
+If you don't specify a version (see :ref:`dataset-version-specifiers`), ``:latest-published`` is assumed and an API token is not necessary. ``:draft`` is supported if you pass an API token that has access. If you try to pass a version number (e.g. "1.0"), it will only work if it happens to be the latest published version. That is to say, for published versions, only the latest published version is supported.
+
 See also :ref:`batch-exports-through-the-api` and the note below:
 
 .. code-block:: bash
 
   export SERVER_URL=https://demo.dataverse.org
   export PERSISTENT_IDENTIFIER=doi:10.5072/FK2/J8SJZB
   export METADATA_FORMAT=ddi
+  export VERSION=:draft
+  export API_TOKEN=xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx
 
-  curl "$SERVER_URL/api/datasets/export?exporter=$METADATA_FORMAT&persistentId=$PERSISTENT_IDENTIFIER"
+  curl -H "X-Dataverse-key: $API_TOKEN" "$SERVER_URL/api/datasets/export?exporter=$METADATA_FORMAT&persistentId=$PERSISTENT_IDENTIFIER&version=$VERSION"
 
 The fully expanded example above (without environment variables) looks like this:
 
 .. code-block:: bash
 
-  curl "https://demo.dataverse.org/api/datasets/export?exporter=ddi&persistentId=doi:10.5072/FK2/J8SJZB"
+  curl -H "X-Dataverse-key: xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx" "https://demo.dataverse.org/api/datasets/export?exporter=ddi&persistentId=doi:10.5072/FK2/J8SJZB&version=:draft"
 
 .. _available-exporters:
 
diff --git a/src/main/java/edu/harvard/iq/dataverse/DatasetPage.java b/src/main/java/edu/harvard/iq/dataverse/DatasetPage.java
@@ -5985,7 +5985,7 @@ public String getCroissant() {
         if (isThisLatestReleasedVersion()) {
             final String CROISSANT_SCHEMA_NAME = "croissant";
             ExportService instance = ExportService.getInstance();
-            String croissant = instance.getExportAsString(dataset, CROISSANT_SCHEMA_NAME);
+            String croissant = instance.getLatestPublishedAsString(dataset, CROISSANT_SCHEMA_NAME);
             if (croissant != null && !croissant.isEmpty()) {
                 logger.fine("Returning cached CROISSANT.");
                 return croissant;
@@ -6004,7 +6004,7 @@ public List<License> getAvailableLicenses(){
     public String getJsonLd() {
         if (isThisLatestReleasedVersion()) {
             ExportService instance = ExportService.getInstance();
-            String jsonLd = instance.getExportAsString(dataset, SchemaDotOrgExporter.NAME);
+            String jsonLd = instance.getLatestPublishedAsString(dataset, SchemaDotOrgExporter.NAME);
             if (jsonLd != null) {
                 logger.fine("Returning cached schema.org JSON-LD.");
                 return jsonLd;
diff --git a/src/main/java/edu/harvard/iq/dataverse/DatasetVersion.java b/src/main/java/edu/harvard/iq/dataverse/DatasetVersion.java
@@ -1876,17 +1876,14 @@ public String getPublicationDateAsString() {
     // one metadata export in a given format per dataset (it uses the current 
     // released (published) version. This JSON fragment is generated for a 
     // specific released version - and we can have multiple released versions. 
+    // (A JSON fragment is generated for drafts as well. -- P.D.)
     // So something will need to be modified to accommodate this. -- L.A.  
     /**
      * We call the export format "Schema.org JSON-LD" and extensive Javadoc can
      * be found in {@link edu.harvard.iq.dataverse.export.SchemaDotOrgExporter}.
      */
     public String getJsonLd() {
         // We show published datasets only for "datePublished" field below.
-        if (!this.isPublished()) {
-            return "";
-        }
-        
         if (jsonLd != null) {
             return jsonLd;
         }
@@ -1975,7 +1972,12 @@ public String getJsonLd() {
          * was modified within a DataFeed."
          */
         job.add("dateModified", this.getPublicationDateAsString());
-        job.add("version", this.getVersionNumber().toString());
+        if (this.isPublished()) {
+            job.add("version", this.getVersionNumber().toString());
+        } else {
+            // This will show "DRAFT" for drafts.
+            job.add("version", this.getFriendlyVersionNumber());
+        }
 
         String description = this.getDescriptionsPlainTextTruncated();
         job.add("description", description);
diff --git a/src/main/java/edu/harvard/iq/dataverse/api/Datasets.java b/src/main/java/edu/harvard/iq/dataverse/api/Datasets.java
@@ -231,31 +231,57 @@ public Response getDataset(@Context ContainerRequestContext crc, @PathParam("id"
             return ok(jsonbuilder.add("latestVersion", (latest != null) ? json(latest, true) : null));
         }, getRequestUser(crc));
     }
-    
-    // This API call should, ideally, call findUserOrDie() and the GetDatasetCommand 
-    // to obtain the dataset that we are trying to export - which would handle
-    // Auth in the process... For now, Auth isn't necessary - since export ONLY 
-    // WORKS on published datasets, which are open to the world. -- L.A. 4.5
+
     @GET
+    @AuthRequired
     @Path("/export")
     @Produces({"application/xml", "application/json", "application/html", "application/ld+json", "*/*" })
-    public Response exportDataset(@QueryParam("persistentId") String persistentId, @QueryParam("exporter") String exporter, @Context UriInfo uriInfo, @Context HttpHeaders headers, @Context HttpServletResponse response) {
+    public Response exportDataset(@Context ContainerRequestContext crc, @QueryParam("persistentId") String persistentId,
+            @QueryParam("version") String versionId, @QueryParam("exporter") String exporter,
+            @Context UriInfo uriInfo, @Context HttpHeaders headers, @Context HttpServletResponse response) {
 
         try {
             Dataset dataset = datasetService.findByGlobalId(persistentId);
             if (dataset == null) {
                 return error(Response.Status.NOT_FOUND, "A dataset with the persistentId " + persistentId + " could not be found.");
             }
-            
+
+            DataverseRequest req = createDataverseRequest(getRequestUser(crc));
+            DatasetVersion datasetVersion = null;
+            try {
+                String versionToLookUp = DS_VERSION_LATEST_PUBLISHED;
+                if (versionId != null) {
+                    versionToLookUp = versionId;
+                }
+                datasetVersion = getDatasetVersionOrDie(req, versionToLookUp, dataset, uriInfo, headers);
+            } catch (WrappedResponse wr) {
+                // wr.getLocalizedMessage() is null so don't bother returning it
+                return error(BAD_REQUEST, "Unable to look up dataset based on version. Try " + DS_VERSION_LATEST_PUBLISHED + " or " + DS_VERSION_DRAFT + ".");
+            }
+
+            // Trying to get version 1.0 for a dataset that's already at 3.0, for example, is not supported.
+            if (!datasetVersion.isDraft() && versionId != null) {
+                Command<DatasetVersion> cmd = new GetLatestPublishedDatasetVersionCommand(dvRequestService.getDataverseRequest(), dataset);
+                DatasetVersion latestPublishedVersion = commandEngine.submit(cmd);
+                if (latestPublishedVersion == null) {
+                    return error(BAD_REQUEST, "Non-draft version requested but for published versions only the latest (" + DS_VERSION_LATEST_PUBLISHED + ") is supported.");
+                }
+                if (!datasetVersion.equals(latestPublishedVersion)) {
+                    return error(BAD_REQUEST, "Non-draft version requested (" + versionId + ") but for published versions only the latest (" + DS_VERSION_LATEST_PUBLISHED + ") is supported.");
+                }
+            }
+
             ExportService instance = ExportService.getInstance();
-            
-            InputStream is = instance.getExport(dataset, exporter);
-           
+
+            InputStream is = instance.getExport(datasetVersion, exporter);
+
             String mediaType = instance.getMediaType(exporter);
-            //Export is only possible for released (non-draft) dataset versions so we can log without checking to see if this is a request for a draft 
-            MakeDataCountLoggingServiceBean.MakeDataCountEntry entry = new MakeDataCountEntry(uriInfo, headers, dvRequestService, dataset);
-            mdcLogService.logEntry(entry);
-            
+
+            if (datasetVersion.isReleased()) {
+                MakeDataCountLoggingServiceBean.MakeDataCountEntry entry = new MakeDataCountEntry(uriInfo, headers, dvRequestService, dataset);
+                mdcLogService.logEntry(entry);
+            }
+
             return Response.ok()
                     .entity(is)
                     .type(mediaType).
diff --git a/src/main/java/edu/harvard/iq/dataverse/export/ExportService.java b/src/main/java/edu/harvard/iq/dataverse/export/ExportService.java
@@ -47,6 +47,9 @@
 import java.util.logging.Level;
 import java.util.logging.Logger;
 import jakarta.ws.rs.core.MediaType;
+import java.io.ByteArrayInputStream;
+import java.io.ByteArrayOutputStream;
+import java.io.FileInputStream;
 
 import org.apache.commons.io.IOUtils;
 
@@ -127,11 +130,36 @@ public List<String[]> getExportersLabels() {
         return retList;
     }
 
-    public InputStream getExport(Dataset dataset, String formatName) throws ExportException, IOException {
-        // first we will try to locate an already existing, cached export
-        // for this format:
-
-        InputStream exportInputStream = getCachedExportFormat(dataset, formatName);
+    public InputStream getExport(DatasetVersion datasetVersion, String formatName) throws ExportException, IOException {
+
+        Dataset dataset = datasetVersion.getDataset();
+        InputStream exportInputStream = null;
+
+        if (datasetVersion.isDraft()) {
+            // For drafts we create the export on the fly rather than caching.
+            Exporter exporter = exporterMap.get(formatName);
+            if (exporter != null) {
+                try (ByteArrayOutputStream outputStream = new ByteArrayOutputStream()) {
+                    // getPrerequisiteFormatName logic copied from exportFormat()
+                    if (exporter.getPrerequisiteFormatName().isPresent()) {
+                        String prereqFormatName = exporter.getPrerequisiteFormatName().get();
+                        try (InputStream preReqStream = getExport(datasetVersion, prereqFormatName)) {
+                            InternalExportDataProvider dataProvider = new InternalExportDataProvider(datasetVersion, preReqStream);
+                            exporter.exportDataset(dataProvider, outputStream);
+                        } catch (IOException ioe) {
+                            throw new ExportException("Could not get prerequisite " + prereqFormatName + " to create " + formatName + " export for dataset " + dataset.getId(), ioe);
+                        }
+                    } else {
+                        InternalExportDataProvider dataProvider = new InternalExportDataProvider(datasetVersion);
+                        exporter.exportDataset(dataProvider, outputStream);
+                    }
+                    return new ByteArrayInputStream(outputStream.toByteArray());
+                }
+            }
+        } else {
+            // for non-drafts (published versions) we try to locate an already existing, cached export
+            exportInputStream = getCachedExportFormat(dataset, formatName);
+        }
 
         // The DDI export is limited for restricted and actively embargoed files (no
         // data/file description sections).and when an embargo ends, we need to refresh
@@ -207,11 +235,18 @@ public InputStream getExport(Dataset dataset, String formatName) throws ExportEx
 
     }
 
-    public String getExportAsString(Dataset dataset, String formatName) {
+    public String getLatestPublishedAsString(Dataset dataset, String formatName) {
+        if (dataset == null) {
+            return null;
+        }
+        DatasetVersion releasedVersion = dataset.getReleasedVersion();
+        if (releasedVersion == null) {
+            return null;
+        }
         InputStream inputStream = null;
         InputStreamReader inp = null;
         try {
-            inputStream = getExport(dataset, formatName);
+            inputStream = getExport(releasedVersion, formatName);
             if (inputStream != null) {
                 inp = new InputStreamReader(inputStream, "UTF8");
                 BufferedReader br = new BufferedReader(inp);
@@ -238,8 +273,9 @@ public String getExportAsString(Dataset dataset, String formatName) {
     }
 
     // This method goes through all the Exporters and calls
-    // the "chacheExport()" method that will save the produced output
+    // the "cacheExport()" method that will save the produced output
     // in a file in the dataset directory, on each Exporter available.
+    // This is only for the latest published version.
     public void exportAllFormats(Dataset dataset) throws ExportException {
         try {
             clearAllCachedFormats(dataset);
@@ -258,7 +294,7 @@ public void exportAllFormats(Dataset dataset) throws ExportException {
                 String formatName = e.getFormatName();
                 if(e.getPrerequisiteFormatName().isPresent()) {
                     String prereqFormatName = e.getPrerequisiteFormatName().get();
-                    try (InputStream preReqStream = getExport(dataset, prereqFormatName)) {
+                    try (InputStream preReqStream = getExport(dataset.getReleasedVersion(), prereqFormatName)) {
                         dataProvider.setPrerequisiteInputStream(preReqStream);
                         cacheExport(dataset, dataProvider, formatName, e);
                         dataProvider.setPrerequisiteInputStream(null);
@@ -313,7 +349,7 @@ public void exportFormat(Dataset dataset, String formatName) throws ExportExcept
                 }
                 if(e.getPrerequisiteFormatName().isPresent()) {
                     String prereqFormatName = e.getPrerequisiteFormatName().get();
-                    try (InputStream preReqStream = getExport(dataset, prereqFormatName)) {
+                    try (InputStream preReqStream = getExport(releasedVersion, prereqFormatName)) {
                         InternalExportDataProvider dataProvider = new InternalExportDataProvider(releasedVersion, preReqStream);
                         cacheExport(dataset, dataProvider, formatName, e);
                     } catch (IOException ioe) {
diff --git a/src/main/java/edu/harvard/iq/dataverse/export/ddi/DdiExportUtil.java b/src/main/java/edu/harvard/iq/dataverse/export/ddi/DdiExportUtil.java
@@ -438,9 +438,13 @@ private static void writeVersionStatement(XMLStreamWriter xmlw, DatasetVersionDT
         xmlw.writeStartElement("verStmt");
         xmlw.writeAttribute("source","archive");
         xmlw.writeStartElement("version");
-        XmlWriterUtil.writeAttribute(xmlw,"date", datasetVersionDTO.getReleaseTime().substring(0, 10));
-        XmlWriterUtil.writeAttribute(xmlw,"type", datasetVersionDTO.getVersionState().toString());
-        xmlw.writeCharacters(datasetVersionDTO.getVersionNumber().toString());
+        if (datasetVersionDTO.getReleaseTime() != null) {
+            XmlWriterUtil.writeAttribute(xmlw, "date", datasetVersionDTO.getReleaseTime().substring(0, 10));
+        }
+        XmlWriterUtil.writeAttribute(xmlw, "type", datasetVersionDTO.getVersionState().toString());
+        if (datasetVersionDTO.getVersionNumber() != null) {
+            xmlw.writeCharacters(datasetVersionDTO.getVersionNumber().toString());
+        }
         xmlw.writeEndElement(); // version
         if (!StringUtils.isBlank(datasetVersionDTO.getVersionNote())) {
             xmlw.writeStartElement("notes");
diff --git a/src/main/java/edu/harvard/iq/dataverse/harvest/server/xoai/DataverseXoaiItemRepository.java b/src/main/java/edu/harvard/iq/dataverse/harvest/server/xoai/DataverseXoaiItemRepository.java
@@ -253,7 +253,7 @@ private Metadata getDatasetMetadata(Dataset dataset, String metadataPrefix) thro
             
         } else {
             InputStream pregeneratedMetadataStream;
-            pregeneratedMetadataStream = ExportService.getInstance().getExport(dataset, metadataPrefix);
+            pregeneratedMetadataStream = ExportService.getInstance().getExport(dataset.getReleasedVersion(), metadataPrefix);
 
             metadata = Metadata.copyFromStream(pregeneratedMetadataStream);
         }
diff --git a/src/test/java/edu/harvard/iq/dataverse/DatasetVersionTest.java b/src/test/java/edu/harvard/iq/dataverse/DatasetVersionTest.java
@@ -99,10 +99,6 @@ public void testGetJsonLd() throws ParseException {
         dataset.setIdentifier("LK0D1H");
         DatasetVersion datasetVersion = new DatasetVersion();
         datasetVersion.setDataset(dataset);
-        datasetVersion.setVersionState(DatasetVersion.VersionState.DRAFT);
-        assertEquals("", datasetVersion.getPublicationDateAsString());
-        // Only published datasets return any JSON.
-        assertEquals("", datasetVersion.getJsonLd());
         datasetVersion.setVersionState(DatasetVersion.VersionState.RELEASED);
         datasetVersion.setVersionNumber(1L);
         SimpleDateFormat dateFmt = new SimpleDateFormat("yyyyMMdd");
@@ -153,8 +149,6 @@ public void testGetJsonLdNonCC0License() throws ParseException {
         datasetVersion.setDataset(dataset);
         datasetVersion.setVersionState(DatasetVersion.VersionState.DRAFT);
         assertEquals("", datasetVersion.getPublicationDateAsString());
-        // Only published datasets return any JSON.
-        assertEquals("", datasetVersion.getJsonLd());
         datasetVersion.setVersionState(DatasetVersion.VersionState.RELEASED);
         datasetVersion.setVersionNumber(1L);
         datasetVersion.setMinorVersionNumber(0L);
@@ -199,4 +193,24 @@ public void testGetJsonLdNonCC0License() throws ParseException {
         assertEquals("LibraScholar", obj.getJsonObject("includedInDataCatalog").getString("name"));
     }
 
+    @Test
+    public void testGetJsonLdDraft() throws ParseException {
+        Dataset dataset = new Dataset();
+        License license = new License("CC0 1.0", "You can copy, modify, distribute and perform the work, even for commercial purposes, all without asking permission.", URI.create("http://creativecommons.org/publicdomain/zero/1.0"), URI.create("/resources/images/cc0.png"), true, 1l);
+        license.setDefault(true);
+        dataset.setProtocol("doi");
+        dataset.setAuthority("10.5072/FK2");
+        dataset.setIdentifier("LK0D1H");
+        DatasetVersion datasetVersion = new DatasetVersion();
+        datasetVersion.setDataset(dataset);
+        datasetVersion.setVersionState(DatasetVersion.VersionState.DRAFT);
+        assertEquals("", datasetVersion.getPublicationDateAsString());
+        String jsonLd = datasetVersion.getJsonLd();
+        logger.fine("jsonLd: " + JsonUtil.prettyPrint(jsonLd));
+        JsonReader jsonReader = Json.createReader(new StringReader(jsonLd));
+        JsonObject obj = jsonReader.readObject();
+        assertEquals("http://schema.org", obj.getString("@context"));
+        assertEquals("DRAFT", obj.getString("version"));
+    }
+
 }
diff --git a/src/test/java/edu/harvard/iq/dataverse/api/DatasetsIT.java b/src/test/java/edu/harvard/iq/dataverse/api/DatasetsIT.java
diff --git a/src/test/java/edu/harvard/iq/dataverse/api/UtilIT.java b/src/test/java/edu/harvard/iq/dataverse/api/UtilIT.java

Original file line number	Diff line number	Diff line change
`@@ -253,7 +253,7 @@ private Metadata getDatasetMetadata(Dataset dataset, String metadataPrefix) thro`
`253`	`253`
`254`	`254`	`} else {`
`255`	`255`	`InputStream pregeneratedMetadataStream;`
`256`		`- pregeneratedMetadataStream = ExportService.getInstance().getExport(dataset, metadataPrefix);`
	`256`	`+ pregeneratedMetadataStream = ExportService.getInstance().getExport(dataset.getReleasedVersion(), metadataPrefix);`
`257`	`257`
`258`	`258`	`metadata = Metadata.copyFromStream(pregeneratedMetadataStream);`
`259`	`259`	`}`