writable check

GeigerJ2 · GeigerJ2 · commit 688df51fc437 · 2025-07-24T08:00:59.000+02:00
diff --git a/src/aiida/cmdline/commands/cmd_archive.py b/src/aiida/cmdline/commands/cmd_archive.py
@@ -137,8 +137,13 @@ def inspect(ctx, archive, version, meta_data, database):
 )
 @options.DRY_RUN(help='Determine entities to export, but do not create the archive.')
 @click.option(
-    '--base-tmp-dir',
-    help='Determine entities to export, but do not create the archive. Deprecated, please use `--dry-run` instead.',
+    '--tmp-dir',
+    type=click.Path(exists=True, file_okay=False, dir_okay=True, writable=True, path_type=Path),
+    help='Directory to use for temporary files during archive creation. '
+         'If not specified, a temporary directory will be created in the same directory as the output file '
+         'with a \'.aiida-export-\' prefix. This parameter is useful when the output directory has limited '
+         'space or when you want to use a specific filesystem (e.g., faster storage) for temporary operations. '
+         'The directory must exist and be writable.',
 )
 @decorators.with_dbenv()
 def create(
diff --git a/src/aiida/tools/archive/create.py b/src/aiida/tools/archive/create.py
@@ -12,6 +12,7 @@
 stored in a single file.
 """
 
+import os
 import shutil
 import tempfile
 from datetime import datetime
@@ -59,7 +60,7 @@ def create_archive(
     compression: int = 6,
     test_run: bool = False,
     backend: Optional[StorageBackend] = None,
-    temp_dir: Optional[Union[str, Path]] = None,
+    tmp_dir: Optional[Union[str, Path]] = None,
     **traversal_rules: bool,
 ) -> Path:
     """Export AiiDA data to an archive file.
@@ -187,22 +188,23 @@ def querybuilder():
     }
 
     # Handle temporary directory configuration
-    if temp_dir is not None:
-        temp_dir = Path(temp_dir)
-        if not temp_dir.exists():
-            msg = f"Specified temporary directory '{temp_dir}' does not exist"
+    if tmp_dir is not None:
+        tmp_dir = Path(tmp_dir)
+        if not tmp_dir.exists():
+            msg = f"Specified temporary directory '{tmp_dir}' does not exist"
             raise ArchiveExportError(msg)
-        if not temp_dir.is_dir():
-            msg = f"Specified temporary directory '{temp_dir}' is not a directory"
+        if not tmp_dir.is_dir():
+            msg = f"Specified temporary directory '{tmp_dir}' is not a directory"
             raise ArchiveExportError(msg)
         # Check if directory is writable
-        if not temp_dir.is_writable():
-            msg = f"Specified temporary directory '{temp_dir}' is not writable"
+        # Taken from: https://stackoverflow.com/a/2113511
+        if not os.access(tmp_dir, os.W_OK | os.X_OK):
+            msg = f"Specified temporary directory '{tmp_dir}' is not writable"
             raise ArchiveExportError()
         tmp_prefix = None  # Use default tempfile prefix
     else:
         # Create temporary directory in the same folder as the output file
-        temp_dir = filename.parent
+        tmp_dir = filename.parent
         tmp_prefix = '.aiida-export-'
 
     initial_summary = get_init_summary(
@@ -310,93 +312,101 @@ def querybuilder():
     # We create in a temp dir then move to final place at end,
     # so that the user cannot end up with a half written archive on errors
     # import ipdb; ipdb.set_trace()
-    temp_dir = Path('/mount')  # or whatever directory you want to use
-    with tempfile.TemporaryDirectory(dir=temp_dir, prefix=tmp_prefix) as tmpdir:
-        # NOTE: Add the `tmp_prefix` to the directory or file?
-        tmp_filename = Path(tmpdir) / 'export.zip'
-        with archive_format.open(tmp_filename, mode='x', compression=compression) as writer:
-            # add metadata
-            writer.update_metadata(
-                {
-                    'ctime': datetime.now().isoformat(),
-                    'creation_parameters': {
-                        'entities_starting_set': None
-                        if entities is None
-                        else {etype.value: list(unique) for etype, unique in starting_uuids.items() if unique},
-                        'include_authinfos': include_authinfos,
-                        'include_comments': include_comments,
-                        'include_logs': include_logs,
-                        'graph_traversal_rules': full_traversal_rules,
-                    },
-                }
-            )
-            # stream entity data to the archive
-            with get_progress_reporter()(desc='Archiving database: ', total=sum(entity_counts.values())) as progress:
-                for etype, ids in entity_ids.items():
-                    if etype == EntityTypes.NODE and strip_checkpoints:
-
-                        def transform(row):
-                            data = row['entity']
-                            if data.get('node_type', '').startswith('process.'):
-                                data['attributes'].pop(orm.ProcessNode.CHECKPOINT_KEY, None)
-                            return data
-                    else:
-
-                        def transform(row):
-                            return row['entity']
-
-                    progress.set_description_str(f'Archiving database: {etype.value}s')
-                    if ids:
-                        for nrows, rows in batch_iter(
-                            querybuilder()
-                            .append(
-                                entity_type_to_orm[etype], filters={'id': {'in': ids}}, tag='entity', project=['**']
-                            )
-                            .iterdict(batch_size=batch_size),
-                            batch_size,
-                            transform,
-                        ):
-                            writer.bulk_insert(etype, rows)
-                            progress.update(nrows)
-
-                # stream links
-                progress.set_description_str(f'Archiving database: {EntityTypes.LINK.value}s')
-
-                def transform(d):
-                    return {
-                        'input_id': d.source_id,
-                        'output_id': d.target_id,
-                        'label': d.link_label,
-                        'type': d.link_type,
+    tmp_dir = Path('/mount')  # or whatever directory you want to use
+
+    try:
+        with tempfile.TemporaryDirectory(dir=tmp_dir, prefix=tmp_prefix) as tmpdir:
+            tmp_filename = Path(tmpdir) / 'export.zip'
+            with archive_format.open(tmp_filename, mode='x', compression=compression) as writer:
+                # add metadata
+                writer.update_metadata(
+                    {
+                        'ctime': datetime.now().isoformat(),
+                        'creation_parameters': {
+                            'entities_starting_set': None
+                            if entities is None
+                            else {etype.value: list(unique) for etype, unique in starting_uuids.items() if unique},
+                            'include_authinfos': include_authinfos,
+                            'include_comments': include_comments,
+                            'include_logs': include_logs,
+                            'graph_traversal_rules': full_traversal_rules,
+                        },
                     }
-
-                for nrows, rows in batch_iter(link_data, batch_size, transform):
-                    writer.bulk_insert(EntityTypes.LINK, rows, allow_defaults=True)
-                    progress.update(nrows)
-                del link_data  # release memory
-
-                # stream group_nodes
-                progress.set_description_str(f'Archiving database: {EntityTypes.GROUP_NODE.value}s')
-
-                def transform(d):
-                    return {'dbgroup_id': d[0], 'dbnode_id': d[1]}
-
-                for nrows, rows in batch_iter(group_nodes, batch_size, transform):
-                    writer.bulk_insert(EntityTypes.GROUP_NODE, rows, allow_defaults=True)
-                    progress.update(nrows)
-                del group_nodes  # release memory
-
-            # stream node repository files to the archive
-            if entity_ids[EntityTypes.NODE]:
-                _stream_repo_files(archive_format.key_format, writer, entity_ids[EntityTypes.NODE], backend, batch_size)
-
-            EXPORT_LOGGER.report('Finalizing archive creation...')
-
-        if filename.exists():
-            filename.unlink()
-
-        filename.parent.mkdir(parents=True, exist_ok=True)
-        shutil.move(tmp_filename, filename)
+                )
+                # stream entity data to the archive
+                with get_progress_reporter()(desc='Archiving database: ', total=sum(entity_counts.values())) as progress:
+                    for etype, ids in entity_ids.items():
+                        if etype == EntityTypes.NODE and strip_checkpoints:
+
+                            def transform(row):
+                                data = row['entity']
+                                if data.get('node_type', '').startswith('process.'):
+                                    data['attributes'].pop(orm.ProcessNode.CHECKPOINT_KEY, None)
+                                return data
+                        else:
+
+                            def transform(row):
+                                return row['entity']
+
+                        progress.set_description_str(f'Archiving database: {etype.value}s')
+                        if ids:
+                            for nrows, rows in batch_iter(
+                                querybuilder()
+                                .append(
+                                    entity_type_to_orm[etype], filters={'id': {'in': ids}}, tag='entity', project=['**']
+                                )
+                                .iterdict(batch_size=batch_size),
+                                batch_size,
+                                transform,
+                            ):
+                                writer.bulk_insert(etype, rows)
+                                progress.update(nrows)
+
+                    # stream links
+                    progress.set_description_str(f'Archiving database: {EntityTypes.LINK.value}s')
+
+                    def transform(d):
+                        return {
+                            'input_id': d.source_id,
+                            'output_id': d.target_id,
+                            'label': d.link_label,
+                            'type': d.link_type,
+                        }
+
+                    for nrows, rows in batch_iter(link_data, batch_size, transform):
+                        writer.bulk_insert(EntityTypes.LINK, rows, allow_defaults=True)
+                        progress.update(nrows)
+                    del link_data  # release memory
+
+                    # stream group_nodes
+                    progress.set_description_str(f'Archiving database: {EntityTypes.GROUP_NODE.value}s')
+
+                    def transform(d):
+                        return {'dbgroup_id': d[0], 'dbnode_id': d[1]}
+
+                    for nrows, rows in batch_iter(group_nodes, batch_size, transform):
+                        writer.bulk_insert(EntityTypes.GROUP_NODE, rows, allow_defaults=True)
+                        progress.update(nrows)
+                    del group_nodes  # release memory
+
+                # stream node repository files to the archive
+                if entity_ids[EntityTypes.NODE]:
+                    _stream_repo_files(archive_format.key_format, writer, entity_ids[EntityTypes.NODE], backend, batch_size)
+
+                EXPORT_LOGGER.report('Finalizing archive creation...')
+
+            if filename.exists():
+                filename.unlink()
+
+            filename.parent.mkdir(parents=True, exist_ok=True)
+            shutil.move(tmp_filename, filename)
+    except OSError as e:
+        if e.errno == 28:  # No space left on device
+            raise ArchiveExportError(
+                f"Insufficient disk space in temporary directory '{tmp_dir}'. "
+                f"Consider using --tmp-dir to specify a location with more available space."
+            ) from e
+        raise ArchiveExportError(f"Failed to create temporary directory: {e}") from e
 
     EXPORT_LOGGER.report('Archive created successfully')