seqeralabs
diff --git a/‎assets/consolidate_design_metrics.py‎
Lines changed: 469 additions & 1072 deletions b/‎assets/consolidate_design_metrics.py‎
Lines changed: 469 additions & 1072 deletions
diff --git a/‎assets/test_data/samplesheet_design_protein.csv‎
Lines changed: 1 addition & 1 deletion b/‎assets/test_data/samplesheet_design_protein.csv‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎bin/prepare_boltz2_sequences.py‎
Lines changed: 195 additions & 0 deletions b/‎bin/prepare_boltz2_sequences.py‎
Lines changed: 195 additions & 0 deletions
diff --git a/‎conf/base.config‎
Lines changed: 4 additions & 4 deletions b/‎conf/base.config‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎conf/test_design_protein.config‎
Lines changed: 1 addition & 1 deletion b/‎conf/test_design_protein.config‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎modules/local/boltz2_refold.nf‎
Lines changed: 47 additions & 29 deletions b/‎modules/local/boltz2_refold.nf‎
Lines changed: 47 additions & 29 deletions
diff --git a/‎modules/local/boltzgen_run.nf‎
Lines changed: 1 addition & 2 deletions b/‎modules/local/boltzgen_run.nf‎
Lines changed: 1 addition & 2 deletions
@@ -1,2 +1,2 @@
 sample_id,design_yaml,structure_files,protocol,num_designs,budget,reuse,target_msa
-2vsm_protein_binder,assets/test_data/2VSM_protein_design.yaml,assets/test_data/2VSM.cif,protein-anything,3,2,,assets/test_data/2VSM_seq.Uniref30_2302.a3m
+2vsm,assets/test_data/2VSM_protein_design.yaml,assets/test_data/2VSM.cif,protein-anything,3,2,,assets/test_data/2VSM_seq.Uniref30_2302.a3m
@@ -0,0 +1,195 @@
+#!/usr/bin/env python3
+"""
+Prepare sequences for Boltz2 refolding.
+
+This script combines two operations:
+1. Extract target sequence from original Boltzgen structure (for Boltz2 input)
+2. Split ProteinMPNN multi-sequence FASTA into individual files
+
+All sequences are included (original Boltzgen sequence + MPNN-designed sequences).
+"""
+
+import os
+import sys
+import json
+from pathlib import Path
+import argparse
+import Bio
+from Bio import PDB
+from Bio.PDB import PDBIO, MMCIFParser, PDBParser
+from Bio.SeqUtils import seq1
+
+
+def extract_target_sequence(structure_file, design_id):
+    """Extract target sequence from Boltzgen structure."""
+    print("=" * 80)
+    print("PART 1: Extracting target sequence from Boltzgen structure")
+    print("=" * 80)
+    
+    structure_path = Path(structure_file)
+    print(f"Structure file: {structure_path}")
+    
+    try:
+        if structure_path.suffix.lower() == '.cif':
+            parser = MMCIFParser(QUIET=True)
+        else:
+            parser = PDBParser(QUIET=True)
+        
+        structure = parser.get_structure('structure', str(structure_path))
+        
+        # Extract sequences from all chains
+        sequences = {}
+        for model in structure:
+            for chain in model:
+                chain_id = chain.id
+                residues = []
+                for residue in chain:
+                    if PDB.is_aa(residue):
+                        resname = residue.get_resname()
+                        try:
+                            # seq1 converts 3-letter to 1-letter code
+                            one_letter = seq1(resname)
+                            residues.append(one_letter)
+                        except (KeyError, ValueError):
+                            # Handle non-standard amino acids
+                            residues.append('X')
+                
+                if residues:
+                    sequences[chain_id] = ''.join(residues)
+        
+        if not sequences:
+            print("ERROR: No amino acid sequences found in structure", file=sys.stderr)
+            sys.exit(1)
+        
+        # Identify target chain (longest chain)
+        target_chain_id = max(sequences.items(), key=lambda x: len(x[1]))[0]
+        target_sequence = sequences[target_chain_id]
+        
+        # Write target sequence to file
+        target_seq_file = f"{design_id}_target_sequence.txt"
+        with open(target_seq_file, 'w') as f:
+            f.write(target_sequence + "\n")
+        
+        print(f"✓ Target chain {target_chain_id} extracted ({len(target_sequence)} residues)")
+        
+        # Create info JSON
+        info = {
+            "design_id": design_id,
+            "source_structure": structure_path.name,
+            "target_chain": target_chain_id,
+            "target_length": len(target_sequence),
+            "all_chains": {cid: len(seq) for cid, seq in sequences.items()}
+        }
+        
+        target_info_file = f"{design_id}_target_info.json"
+        with open(target_info_file, 'w') as f:
+            json.dump(info, f, indent=2)
+        
+        return target_seq_file, target_info_file
+        
+    except Exception as e:
+        print(f"ERROR: Failed to extract target sequence: {e}", file=sys.stderr)
+        import traceback
+        traceback.print_exc()
+        sys.exit(1)
+
+
+def split_fasta(input_file, output_dir="sequences"):
+    """Split multi-sequence FASTA into individual files."""
+    print()
+    print("=" * 80)
+    print("PART 2: Splitting ProteinMPNN sequences")
+    print("=" * 80)
+    
+    print(f"FASTA file: {input_file}")
+    
+    sequences = []
+    current_seq = []
+    current_header = None
+    
+    # Read FASTA
+    try:
+        with open(input_file, 'r') as f:
+            for line in f:
+                line = line.strip()
+                if not line:
+                    continue
+                if line.startswith('>'):
+                    if current_header and current_seq:
+                        sequences.append((current_header, ''.join(current_seq)))
+                    current_header = line
+                    current_seq = []
+                else:
+                    current_seq.append(line)
+            
+            # Add last sequence
+            if current_header and current_seq:
+                sequences.append((current_header, ''.join(current_seq)))
+    except Exception as e:
+        print(f"ERROR: Failed to read FASTA file {input_file}: {e}", file=sys.stderr)
+        sys.exit(1)
+        
+    print(f"Found {len(sequences)} sequences in {input_file}")
+    
+    # Include ALL sequences (including the original first sequence)
+    sequences_to_process = sequences
+    
+    if not sequences_to_process:
+        print("ERROR: No sequences found in FASTA file", file=sys.stderr)
+        sys.exit(1)
+        
+    print(f"Splitting {len(sequences_to_process)} sequences (including original)")
+    
+    # Create output directory
+    os.makedirs(output_dir, exist_ok=True)
+    
+    # Write each sequence to a separate file
+    base_name = os.path.splitext(os.path.basename(input_file))[0]
+    
+    output_files = []
+    for idx, (header, seq) in enumerate(sequences_to_process):
+        # Use 0-based indexing: seq_0 is original, seq_1+ are MPNN designs
+        seq_num = idx
+        output_file = os.path.join(output_dir, f"{base_name}_seq_{seq_num}.fa")
+        
+        with open(output_file, 'w') as out:
+            out.write(f"{header}\n{seq}\n")
+        
+        output_files.append(output_file)
+        seq_type = "original" if idx == 0 else f"MPNN design {idx}"
+        print(f"✓ Created {output_file} ({seq_type})")
+    
+    return output_files
+
+
+def main():
+    parser = argparse.ArgumentParser(description="Prepare sequences for Boltz2 refolding")
+    parser.add_argument("mpnn_fasta", help="ProteinMPNN multi-sequence FASTA file")
+    parser.add_argument("boltzgen_structure", help="Boltzgen structure file (CIF or PDB)")
+    parser.add_argument("design_id", help="Design ID for output files")
+    
+    args = parser.parse_args()
+    
+    # Extract target sequence
+    target_seq_file, target_info_file = extract_target_sequence(
+        args.boltzgen_structure,
+        args.design_id
+    )
+    
+    # Split MPNN sequences
+    sequence_files = split_fasta(args.mpnn_fasta)
+    
+    # Generate version information
+    with open("versions.yml", "w") as f:
+        f.write('"NFPROTEINDESIGN:PROTEIN_DESIGN:PREPARE_BOLTZ2_SEQUENCES":\n')
+        f.write(f'    python: {sys.version.split()[0]}\n')
+        f.write(f'    biopython: {Bio.__version__}\n')
+    
+    print()
+    print("=" * 80)
+    print("✓ Sequence preparation complete")
+    print("=" * 80)
+
+
+if __name__ == "__main__":
+    main()
@@ -106,12 +106,12 @@ process {
         cpus   = { check_max( 8     * task.attempt, 'cpus'    ) }
         memory = { check_max( 32.GB * task.attempt, 'memory'  ) }
         time   = { check_max( 4.h   * task.attempt, 'time'    ) }
-        
+
         // Request 1 GPU for accelerated searches
         accelerator = { check_max( 1, 'gpus' ) }
-        
-        // Container GPU access for Docker
-        containerOptions = '--gpus all'
+
+        // Container GPU access for Docker + override entrypoint to allow bash scripts
+        containerOptions = '--gpus all --entrypoint ""'
     }
 
     withName:BOLTZ2_REFOLD {
 
@@ -32,7 +32,7 @@ params {
     boltz2_num_diffusion       = 2
     run_ipsae                  = true
     run_prodigy                = true
-    run_foldseek               = false
+    run_foldseek               = true
     run_consolidation          = true
 
     // Output
 
@@ -31,10 +31,10 @@ process BOLTZ2_REFOLD {
 
     output:
     tuple val(meta), path("${meta.id}_boltz2_output"), emit: predictions
-    tuple val(meta), path("${meta.id}_boltz2_output/**/*.cif"), optional: true, emit: structures
-    tuple val(meta), path("${meta.id}_boltz2_output/**/*confidence*.json"), optional: true, emit: confidence
-    tuple val(meta), path("${meta.id}_boltz2_output/**/*pae*.npz"), optional: true, emit: pae_npz
-    tuple val(meta), path("${meta.id}_boltz2_output/**/*affinity*.json"), optional: true, emit: affinity
+    tuple val(meta), path("${meta.id}_boltz2_output/*.cif"), optional: true, emit: structures
+    tuple val(meta), path("${meta.id}_boltz2_output/*confidence*.json"), optional: true, emit: confidence
+    tuple val(meta), path("${meta.id}_boltz2_output/*pae*.npz"), optional: true, emit: pae_npz
+    tuple val(meta), path("${meta.id}_boltz2_output/*affinity*.json"), optional: true, emit: affinity
     path "versions.yml", emit: versions
 
     script:
@@ -126,33 +126,51 @@ process BOLTZ2_REFOLD {
     # Organize outputs
     echo ""
     echo "Organizing outputs..."
-    
-    # Move all results to output directory with sequence-specific naming
+
+    # Move all results to output directory
+    # Boltz2 output structure: boltz2_results/boltz_results_<name>/predictions/<name>/<files>
     if [ -d "boltz2_results" ]; then
         mkdir -p ${meta.id}_boltz2_output
-        
-        # Process each prediction directory
-        for pred_dir in boltz2_results/predictions/*_seq_*; do
-            if [ -d "\${pred_dir}" ]; then
-                # Extract sequence number from directory name
-                seq_num=\$(basename "\${pred_dir}" | grep -oP '_seq_\\K[0-9]+')
-                
-                echo "  Processing sequence \${seq_num}..."
-                
-                # Rename files to include sequence suffix
-                find "\${pred_dir}" -type f \\( -name "*.cif" -o -name "*.json" -o -name "*.npz" \\) | while read file; do
-                    filename=\$(basename "\${file}")
-                    extension="\${filename##*.}"
-                    basename_without_ext="\${filename%.*}"
-                    
-                    # Add sequence suffix before extension
-                    new_filename="\${basename_without_ext}_seq\${seq_num}.\${extension}"
-                    
-                    # Copy to output directory
-                    cp "\${file}" "${meta.id}_boltz2_output/\${new_filename}"
-                    echo "    Saved: \${new_filename}"
-                done
-            fi
+
+        echo "  Searching for Boltz2 output files..."
+
+        # Find all prediction directories (handles nested structure)
+        find boltz2_results -type d -name "predictions" | while read pred_parent; do
+            # Get the actual prediction subdirectories
+            for pred_dir in "\${pred_parent}"/*/; do
+                if [ -d "\${pred_dir}" ]; then
+                    dir_name=\$(basename "\${pred_dir}")
+                    echo "  Processing prediction: \${dir_name}"
+
+                    # Copy CIF files (format: <name>_model_0.cif)
+                    find "\${pred_dir}" -name "*.cif" -type f | while read file; do
+                        filename=\$(basename "\${file}")
+                        cp "\${file}" "${meta.id}_boltz2_output/\${filename}"
+                        echo "    Saved CIF: \${filename}"
+                    done
+
+                    # Copy PAE NPZ files (format: pae_<name>_model_0.npz)
+                    find "\${pred_dir}" -name "pae*.npz" -type f | while read file; do
+                        filename=\$(basename "\${file}")
+                        cp "\${file}" "${meta.id}_boltz2_output/\${filename}"
+                        echo "    Saved PAE: \${filename}"
+                    done
+
+                    # Copy confidence JSON files
+                    find "\${pred_dir}" -name "*confidence*.json" -type f | while read file; do
+                        filename=\$(basename "\${file}")
+                        cp "\${file}" "${meta.id}_boltz2_output/\${filename}"
+                        echo "    Saved confidence: \${filename}"
+                    done
+
+                    # Copy affinity JSON files
+                    find "\${pred_dir}" -name "*affinity*.json" -type f | while read file; do
+                        filename=\$(basename "\${file}")
+                        cp "\${file}" "${meta.id}_boltz2_output/\${filename}"
+                        echo "    Saved affinity: \${filename}"
+                    done
+                fi
+            done
         done
     fi
     
 
@@ -28,8 +28,7 @@ process BOLTZGEN_RUN {
     tuple val(meta), path("${meta.id}_output/intermediate_designs/*.npz"), optional: true, emit: intermediate_npz
 
     // Intermediate inverse folded designs (all budget designs - this is what we want for IPSAE/PRODIGY)
-    // Collect both CIF files from final_ranked_designs subdirectories AND from intermediate_designs_inverse_folded
-    tuple val(meta), path("${meta.id}_output/intermediate_designs_inverse_folded/*.cif"), optional: true, emit: budget_design_cifs
+    tuple val(meta), path("${meta.id}_output/final_ranked_designs/final_*_designs/*.cif"), optional: true, emit: budget_design_cifs
     tuple val(meta), path("${meta.id}_output/intermediate_designs_inverse_folded/*.npz"), optional: true, emit: budget_design_npz
 
     // Specific intermediate outputs: binder by itself and refolded complex
Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`	`1`	`sample_id,design_yaml,structure_files,protocol,num_designs,budget,reuse,target_msa`
`2`		`-2vsm_protein_binder,assets/test_data/2VSM_protein_design.yaml,assets/test_data/2VSM.cif,protein-anything,3,2,,assets/test_data/2VSM_seq.Uniref30_2302.a3m`
	`2`	`+2vsm,assets/test_data/2VSM_protein_design.yaml,assets/test_data/2VSM.cif,protein-anything,3,2,,assets/test_data/2VSM_seq.Uniref30_2302.a3m`