docxology
diff --git a/‎.cursorrules‎
Lines changed: 30 additions & 1 deletion b/‎.cursorrules‎
Lines changed: 30 additions & 1 deletion
diff --git a/‎config/gwas/gwas_amellifera.yaml‎
Lines changed: 24 additions & 0 deletions b/‎config/gwas/gwas_amellifera.yaml‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎cursorrules/AGENTS.md‎
Lines changed: 6 additions & 0 deletions b/‎cursorrules/AGENTS.md‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎cursorrules/README.md‎
Lines changed: 6 additions & 0 deletions b/‎cursorrules/README.md‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎cursorrules/SPEC.md‎
Lines changed: 6 additions & 0 deletions b/‎cursorrules/SPEC.md‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎cursorrules/core.cursorrules‎
Lines changed: 20 additions & 0 deletions b/‎cursorrules/core.cursorrules‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎cursorrules/dna.cursorrules‎
Lines changed: 28 additions & 5 deletions b/‎cursorrules/dna.cursorrules‎
Lines changed: 28 additions & 5 deletions
diff --git a/‎cursorrules/ecology.cursorrules‎
Lines changed: 33 additions & 14 deletions b/‎cursorrules/ecology.cursorrules‎
Lines changed: 33 additions & 14 deletions
diff --git a/‎cursorrules/epigenome.cursorrules‎
Lines changed: 14 additions & 1 deletion b/‎cursorrules/epigenome.cursorrules‎
Lines changed: 14 additions & 1 deletion
diff --git a/‎cursorrules/gwas.cursorrules‎
Lines changed: 25 additions & 3 deletions b/‎cursorrules/gwas.cursorrules‎
Lines changed: 25 additions & 3 deletions
@@ -30,6 +30,11 @@
 - **Networks**: `output/networks/<network_type>/` (e.g., `ppi/`, `regulatory/`, `pathways/`)
 - **ML**: `output/ml/<task>/` (e.g., `classification/`, `regression/`, `features/`)
 - **Multi-Omics**: `output/multiomics/<integration>/` (e.g., `integrated/`, `plots/`)
+- **Long Read**: `output/longread/<analysis_type>/` (e.g., `basecalling/`, `assembly/`, `methylation/`)
+- **Metagenomics**: `output/metagenomics/<analysis_type>/` (e.g., `amplicon/`, `assembly/`, `functional/`)
+- **Structural Variants**: `output/structural_variants/<analysis_type>/` (e.g., `detection/`, `annotation/`)
+- **Spatial**: `output/spatial/<analysis_type>/` (e.g., `clustering/`, `deconvolution/`, `integration/`)
+- **Pharmacogenomics**: `output/pharmacogenomics/<analysis_type>/` (e.g., `alleles/`, `clinical/`, `reports/`)
 
 ## Path and I/O
 
@@ -167,6 +172,11 @@ with io.open_text_auto("data/large_file.txt.gz") as f:
 - **Networks Module**: Use prefix `NET_` (e.g., `NET_THREADS`, `NET_WORK_DIR`)
 - **ML Module**: Use prefix `ML_` (e.g., `ML_THREADS`, `ML_WORK_DIR`, `ML_MODEL_DIR`)
 - **Multi-Omics Module**: Use prefix `MULTI_` (e.g., `MULTI_THREADS`, `MULTI_WORK_DIR`)
+- **Long Read Module**: Use prefix `LR_` (e.g., `LR_THREADS`, `LR_WORK_DIR`)
+- **Metagenomics Module**: Use prefix `META_` (e.g., `META_THREADS`, `META_WORK_DIR`)
+- **Structural Variants Module**: Use prefix `SV_` (e.g., `SV_THREADS`, `SV_WORK_DIR`)
+- **Spatial Module**: Use prefix `SPATIAL_` (e.g., `SPATIAL_THREADS`, `SPATIAL_WORK_DIR`)
+- **Pharmacogenomics Module**: Use prefix `PHARMA_` (e.g., `PHARMA_THREADS`, `PHARMA_DB_PATH`)
 
 ### Configuration File Structure
 ```yaml
@@ -202,7 +212,7 @@ def load_domain_config(config_file: str | Path, prefix: str = "DOMAIN") -> Domai
 - RNA: `AmalgkitWorkflowConfig` with prefix `"AK"`
 - GWAS: `GWASWorkflowConfig` with prefix `"GWAS"`
 - Life Events: `LifeEventsWorkflowConfig` with prefix `"LE"`
-- Other modules: Follow pattern `{MODULE}_` prefix (e.g., `DNA_`, `PROT_`, `EPI_`, `ONT_`, `PHEN_`, `ECO_`, `MATH_`, `INFO_`, `VIZ_`, `SIM_`, `SC_`, `QC_`, `NET_`, `ML_`, `MULTI_`)
+- Other modules: Follow pattern `{MODULE}_` prefix (e.g., `DNA_`, `PROT_`, `EPI_`, `ONT_`, `PHEN_`, `ECO_`, `MATH_`, `INFO_`, `VIZ_`, `SIM_`, `SC_`, `QC_`, `NET_`, `ML_`, `MULTI_`, `LR_`, `META_`, `SV_`, `SPATIAL_`, `PHARMA_`)
 
 ## Code Quality Policy (STRICTLY NO MOCKS/FAKES/PLACEHOLDERS)
 
@@ -303,6 +313,12 @@ Module-specific rules are organized in the `cursorrules/` directory. Each module
 - `cursorrules/networks.cursorrules` - Biological network analysis
 - `cursorrules/ml.cursorrules` - Machine learning for biological data
 - `cursorrules/multiomics.cursorrules` - Multi-omic data integration
+- `cursorrules/longread.cursorrules` - Long-read sequencing (PacBio/Nanopore)
+- `cursorrules/metagenomics.cursorrules` - Metagenomic analysis (amplicon, shotgun)
+- `cursorrules/structural_variants.cursorrules` - CNV/SV detection and annotation
+- `cursorrules/spatial.cursorrules` - Spatial transcriptomics (Visium, MERFISH, Xenium)
+- `cursorrules/pharmacogenomics.cursorrules` - Clinical pharmacogenomics
+- `cursorrules/menu.cursorrules` - Interactive menu and discovery system
 
 **See `cursorrules/README.md` for detailed information about the modular structure.**
 
@@ -489,6 +505,19 @@ Each module should have:
 - **Quality → All**: Quality control for all data types
 - **Simulation → All**: Synthetic data generation for testing
 - **Multi-Omics**: Integration of DNA, RNA, protein, epigenome, and other omics types
+- **Longread → DNA**: Long-read variant calling and genomic coordinates
+- **Longread → Epigenome**: Methylation from modified base detection
+- **Longread → Structural Variants**: SV detection complements short-read methods
+- **Metagenomics → Ecology**: Community diversity from amplicon/shotgun data
+- **Metagenomics → Networks**: Microbial co-occurrence networks
+- **Metagenomics → Ontology**: Functional annotation via GO/KEGG
+- **Structural Variants → DNA**: Genomic coordinates and variant calling
+- **Structural Variants → GWAS**: Structural variants in association studies
+- **Spatial → Single-Cell**: scRNA-seq reference for deconvolution
+- **Spatial → Networks**: Spatial interaction networks, ligand-receptor
+- **Pharmacogenomics → GWAS**: Variant data from association studies
+- **Pharmacogenomics → DNA**: Genomic coordinates and variant calling
+- **Pharmacogenomics → Phenotype**: Clinical phenotype data
 
 ### Workflow Patterns
 ```python
 
@@ -27,6 +27,23 @@ genome:
   # Direct FTP URL for A. mellifera genome
   ftp_url: https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/003/254/395/GCF_003254395.2_Amel_HAv3.1/
 
+# =============================================================================
+# DATA GENERATION (for synthetic/simulated data pipeline)
+# =============================================================================
+# Controls how run_amellifera_gwas.py generates VCF, phenotype, and metadata.
+# All values are defaults; CLI flags (--scale-factor, --n-variants, etc.) override.
+data_generation:
+  subspecies:
+    A.m.ligustica:  {label: Italian, n_samples: 25, pop_effect: 0.0}
+    A.m.carnica:    {label: Carniolan, n_samples: 20, pop_effect: 0.3}
+    A.m.mellifera:  {label: Dark European, n_samples: 15, pop_effect: -0.2}
+    A.m.caucasica:  {label: Caucasian, n_samples: 10, pop_effect: 0.1}
+    A.m.scutellata: {label: African, n_samples: 10, pop_effect: -0.5}
+  n_drones: 10
+  n_variants: 10000
+  scale_factor: 5   # multiply all counts: 400 diploid + 50 drones = 450 samples
+  seed: 42
+
 # =============================================================================
 # VARIANT DATA SOURCES
 # =============================================================================
@@ -118,6 +135,13 @@ samples:
   # Important for honeybees: population/subspecies, sampling location, season
   # covariates_file: data/covariates/amellifera/covariates.tsv
 
+  # Subset options (all optional; omit or comment out to use all samples):
+  # sample_list: path/to/sample_ids.txt    # one ID per line
+  # subset:
+  #   subspecies: [A.m.ligustica, A.m.carnica]  # filter by subspecies
+  #   caste: [worker]                            # filter by caste
+  #   max_per_subspecies: 10                     # balanced design cap
+
 # =============================================================================
 # POPULATION STRUCTURE
 # =============================================================================
 
@@ -24,6 +24,12 @@ Each `.cursorrules` file contains domain-specific guidelines:
 - `simulation.cursorrules` - Simulation patterns
 - `singlecell.cursorrules` - Single-cell patterns
 - `visualization.cursorrules` - Visualization patterns
+- `longread.cursorrules` - Long-read sequencing (PacBio/Nanopore) patterns
+- `metagenomics.cursorrules` - Metagenomics (amplicon, shotgun) patterns
+- `structural_variants.cursorrules` - Structural variant detection patterns
+- `spatial.cursorrules` - Spatial transcriptomics patterns
+- `pharmacogenomics.cursorrules` - Clinical pharmacogenomics patterns
+- `menu.cursorrules` - Interactive menu system patterns
 
 ## Usage
 These rules are automatically loaded by Cursor AI when working in the corresponding module directories. They ensure:
 
@@ -23,6 +23,12 @@ This directory contains module-specific cursor rules for the METAINFORMANT proje
 - **`epigenome.cursorrules`**: Epigenetic modification analysis
 - **`ecology.cursorrules`**: Ecological metadata and community analysis
 - **`simulation.cursorrules`**: Synthetic data generation
+- **`longread.cursorrules`**: Long-read sequencing (PacBio/Nanopore)
+- **`metagenomics.cursorrules`**: Metagenomic analysis (amplicon, shotgun)
+- **`structural_variants.cursorrules`**: CNV/SV detection and annotation
+- **`spatial.cursorrules`**: Spatial transcriptomics (Visium, MERFISH, Xenium)
+- **`pharmacogenomics.cursorrules`**: Clinical pharmacogenomics
+- **`menu.cursorrules`**: Interactive menu and discovery system
 
 ## Usage
 
 
@@ -53,6 +53,12 @@ Each `.cursorrules` file is a plain text file containing:
 | ecology.cursorrules | Community diversity |
 | simulation.cursorrules | Synthetic data |
 | life_events.cursorrules | Event sequences |
+| longread.cursorrules | Long-read sequencing (PacBio/Nanopore) |
+| metagenomics.cursorrules | Amplicon, shotgun metagenomics |
+| structural_variants.cursorrules | CNV/SV detection and annotation |
+| spatial.cursorrules | Spatial transcriptomics |
+| pharmacogenomics.cursorrules | Clinical pharmacogenomics |
+| menu.cursorrules | Interactive menu system |
 
 ## Interface
 
 
@@ -7,6 +7,26 @@ Shared utilities across all domains. Foundation for all other modules.
 - **Required**: Standard library only
 - **Optional**: Handled defensively (try/except imports)
 
+## Source Structure
+```
+src/metainformant/core/
+├── data/
+│   ├── db.py, validation.py
+├── engine/
+│   └── workflow_manager.py
+├── execution/
+│   ├── discovery.py, parallel.py, workflow.py
+├── io/
+│   ├── atomic.py, cache.py, checksums.py, disk.py
+│   ├── download.py, download_manager.py, download_robust.py
+│   ├── errors.py, io.py, paths.py
+├── ui/
+│   └── tui.py
+└── utils/
+    ├── config.py, errors.py, hash.py, logging.py
+    ├── optional_deps.py, progress.py, symbols.py, text.py, timing.py
+```
+
 ## Package Management
 - **ALWAYS use `uv`** for all Python package management and environment operations
 - Use `uv venv` to create virtual environments
 
@@ -7,6 +7,29 @@ DNA sequence analysis, genomics, population genetics, and variant calling.
 - **Required**: `core`
 - **Optional**: `biopython`, `ncbi-datasets-pylib`, `pysam`
 
+## Source Structure
+```
+src/metainformant/dna/
+├── alignment/
+│   ├── distances.py, msa.py, pairwise.py
+├── expression/
+│   ├── codon.py, transcription.py, translation.py
+├── external/
+│   ├── entrez.py, genomes.py, ncbi.py
+├── integration/
+│   └── rna.py
+├── io/
+│   ├── fasta.py, fastq.py
+├── phylogeny/
+│   └── tree.py
+├── population/
+│   ├── analysis.py, core.py, visualization.py
+├── sequence/
+│   ├── composition.py, consensus.py, core.py, kmer.py, motifs.py, restriction.py
+└── variation/
+    ├── mutations.py, variants.py
+```
+
 ## Package Management
 - **ALWAYS use `uv`** for all Python package management and environment operations
 - Install optional dependencies: `uv add biopython`, `uv add ncbi-datasets-pylib`, `uv add pysam`
@@ -22,7 +45,7 @@ DNA sequence analysis, genomics, population genetics, and variant calling.
 
 **Patterns**:
 ```python
-from metainformant.dna import sequences
+from metainformant.dna.sequence import core as sequences
 
 seqs = sequences.read_fasta("data/sequences.fasta")
 for seq_id, sequence in seqs:
@@ -49,9 +72,9 @@ for seq_id, sequence in seqs:
 
 **Patterns**:
 ```python
-from metainformant.dna import phylogeny
+from metainformant.dna.phylogeny import tree
 
-tree = phylogeny.neighbor_joining_tree(sequences)
+tree_result = tree.neighbor_joining_tree(sequences)
 # Returns Newick format string or tree object
 ```
 
@@ -62,7 +85,7 @@ tree = phylogeny.neighbor_joining_tree(sequences)
 
 **Patterns**:
 ```python
-from metainformant.dna import population
+from metainformant.dna.population import core as population
 
 stats = population.calculate_pi(sequences)
 # Returns: {"pi": 0.001, "segregating_sites": 42, ...}
@@ -95,7 +118,7 @@ stats = population.calculate_pi(sequences)
 
 **Patterns**:
 ```python
-from metainformant.dna import ncbi, genomes
+from metainformant.dna.external import ncbi, genomes
 
 # Validate accession
 accession = genomes.validate_accession("GCF_000001405.40")
 
@@ -7,6 +7,15 @@ Ecological metadata and community analysis: community structure analysis and div
 - **Required**: `core`
 - **Optional**: `math` (diversity calculations)
 
+## Source Structure
+```
+src/metainformant/ecology/
+├── analysis/
+│   ├── community.py, functional.py, indicators.py, macroecology.py, ordination.py
+└── visualization/
+    └── visualization.py
+```
+
 ## Package Management
 - **ALWAYS use `uv`** for all Python package management and environment operations
 - Use `uv run` to execute commands: `uv run pytest`, `uv run metainformant ecology --help`
@@ -19,20 +28,30 @@ Ecological metadata and community analysis: community structure analysis and div
 - Species abundance
 - Diversity metrics
 
-### Environmental (`environmental`)
-- Environmental metadata integration
-- Ecological parameter analysis
-- Environmental variable processing
-
-### Interactions (`interactions`)
-- Ecological interaction analysis
-- Species interaction networks
-- Interaction pattern detection
-
-### Workflow (`workflow`)
-- End-to-end ecology analysis workflows
-- Workflow orchestration
-- Configuration-based execution
+### Functional (`functional`)
+- Functional trait analysis
+- Functional diversity
+- Trait-based ecology
+
+### Indicators (`indicators`)
+- Ecological indicators
+- Environmental health metrics
+- Biodiversity indicators
+
+### Macroecology (`macroecology`)
+- Macroecological patterns
+- Species-area relationships
+- Abundance distributions
+
+### Ordination (`ordination`)
+- Ordination methods (PCA, NMDS, CCA)
+- Community composition analysis
+- Multivariate statistics
+
+### Visualization (`visualization`)
+- Ecological data visualization
+- Community structure plots
+- Diversity visualizations
 
 ## Patterns
 
 
@@ -6,6 +6,19 @@ Epigenetic modification analysis: DNA methylation analysis and epigenomic track
 ## Dependencies
 - **Required**: `core`, `dna` (for genomic coordinates)
 
+## Source Structure
+```
+src/metainformant/epigenome/
+├── analysis/
+│   └── tracks.py
+├── assays/
+│   ├── atacseq.py, chipseq.py, methylation.py
+├── visualization/
+│   └── visualization.py
+└── workflow/
+    └── workflow.py
+```
+
 ## Package Management
 - **ALWAYS use `uv`** for all Python package management and environment operations
 - Use `uv run` to execute commands: `uv run pytest`, `uv run metainformant epigenome --help`
@@ -20,7 +33,7 @@ Epigenetic modification analysis: DNA methylation analysis and epigenomic track
 
 **Patterns**:
 ```python
-from metainformant.epigenome import methylation
+from metainformant.epigenome.assays import methylation
 
 methylation_data = methylation.analyze_methylation(
     bam_file="data/methylation.bam",
 
@@ -7,6 +7,28 @@ Genome-wide association studies: variant quality control, association testing, p
 - **Required**: `core`, `dna.variants`, `dna.population`, `math.popgen`, `ml.regression`
 - **Optional**: External tools (bcftools, GATK) for variant calling
 
+## Source Structure
+```
+src/metainformant/gwas/
+├── analysis/
+│   ├── annotation.py, association.py, calling.py, correction.py
+│   ├── heritability.py, ld_pruning.py, mixed_model.py
+│   ├── quality.py, structure.py, summary_stats.py, utils.py
+├── data/
+│   ├── config.py, download.py, genome.py, metadata.py, sra_download.py
+├── visualization/
+│   ├── config.py, general.py, utils.py
+│   ├── visualization_comparison.py, visualization_composite.py
+│   ├── visualization_effects.py, visualization_finemapping.py
+│   ├── visualization_genome.py, visualization_geography.py
+│   ├── visualization_interactive.py, visualization_ld.py
+│   ├── visualization_phenotype.py, visualization_population.py
+│   ├── visualization_regional.py, visualization_statistical.py
+│   ├── visualization_suite.py, visualization_variants.py
+└── workflow/
+    └── workflow.py
+```
+
 ## Package Management
 - **ALWAYS use `uv`** for all Python package management and environment operations
 - Use `uv run` to execute commands: `uv run pytest`, `uv run metainformant gwas run --config config/gwas/example.yaml`
@@ -22,7 +44,7 @@ Genome-wide association studies: variant quality control, association testing, p
 
 **Patterns**:
 ```python
-from metainformant.gwas import association
+from metainformant.gwas.analysis import association
 
 results = association.test_association(
     genotypes=genotypes,
@@ -40,7 +62,7 @@ results = association.test_association(
 
 **Patterns**:
 ```python
-from metainformant.gwas import correction
+from metainformant.gwas.analysis import correction
 
 corrected = correction.apply_bonferroni(p_values)
 corrected = correction.apply_fdr(p_values, method="bh")
@@ -79,7 +101,7 @@ corrected = correction.apply_fdr(p_values, method="bh")
 
 **Patterns**:
 ```python
-from metainformant.gwas import visualization
+from metainformant.gwas.visualization import general as visualization
 
 visualization.plot_manhattan(
     results=association_results,