fgumi

⚠️ ALPHA SOFTWARE - USE AT YOUR OWN RISK

This software is currently in ALPHA. While we have extensively tested these tools across a wide variety of vendor-provided data, no guarantees are made regarding correctness or stability.

We are targeting June 1, 2026 to recommend fgumi over fgbio for production use.

Fulcrum Genomics Unique Molecular Indexing (UMI) Tools - a suite of high-performance tools for working with UMI-tagged sequencing data.

Overview

fgumi provides comprehensive functionality for:

UMI extraction from FASTQ files
Read grouping by UMI with multiple assignment strategies
UMI-aware deduplication for marking/removing PCR duplicates
Consensus calling (simplex, duplex, and CODEC)
Quality filtering of consensus reads
Read clipping for overlapping pairs
Metrics collection for QC and analysis

Pipeline Overview

The diagram shows the workflow from FASTQ files to filtered consensus reads:

Red: Simplex (single-strand) consensus
Blue: Duplex (double-strand) consensus
Green: CODEC consensus
Orange: Optional UMI correction for fixed UMI sets

Resources

Documentation
Best Practice Pipeline: Recommended workflow from FASTQ to consensus
Performance Tuning Guide: Threading, memory, and compression optimization
Snakemake Pipeline: Reference implementation
Metrics: Output metrics documentation
Developing: Developer guide
Compare CLI: Compare command documentation (feature-gated)
Simulate CLI: Simulate command documentation (feature-gated)
Releases
Issues: Report a bug or request a feature
Pull requests: Submit a patch or new feature
Discussions: Ask a question
Contributors guide
License: Released under the MIT license

Installation

Downloading a pre-built binary

Pre-built binaries for the most common operating systems and CPU architectures are attached to each release for this project.

Installing with Cargo

cargo install fgumi

Building from source

Clone the repository:

git clone https://github.com/fulcrumgenomics/fgumi

Build the release version:

cd fgumi
cargo build --release

Optional Features

Feature	Description
`compare`	Developer tools for comparing BAMs and metrics
`simulate`	Commands for generating synthetic test data
`profile-adjacency`	Enable profiling output for adjacency UMI assigner
Enable with: `cargo build --release --features <feature>`

Available Tools

Command	Description	Equivalent Tool(s)
`extract`	Extract UMIs from FASTQ files	`fgbio ExtractUmisFromBam`
`correct`	Correct UMIs based on sequence similarity	`fgbio CorrectUmis`
`zipper`	Restore original FASTQ from unaligned BAM	`fgbio ZipperBams`, `picard MergeBamAlignment`
`fastq`	Convert BAM to FASTQ format	`samtools fastq`
`sort`	Sort BAM by coordinate/queryname/template	—
`group`	Group reads by UMI	`fgbio GroupReadsByUmi`
`dedup`	Mark/remove UMI-aware duplicates	`gatk UmiAwareMarkDuplicatesWithMateCigar`, `umi-tools dedup`
`simplex`	Call single-strand consensus reads	`fgbio CallMolecularConsensusReads`
`duplex`	Call duplex consensus reads	`fgbio CallDuplexConsensusReads`
`codec`	Call CODEC consensus	`fgbio CallCodecConsensusReads`
`filter`	Filter consensus reads	`fgbio FilterConsensusReads`
`clip`	Clip overlapping read pairs	`fgbio ClipBam`
`duplex-metrics`	Collect duplex metrics	`fgbio CollectDuplexSeqMetrics`
`review`	Review consensus variants	`fgbio ReviewConsensusVariants`
`downsample`	Downsample BAM by UMI family	N/A
`compare <cmd>`	Compare files (feature-gated)	N/A
`simulate <cmd>`	Generate test data (feature-gated)	N/A

Usage

For detailed usage of each command, run:

fgumi <command> --help

Basic Workflow

Extract UMIs from FASTQ:

fgumi extract \
  --inputs R1.fastq.gz R2.fastq.gz \
  --read-structures +T +M \
  --output unaligned.bam \
  --sample MySample \
  --library MyLibrary

(Optional) Correct UMIs for fixed UMI sets:

fgumi correct \
  --input unaligned.bam \
  --output corrected.bam \
  --umi-files umis.txt \
  --min-distance 1

Align and sort reads using fgumi fastq + zipper + sort pipeline:

fgumi fastq --input unaligned.bam \
  | bwa mem -p ref.fa - \
  | fgumi zipper --unmapped unaligned.bam \
  | fgumi sort --output sorted.bam --order template-coordinate

Group reads by UMI:

fgumi group \
  --input sorted.bam \
  --output grouped.bam \
  --strategy paired   # for duplex workflows
  # or --strategy adjacency for simplex/codec workflows

Call consensus reads:

# Simplex consensus
fgumi simplex \
  --input grouped.bam \
  --output consensus.bam

# Or duplex consensus
fgumi duplex \
  --input grouped.bam \
  --output duplex.bam

# Or codec consensus
fgumi codec \
  --input grouped.bam \
  --output codec_consensus.bam

(Optional) Collect duplex metrics:

fgumi duplex-metrics \
  --input grouped.bam \
  --output metrics

Filter consensus reads:

fgumi filter \
  --input consensus.bam \
  --output filtered.bam \
  --ref ref.fa \
  --min-reads 1,1,1

Performance Options

fgumi supports multi-threading and memory management for optimal performance:

Threading: --threads N for parallel processing
Memory: --queue-memory 768 (plain numbers are MB; supports human-readable formats like 2GB)
Compression: --compression-level 1-12 for speed vs size trade-offs

Memory Model — Important for fgbio users: Unlike fgbio's JVM -Xmx which sets a hard ceiling on total process memory, fgumi's --queue-memory controls pipeline queue backpressure only. Two things to be aware of:

Per-thread scaling (default): --queue-memory 768 --threads 8 allocates 768 MB per thread = ~6 GB total queue memory. Use --queue-memory-per-thread false for a fixed total budget.

Queue memory < total process memory: Actual RSS will be higher due to UMI data structures, decompressors, thread stacks, and working buffers.

See the Performance Tuning Guide for detailed guidance, including scenario-based configurations and troubleshooting.

Performance

fgumi is written in Rust for maximum performance.

Command-Level Optimizations

Command	Key Optimizations
`extract`	Work-stealing thread pool, streaming I/O
`correct`	N-gram indexing with pigeonhole principle, BK-tree for k>1
`group`	2-bit UMI encoding, N-gram/BK-tree indexing, directed adjacency graph
`simplex`	Fast-path for unanimous consensus, parallel processing
`duplex`	Parallel duplex calling, efficient strand matching
`codec`	Parallel CODEC consensus
`filter`	Streaming filter with parallel processing
`clip`	Parallel overlap detection and clipping
`sort`	External merge sort, configurable memory limit

General Optimizations

2-bit DNA encoding: 4 bases in 1 byte, 32 bases in u64
CPU intrinsics: XOR + popcount for Hamming distance
Work-stealing scheduler: Unified pipeline with dynamic load balancing
libdeflate: Fast BGZF compression

Acknowledgements

fgumi's UMI grouping algorithms are inspired by:

UMI-tools (Smith et al. 2017) - The directed adjacency method for UMI deduplication with count gradient constraints.
UMICollapse (Liu 2019) - N-gram and BK-tree indexing strategies for efficient similarity search in UMI deduplication.

Authors

Disclaimer

This software is under active development. While we make a best effort to test this software and to fix issues as they are reported, this software is provided as-is without any warranty (see the license for details). Please submit an issue, and better yet a pull request as well, if you discover a bug or identify a missing feature. Please contact Fulcrum Genomics if you are considering using this software or are interested in sponsoring its development.

Name		Name	Last commit message	Last commit date
Latest commit History 111 Commits
.cargo		.cargo
.config		.config
.github		.github
benches		benches
crates		crates
docs		docs
resources		resources
scripts		scripts
src		src
tests		tests
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
CLAUDE.md		CLAUDE.md
CONTRIBUTING.md		CONTRIBUTING.md
Cargo.lock		Cargo.lock
Cargo.toml		Cargo.toml
LICENSE		LICENSE
README.md		README.md
THIRDPARTY.toml		THIRDPARTY.toml
build.rs		build.rs
cliff.toml		cliff.toml
release-plz.toml		release-plz.toml
rust-toolchain.toml		rust-toolchain.toml
rustfmt.toml		rustfmt.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

fgumi

Overview

Pipeline Overview

Resources

Installation

Downloading a pre-built binary

Installing with Cargo

Building from source

Optional Features

Available Tools

Usage

Basic Workflow

Performance Options

Performance

Command-Level Optimizations

General Optimizations

Acknowledgements

Authors

Sponsors

Disclaimer

About

Uh oh!

Releases 13

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

fgumi

Overview

Pipeline Overview

Resources

Installation

Downloading a pre-built binary

Installing with Cargo

Building from source

Optional Features

Available Tools

Usage

Basic Workflow

Performance Options

Performance

Command-Level Optimizations

General Optimizations

Acknowledgements

Authors

Sponsors

Disclaimer

About

Topics

Resources

License

Code of conduct

Contributing

Uh oh!

Stars

Watchers

Forks

Releases 13

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages