Translate NT target sequence for targets with protein-level variants

sallybg · sallybg · commit 377a8c441f8f · 2025-07-17T11:28:48.000-07:00
If a target has only protein-level variants, but the provided target sequence
is a nucleotide sequence, translate the nucleotide sequence to an amino acid
sequence immediately after metadata ingestion.
This change avoids alignment errors that can occur when a target sequence has been
codon-optimized to a non-human organism. Since we do not have sufficient metadata
to assume that a target sequence has been codon-optimized, always perform translation
when there are no nucleotide-level variants for a target.
diff --git a/src/api/routers/map.py b/src/api/routers/map.py
@@ -16,6 +16,7 @@
 from dcd_mapping.lookup import DataLookupError
 from dcd_mapping.mavedb_data import (
     ScoresetNotSupportedError,
+    correct_target_sequence_type,
     get_raw_scoreset_metadata,
     get_scoreset_metadata,
     get_scoreset_records,
@@ -48,6 +49,7 @@ async def map_scoreset(urn: str, store_path: Path | None = None) -> JSONResponse
     try:
         metadata = get_scoreset_metadata(urn, store_path)
         records = get_scoreset_records(metadata, True, store_path)
+        metadata = correct_target_sequence_type(metadata, records)
     except ScoresetNotSupportedError as e:
         return JSONResponse(
             content=ScoresetMapping(
diff --git a/src/dcd_mapping/main.py b/src/dcd_mapping/main.py
@@ -22,6 +22,7 @@
 )
 from dcd_mapping.mavedb_data import (
     ScoresetNotSupportedError,
+    correct_target_sequence_type,
     get_scoreset_metadata,
     get_scoreset_records,
     with_mavedb_score_set,
@@ -332,6 +333,7 @@ async def map_scoreset_urn(
     try:
         metadata = get_scoreset_metadata(urn, store_path)
         records = get_scoreset_records(metadata, silent, store_path)
+        metadata = correct_target_sequence_type(metadata, records)
     except ScoresetNotSupportedError as e:
         _emit_info(f"Score set not supported: {e}", silent, logging.ERROR)
         final_output = write_scoreset_mapping_to_json(
diff --git a/src/dcd_mapping/mavedb_data.py b/src/dcd_mapping/mavedb_data.py
@@ -30,8 +30,10 @@
     ScoresetMapping,
     ScoresetMetadata,
     TargetGene,
+    TargetSequenceType,
     UniProtRef,
 )
+from dcd_mapping.transcripts import _get_protein_sequence
 
 __all__ = [
     "get_scoreset_urns",
@@ -324,6 +326,28 @@ def get_scoreset_records(
     return _load_scoreset_records(scores_csv, metadata)
 
 
+def correct_target_sequence_type(
+    metadata: ScoresetMetadata, records: dict
+) -> ScoresetMetadata:
+    """If target sequence type is DNA but all variants are protein-level, change to protein.
+    This avoids BLAT errors in cases where the target sequence was codon-optimized
+    for a non-human organism
+    """
+    for target_label, target in metadata.target_genes.items():
+        if target.target_sequence_type == TargetSequenceType.DNA:
+            all_protein = True
+            for record in records.get(target_label, []):
+                if record.hgvs_pro == "NA" or not record.hgvs_pro:
+                    all_protein = False
+                    break
+            if all_protein:
+                msg = f"Changing target sequence type for {metadata.urn} target {target_label} from DNA to protein because all variants are protein-level"
+                _logger.info(msg)
+                target.target_sequence = _get_protein_sequence(target.target_sequence)
+                target.target_sequence_type = TargetSequenceType.PROTEIN
+    return metadata
+
+
 def with_mavedb_score_set(fn: Callable) -> Callable:
     @wraps(fn)
     async def wrapper(*args, **kwargs) -> ScoresetMapping:  # noqa: ANN002