Merge pull request #140 from VariantEffect/release-2023.5.0

bencap · web-flow · commit b40dbc8e10ea · 2024-01-25T10:42:48.000-08:00
Release 2023.5.0
diff --git a/.github/workflows/run-tests-on-push.yml b/.github/workflows/run-tests-on-push.yml
@@ -0,0 +1,44 @@
+name: Run Tests (On Push)
+on:
+  push:
+
+jobs:
+  run-tests-3_9:
+    runs-on: ubuntu-20.04
+    name: Pytest on Python 3.9 / Ubuntu 20.04
+    steps:
+    - uses: actions/checkout@v4
+    - uses: actions/setup-python@v5
+      with:
+        python-version: "3.9"
+        cache: 'pip'
+    - run: pip install --upgrade pip
+    - run: pip install .[dev,server]
+    - run: pytest tests/
+
+  run-tests-3_10:
+    runs-on: ubuntu-latest
+    name: Pytest on Python 3.10
+    steps:
+    - uses: actions/checkout@v4
+    - uses: actions/setup-python@v5
+      with:
+        python-version: "3.10"
+        cache: 'pip'
+    - run: pip install --upgrade pip
+    - run: pip install .[dev,server]
+    - run: pytest tests/
+
+  run-tests-3_11:
+    runs-on: ubuntu-latest
+    name: Pytest on Python 3.11
+    steps:
+    - uses: actions/checkout@v4
+    - uses: actions/setup-python@v5
+      with:
+        python-version: "3.11"
+        cache: 'pip'
+    - run: pip install --upgrade pip
+    - run: pip install .[dev,server]
+    - run: pytest tests/
+
diff --git a/.gitignore b/.gitignore
@@ -105,6 +105,7 @@ celerybeat.pid
 .env
 .env.*
 !.env.template
+!.env.dev
 .venv
 env/
 venv/
diff --git a/Dockerfile b/Dockerfile
@@ -1,4 +1,40 @@
+FROM python:3.9 AS downloader
+
+WORKDIR /data
+
+# Install tools necessary used to install samtools and htslib so we can configure fasta files for genomic assembly.
+RUN apt-get update && apt-get install -y \
+	build-essential \
+	curl \
+	git \
+	libbz2-dev \
+	libcurl4-openssl-dev \
+	libgsl0-dev \
+	liblzma-dev \
+	libncurses5-dev \
+	libperl-dev \
+	libssl-dev \
+	zlib1g-dev \
+    && rm -rf /var/lib/apt/lists/*
+
+# Install samtools and htslib.
+ARG htsversion=1.19
+RUN curl -L https://github.com/samtools/htslib/releases/download/${htsversion}/htslib-${htsversion}.tar.bz2 | tar xj && \
+    (cd htslib-${htsversion} && ./configure --enable-plugins --with-plugin-path='$(libexecdir)/htslib:/usr/libexec/htslib' && make install) && \
+    ldconfig && \
+    curl -L https://github.com/samtools/samtools/releases/download/${htsversion}/samtools-${htsversion}.tar.bz2 | tar xj && \
+    (cd samtools-${htsversion} && ./configure --with-htslib=system && make install) && \
+    curl -L https://github.com/samtools/bcftools/releases/download/${htsversion}/bcftools-${htsversion}.tar.bz2 | tar xj && \
+    (cd bcftools-${htsversion} && ./configure --enable-libgsl --enable-perl-filters --with-htslib=system && make install)
+
+# Fetch and index GRCh37 and GRCh38 assemblies. These will augment seqrepo transcript sequences.
+RUN wget -O - https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/GCF_000001405.25_GRCh37.p13_genomic.fna.gz | gzip -d | bgzip >  GCF_000001405.25_GRCh37.p13_genomic.fna.gz
+RUN wget -O - https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_genomic.fna.gz | gzip -d | bgzip > GCF_000001405.39_GRCh38.p13_genomic.fna.gz
+RUN samtools faidx GCF_000001405.25_GRCh37.p13_genomic.fna.gz
+RUN samtools faidx GCF_000001405.39_GRCh38.p13_genomic.fna.gz
+
 FROM python:3.9
+COPY --from=downloader /data /data
 
 WORKDIR /code
 
diff --git a/pyproject.toml b/pyproject.toml
@@ -25,9 +25,10 @@ dependencies = [
     "eutils~=0.6.0",
     "hgvs~=1.5.4",
     "biocommons~=0.0.0",
-    "numpy~=1.22.3",
+    "cdot~=0.2.21",
+    "numpy~=1.22",
     "pandas~=1.4.1",
-    "pydantic~=1.9.1",
+    "pydantic~=1.10",
     "python-dotenv~=0.20.0",
     "SQLAlchemy~=1.4.31",
 ]
@@ -39,20 +40,21 @@ dev = [
     "pre-commit",
     "pytest~=7.0.1",
     "jsonschema",
+    "httpx~=0.26.0",
 ]
 server = [
     "alembic~=1.7.6",
     "authlib~=0.15.5",
-    "cryptography~=37.0.4",
+    "cryptography~=41.0.6",
     "celery~=5.2.3",
-    "fastapi~=0.71.0",
+    "fastapi~=0.95.0",
     "orcid~=1.0.3",
     "psycopg2~=2.9.3",
     "python-jose[cryptography]~=3.3.0",
     "python-multipart~=0.0.5",
-    "requests~=2.28.1",
+    "requests~=2.31.0",
     "slack-sdk~=3.21.3",
-    "starlette~=0.17.1",
+    "starlette~=0.27.0",
     "uvicorn[standard]",
 ]
 
diff --git a/requirements.txt b/requirements.txt
@@ -1,6 +1,7 @@
 alembic~=1.7.6
 authlib~=0.15.5
 biocommons~=0.0.0
+cdot~=0.2.21
 celery~=5.2.3
 cryptography~=37.0.4
 eutils~=0.6.0
diff --git a/settings/.env.dev b/settings/.env.dev
@@ -0,0 +1,22 @@
+####################################################################################################
+# Environment variables for mavedb-api
+####################################################################################################
+
+DB_DATABASE_NAME=mavedb
+DB_USERNAME=postgres
+DB_PASSWORD=postgres
+NCBI_API_KEY=abc
+
+####################################################################################################
+# Environment variables for postgres
+####################################################################################################
+
+POSTGRES_DB=mavedb
+POSTGRES_USER=postgres
+POSTGRES_PASSWORD=postgres
+
+####################################################################################################
+# Environment variables for Slack
+####################################################################################################
+
+SLACK_WEBHOOK_URL=
diff --git a/src/mavedb/__init__.py b/src/mavedb/__init__.py
@@ -1,2 +1,2 @@
 __project__ = "mavedb-api"
-__version__ = "2023.4.2"
+__version__ = "2023.5.0"
diff --git a/src/mavedb/deps.py b/src/mavedb/deps.py
@@ -2,6 +2,7 @@
 import sys
 from typing import Generator
 
+from cdot.hgvs.dataproviders import RESTDataProvider, ChainedSeqFetcher, FastaSeqFetcher, SeqFetcher
 from sqlalchemy.dialects.postgresql import JSONB as POSTGRES_JSONB
 from sqlalchemy.types import JSON
 
@@ -17,6 +18,29 @@ def get_db() -> Generator:
         db.close()
 
 
+def hgvs_data_provider() -> RESTDataProvider:
+    # Prioritize fetching from SeqRepo, then GRCh38, then GRCh37.
+    seqfetcher = ChainedSeqFetcher(SeqFetcher())
+
+    # Attempt to resolve FASTA Seq fetchers from data files, but don't fail if neither file is
+    # available. This way, we at least retain some ability to resolve sequences if we don't have
+    # FASTA file access and we are able to run our test suite without needing access to large genomic
+    # files.
+    try:
+        grch38_fetcher = FastaSeqFetcher("/data/GCF_000001405.39_GRCh38.p13_genomic.fna.gz")
+        seqfetcher.seq_fetchers.append(grch38_fetcher)
+    except OSError:
+        pass
+
+    try:
+        grch37_fetcher = FastaSeqFetcher("/data/GCF_000001405.25_GRCh37.p13_genomic.fna.gz")
+        seqfetcher.seq_fetchers.append(grch37_fetcher)
+    except OSError:
+        pass
+
+    return RESTDataProvider(seqfetcher=seqfetcher)
+
+
 # if 'PYTEST_RUN_CONFIG' in os.environ:
 if "pytest" in sys.modules:
     JSONB = JSON
diff --git a/src/mavedb/lib/identifiers.py b/src/mavedb/lib/identifiers.py
@@ -149,7 +149,7 @@ def reference_html(self) -> str:
         else:
             doi_str = "" if not self.preprint_doi else self.preprint_doi
             title = "(None)" if not self.title else self.title.strip(".")
-            journal = "(None)" if not self.publication_journal else self.publication_journal.strip(".")
+            journal = "(None)" if not (hasattr(self, "publication_journal") and self.publication_journal) else self.publication_journal.strip(".")
             year = "(Unknown year)" if not self.preprint_date else self.preprint_date.year
 
             # We don't receive these fields from rxiv platforms
diff --git a/src/mavedb/lib/score_sets.py b/src/mavedb/lib/score_sets.py
@@ -2,10 +2,9 @@
 
 import numpy as np
 import pandas as pd
-import json
 from pandas.testing import assert_index_equal
-from sqlalchemy import func, or_, and_
-from sqlalchemy.orm import Session, aliased
+from sqlalchemy import func, or_
+from sqlalchemy.orm import aliased, contains_eager, joinedload, selectinload, Session
 
 from mavedb.lib.array_comparison import assert_array_equal
 from mavedb.lib.exceptions import ValidationError
@@ -17,15 +16,20 @@
     VARIANT_SCORE_DATA,
 )
 from mavedb.lib.mave.utils import is_csv_null
+from mavedb.models.ensembl_offset import EnsemblOffset
 from mavedb.models.experiment import Experiment
+from mavedb.models.experiment_publication_identifier import ExperimentPublicationIdentifierAssociation
 from mavedb.models.experiment_set import ExperimentSet
 from mavedb.models.keyword import Keyword
 from mavedb.models.publication_identifier import PublicationIdentifier
+from mavedb.models.score_set_publication_identifier import ScoreSetPublicationIdentifierAssociation
 from mavedb.models.reference_genome import ReferenceGenome
+from mavedb.models.refseq_offset import RefseqOffset
 from mavedb.models.score_set import ScoreSet
 from mavedb.models.target_accession import TargetAccession
 from mavedb.models.target_gene import TargetGene
 from mavedb.models.target_sequence import TargetSequence
+from mavedb.models.uniprot_offset import UniprotOffset
 from mavedb.models.user import User
 from mavedb.view_models.search import ScoreSetsSearch
 
@@ -127,7 +131,50 @@ def search_score_sets(db: Session, owner: Optional[User], search: ScoreSetsSearc
         )
 
     score_sets: list[ScoreSet] = (
-        query.join(ScoreSet.experiment).join(ScoreSet.target_genes).order_by(Experiment.title).all()
+        query.join(ScoreSet.experiment)
+        .options(
+            contains_eager(ScoreSet.experiment).options(
+                joinedload(Experiment.experiment_set),
+                joinedload(Experiment.keyword_objs),
+                joinedload(Experiment.created_by),
+                joinedload(Experiment.modified_by),
+                joinedload(Experiment.keyword_objs),
+                joinedload(Experiment.doi_identifiers),
+                joinedload(Experiment.publication_identifier_associations).joinedload(
+                    ExperimentPublicationIdentifierAssociation.publication
+                ),
+                joinedload(Experiment.raw_read_identifiers),
+                selectinload(Experiment.score_sets).options(
+                    joinedload(ScoreSet.keyword_objs),
+                    joinedload(ScoreSet.doi_identifiers),
+                    joinedload(ScoreSet.publication_identifier_associations).joinedload(
+                        ScoreSetPublicationIdentifierAssociation.publication
+                    ),
+                    joinedload(ScoreSet.target_genes).options(
+                        joinedload(TargetGene.ensembl_offset).joinedload(EnsemblOffset.identifier),
+                        joinedload(TargetGene.refseq_offset).joinedload(RefseqOffset.identifier),
+                        joinedload(TargetGene.uniprot_offset).joinedload(UniprotOffset.identifier),
+                        joinedload(TargetGene.target_sequence).joinedload(TargetSequence.reference),
+                        joinedload(TargetGene.target_accession),
+                    ),
+                ),
+            ),
+            joinedload(ScoreSet.keyword_objs),
+            joinedload(ScoreSet.license),
+            joinedload(ScoreSet.doi_identifiers),
+            joinedload(ScoreSet.publication_identifier_associations).joinedload(
+                ScoreSetPublicationIdentifierAssociation.publication
+            ),
+            joinedload(ScoreSet.target_genes).options(
+                joinedload(TargetGene.ensembl_offset).joinedload(EnsemblOffset.identifier),
+                joinedload(TargetGene.refseq_offset).joinedload(RefseqOffset.identifier),
+                joinedload(TargetGene.uniprot_offset).joinedload(UniprotOffset.identifier),
+                joinedload(TargetGene.target_sequence).joinedload(TargetSequence.reference),
+                joinedload(TargetGene.target_accession),
+            ),
+        )
+        .order_by(Experiment.title)
+        .all()
     )
     if not score_sets:
         score_sets = []
diff --git a/src/mavedb/lib/validation/dataframe.py b/src/mavedb/lib/validation/dataframe.py
@@ -1,17 +1,16 @@
 from typing import Optional, Tuple, Union
 
-import hgvs.dataproviders.interface
-import hgvs.dataproviders.seqfetcher
-import hgvs.dataproviders.uta
 import hgvs.exceptions
 import hgvs.parser
 import hgvs.validator
 import numpy as np
 import pandas as pd
+
 from fqfa.util.translate import translate_dna
 from mavehgvs.exceptions import MaveHgvsParseError
 from mavehgvs.variant import Variant
 
+from mavedb.deps import hgvs_data_provider
 from mavedb.lib.exceptions import MixedTargetError
 from mavedb.lib.validation.constants.general import (
     hgvs_nt_column,
@@ -401,6 +400,8 @@ def validate_hgvs_transgenic_column(column: pd.Series, is_index: bool, targets:
     # get a list of all invalid variants
     invalid_variants = list()
     for i, s in column.items():
+        if not s: continue
+
         # variants can exist on the same line separated by a space
         for variant in s.split(" "):
             # When there are multiple targets, treat provided variants as fully qualified.
@@ -481,7 +482,7 @@ def validate_hgvs_genomic_column(column: pd.Series, is_index: bool, targets: lis
             raise ValueError(f"unrecognized hgvs column name '{column.name}'")
 
     hp = hgvs.parser.Parser()
-    hdp = hgvs.dataproviders.uta.connect()
+    hdp = hgvs_data_provider()
     vr = hgvs.validator.Validator(hdp=hdp)
 
     invalid_variants = list()
diff --git a/src/mavedb/models/publication_identifier.py b/src/mavedb/models/publication_identifier.py
@@ -1,11 +1,10 @@
 from datetime import date
 
 from sqlalchemy import Column, Date, Integer, String
-from sqlalchemy.dialects.postgresql import JSONB
+from mavedb.deps import JSONB
 
 from mavedb.db.base import Base
 
-
 class PublicationIdentifier(Base):
     __tablename__ = "publication_identifiers"
 
diff --git a/src/mavedb/routers/hgvs.py b/src/mavedb/routers/hgvs.py
diff --git a/tests/conftest.py b/tests/conftest.py
diff --git a/tests/helpers/constants.py b/tests/helpers/constants.py
diff --git a/tests/routers/test_hgvs.py b/tests/routers/test_hgvs.py
diff --git a/tests/view_models/test_target_gene.py b/tests/view_models/test_target_gene.py
diff --git a/tests/view_models/test_wild_type_sequence.py b/tests/view_models/test_wild_type_sequence.py

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`	`1`	`__project__ = "mavedb-api"`
`2`		`-__version__ = "2023.4.2"`
	`2`	`+__version__ = "2023.5.0"`