Merge pull request #5 from moleculemaker/cx/update-data-model

chasing311 · web-flow · commit f5ec02f92be9 · 2025-06-26T21:31:06.000-07:00
update data model to match front end
diff --git a/app/db/queries.py b/app/db/queries.py
@@ -20,6 +20,7 @@ async def build_conditions(
         "protein_name": params.protein_name,
         "organism": params.organism,
         "gene_name": params.gene_name,
+        "uniprot_id": params.uniprot_id,
     }
 
     for column, values in string_columns.items():
diff --git a/app/models/clean_data.py b/app/models/clean_data.py
@@ -3,6 +3,10 @@
 
 from pydantic import BaseModel, Field
 
+class ECNumberConfidence(BaseModel):
+    ec_number: str
+    score: float
+
 class CLEANColumn(Enum):
     predictions_uniprot_annot_id = "predictions_uniprot_annot_id"
     uniprot_id = "uniprot_id"
@@ -27,7 +31,7 @@ class CLEANDataBase(BaseModel):
         None,
         description="Unique identifier for the CLEAN predictions record.",
     )
-    uniprot_id: Optional[str] = Field(
+    uniprot: Optional[str] = Field(
         None,
         description="Unique identifier for the Uniprot record.",
     )
@@ -39,40 +43,37 @@ class CLEANDataBase(BaseModel):
         None,
         description="Uniprot accession number.",
     )
-    protein_name: Optional[str] = Field(
+    protein: Optional[str] = Field(
         None,
         description="Name of the protein associated with the Uniprot record.",
     )
     organism: Optional[str] = Field(
         None,
         description= "Name of the organism associated with the Uniprot record.",
     )
-    ncbi_taxid: Optional[int] = Field(
+    ncbi_tax_id: Optional[int] = Field(
         None,
         description="NCBI Taxonomy ID for the organism associated with the Uniprot record.",
     )
     amino_acids: Optional[int] = Field(
         None, description= "Length of the amino acid sequence associated with the Uniprot record.",
     )
-    protein_sequence: Optional[str] = Field(
+    sequence: Optional[str] = Field(
         None,
         description="Amino acid sequence of the protein associated with the Uniprot record.",
     )
-    enzyme_function: Optional[str] = Field(
+    function: Optional[str] = Field(
         None,
         description="Function of the enzyme associated with the Uniprot record.",
     )
     gene_name: Optional[str] = Field(
         None, description="Name of the gene associated with the Uniprot record.",
     )
-    clean_ec_number_array: Optional[List[str]] = Field(
-        None,
-        description="List of CLEAN predicted EC numbers associated with the Uniprot record. Each EC number is a string.",
-    )
-    clean_ec_confidence_array: Optional[List[float]] = Field(
+    predicted_ec: Optional[List[ECNumberConfidence]] = Field(
         None,
-        description="List of confidence scores for each CLEAN predicted EC number. Each score is a float.",
+        description="List of CLEAN predicted EC numbers with associated confidence scores."
     )
+
     annot_ec_number_array: Optional[List[str]] = Field(
         None,
         description="List of annotated EC numbers associated with the Uniprot record. Each EC number is a string.",
diff --git a/app/models/query_params.py b/app/models/query_params.py
@@ -36,6 +36,9 @@ class CLEANSearchQueryParams(BaseModel):
     gene_name: Optional[List[str]] = Field(
         None, description="Gene Name, case-insensitive exact match (multiple values allowed, OR logic)"
     )
+    uniprot_id: Optional[List[str]] = Field(
+        None, description=""
+    )
     clean_ec_number: Optional[List[str]] = Field(
         None, description="CLEAN predicted EC number, exact match or wildcard match using terminal dash (multiple values allowed, OR logic)"
     )
diff --git a/app/routers/search.py b/app/routers/search.py
@@ -26,18 +26,22 @@ def parse_query_params(
         None,
         description="Organism Name",
     ),
-    protein_name: Optional[List[str]] = Query(
+    protein: Optional[List[str]] = Query(
         None,
         description="Protein Name",
     ),
     gene_name: Optional[List[str]] = Query(
         None,
         description="Gene Name"
     ),
-    clean_ec_number: Optional[List[str]] = Query(
+    ec_number: Optional[List[str]] = Query(
         None,
         description="CLEAN predicted EC number"
     ),
+    uniprot: Optional[List[str]] = Query(
+        None,
+        description="Uniprot ID"
+    ),
     # Additional filters
     clean_ec_confidence: Optional[float] = Query(
         None, description="Minimum confidence for CLEAN predicted EC number"
@@ -62,12 +66,13 @@ def parse_query_params(
 
         return CLEANSearchQueryParams(
             accession=accession,
-            protein_name=protein_name,
+            protein_name=protein,
             organism=organism,
             gene_name=gene_name,
-            clean_ec_number=clean_ec_number,
+            clean_ec_number=ec_number,
             clean_ec_confidence = clean_ec_confidence,
             sequence_length = sequence_length,
+            uniprot_id = uniprot,
             format=format,
             limit=limit,
             offset=offset,
@@ -142,18 +147,23 @@ async def get_data(
                 limit=total_count if total_count < params.limit else params.limit,
                 data=[CLEANDataBase(
                     predictions_uniprot_annot_id=record["predictions_uniprot_annot_id"],
-                    uniprot_id=record["uniprot_id"],
+                    uniprot=record["uniprot_id"],
                     curation_status=record["curation_status"],
                     accession=record["accession"],
-                    protein_name=record["protein_name"],
+                    protein=record["protein_name"],
                     organism=record["organism"],
-                    ncbi_taxid=record["ncbi_taxid"],
+                    ncbi_tax_id=record["ncbi_taxid"],
                     amino_acids=record["amino_acids"],
-                    protein_sequence=record["protein_sequence"],
-                    enzyme_function=record["enzyme_function"],
+                    sequence=record["protein_sequence"],
+                    function=record["enzyme_function"],
                     gene_name=record["gene_name"],
-                    clean_ec_number_array=record["clean_ec_number_array"],
-                    clean_ec_confidence_array=record["clean_ec_confidence_array"],
+                    predicted_ec=[
+                        {
+                            "ec_number": ec,
+                            "score": conf
+                        }
+                        for ec, conf in zip(record["clean_ec_number_array"], record["clean_ec_confidence_array"])
+                    ],
                     annot_ec_number_array=record["annot_ec_number_array"]
                 ) for record in data],
             )

Original file line number	Diff line number	Diff line change
`@@ -20,6 +20,7 @@ async def build_conditions(`
`20`	`20`	`"protein_name": params.protein_name,`
`21`	`21`	`"organism": params.organism,`
`22`	`22`	`"gene_name": params.gene_name,`
	`23`	`+ "uniprot_id": params.uniprot_id,`
`23`	`24`	`}`
`24`	`25`
`25`	`26`	`for column, values in string_columns.items():`
Original file line number	Diff line number	Diff line change
`@@ -36,6 +36,9 @@ class CLEANSearchQueryParams(BaseModel):`
`36`	`36`	`gene_name: Optional[List[str]] = Field(`
`37`	`37`	`None, description="Gene Name, case-insensitive exact match (multiple values allowed, OR logic)"`
`38`	`38`	`)`
	`39`	`+ uniprot_id: Optional[List[str]] = Field(`
	`40`	`+ None, description=""`
	`41`	`+ )`
`39`	`42`	`clean_ec_number: Optional[List[str]] = Field(`
`40`	`43`	`None, description="CLEAN predicted EC number, exact match or wildcard match using terminal dash (multiple values allowed, OR logic)"`
`41`	`44`	`)`