#98 - Provide methods in JSON, and build for release

davmlaw · davmlaw · commit 08211e28ad49 · 2025-08-18T16:16:03.000+09:30
diff --git a/generate_transcript_data/cdot_json.py b/generate_transcript_data/cdot_json.py
@@ -4,6 +4,7 @@
 import ijson
 import json
 import logging
+import os
 import re
 import sys
 from argparse import ArgumentParser
@@ -59,6 +60,10 @@ def _setup_arg_parser():
     parser_builds.add_argument('--grch38', required=True, help='cdot JSON.gz for GRCh38')
     parser_builds.add_argument('--t2t_chm13v2', required=True, help='cdot JSON.gz for t2t_chm13v2')
 
+    parser_release_notes = subparsers.add_parser("release_notes", help="JSON file to retrieve release notes")
+    parser_release_notes.add_argument("json_filename", help="cdot JSON file")
+    parser_release_notes.add_argument("--show-urls", action='store_true', default=False)
+
     # I want this to be subcommands rather than global (would need to be listed before subcommand)
     for p in [parser_gtf, parser_gff3, parser_uta, parser_historical, parser_builds]:
         p.add_argument('--output', required=True, help='Output filename')
@@ -189,7 +194,9 @@ def gtf_to_json(args):
     refseq_gene_summary_api_retrieval_date = add_gene_info(args.gene_info_json, genes)
     add_gencode_hgnc(args.gencode_hgnc_metadata, genes, transcripts)
     add_canonical_transcripts(args.gene_canonical_transcripts_csv, args.genome_build, transcripts)
-    write_cdot_json(args.output, genes, transcripts, [args.genome_build],
+    method = "Single GFF3 file"
+    write_cdot_json(args.output, method, [args.gtf_filename],
+                    genes, transcripts, [args.genome_build],
                     refseq_gene_summary_api_retrieval_date=refseq_gene_summary_api_retrieval_date)
 
 
@@ -203,7 +210,9 @@ def gff3_to_json(args):
     refseq_gene_summary_api_retrieval_date = add_gene_info(args.gene_info_json, genes)
     add_gencode_hgnc(args.gencode_hgnc_metadata, genes, transcripts)
     add_canonical_transcripts(args.gene_canonical_transcripts_csv, args.genome_build, transcripts)
-    write_cdot_json(args.output, genes, transcripts, [args.genome_build],
+    method = "Single GFF3 file"
+    write_cdot_json(args.output, method, [args.gff3_filename],
+                    genes, transcripts, [args.genome_build],
                     refseq_gene_summary_api_retrieval_date=refseq_gene_summary_api_retrieval_date)
 
 
@@ -284,7 +293,9 @@ def uta_to_json(args):
         transcripts_by_id[transcript_accession] = transcript_data
 
     print("Writing UTA to cdot JSON.gz")
-    write_cdot_json(args.output, genes_by_id, transcripts_by_id, [args.genome_build])
+    method = "Conversion of Universal Transcript Archive dump"
+    write_cdot_json(args.output, method, [args.uta_csv_filename],
+                    genes_by_id, transcripts_by_id, [args.genome_build])
 
 
 def _convert_uta_exons(exon_starts, exon_ends, cigars):
@@ -356,9 +367,11 @@ def _cigar_to_gap_and_length(cigar):
     return gap, exon_length
 
 
-def write_cdot_json(filename, genes, transcript_versions, genome_builds, refseq_gene_summary_api_retrieval_date=None):
+def write_cdot_json(filename: str, method: str, input_files, genes, transcript_versions, genome_builds,
+                    refseq_gene_summary_api_retrieval_date=None):
     print(f"Writing cdot file: '{filename}'")
     data = {
+        # We also write these in metadata now, but keep for legacy compatability
         "cdot_version": JSON_SCHEMA_VERSION,
         "genome_builds": genome_builds,
         "transcripts": transcript_versions,
@@ -368,6 +381,20 @@ def write_cdot_json(filename, genes, transcript_versions, genome_builds, refseq_
     if refseq_gene_summary_api_retrieval_date:
         data["refseq_gene_summary_api_retrieval_date"] = refseq_gene_summary_api_retrieval_date
 
+    url_counts = Counter()
+    for tv in transcript_versions.values():
+        for build_coordinates in tv["genome_builds"].values():
+            url_counts[build_coordinates["url"]] += 1
+
+    data["metadata"] = {
+        "method": method,
+        "input_files": input_files,
+        "sys.argv": " ".join(sys.argv),
+        "url_counts": dict(url_counts.most_common()),
+        "cdot_version": JSON_SCHEMA_VERSION,
+        "genome_builds": genome_builds
+    }
+
     with gzip.open(filename, 'wt') as outfile:
         json.dump(data, outfile, cls=SortedSetEncoder, sort_keys=True)  # Sort so diffs work
 
@@ -405,76 +432,87 @@ def merge_historical(args):
                 historical_transcript_version["gene_version"] = gene_accession
                 transcript_versions[transcript_accession] = historical_transcript_version
 
-    genes = {}  # Only keep those that are used in transcript versions
-    # Summarise where it's from
-    transcript_urls = Counter()
+    genes = {}  # Only keep those that are used in kept transcript versions
     for tv in transcript_versions.values():
         if not args.no_genes:
             if gene_accession := tv.get("gene_version"):
                 genes[gene_accession] = gene_versions[gene_accession]
 
-        for build_coordinates in tv["genome_builds"].values():
-            transcript_urls[build_coordinates["url"]] += 1
-
-    total = sum(transcript_urls.values())
-    print(f"{total} transcript versions from:")
-    for url, count in transcript_urls.most_common():
-        print(f"{url}: {count} ({count*100 / total:.1f}%)")
-
-    write_cdot_json(args.output, genes, transcript_versions, [args.genome_build])
+    method = "Merge historical"
+    write_cdot_json(args.output, method, args.json_filenames,
+                    genes, transcript_versions, [args.genome_build])
 
 
 def combine_builds(args):
     print("combine_builds")
-    genome_build_file = {
-        "GRCh37": gzip.open(args.grch37),
-        "GRCh38": gzip.open(args.grch38),
-        "T2T-CHM13v2.0": gzip.open(args.t2t_chm13v2),
+    genome_build_filename = {
+        "GRCh37": args.grch37,
+        "GRCh38": args.grch38,
+        "T2T-CHM13v2.0": args.t2t_chm13v2,
     }
-
     urls_different_coding = defaultdict(list)
     genes = {}
     transcript_versions = {}
-    for genome_build, f in genome_build_file.items():
-        # TODO: Check cdot versions
-        json_builds = next(ijson.items(f, "genome_builds"))
-        if json_builds != [genome_build]:
-            raise ValueError(f"JSON file provided for {genome_build} needs to have only {genome_build} data (has {json_builds})")
-
-        f.seek(0)  # Reset for next ijson call
-        for transcript_id, build_transcript in ijson.kvitems(f, "transcripts"):
-            genome_builds = {}
-            existing_transcript = transcript_versions.get(transcript_id)
-            if existing_transcript:
-                genome_builds = existing_transcript["genome_builds"]
-                # Latest always used, but check existing - if codons are different old versions are wrong so remove
-                for field in ["start_codon", "stop_codon"]:
-                    old = existing_transcript.get(field)
-                    new = build_transcript.get(field)
-                    if old != new:  # Old relied on different codons so is obsolete
-                        for build_coordinates in genome_builds.values():
-                            url = build_coordinates["url"]
-                            urls_different_coding[url].append(transcript_id)
-                        genome_builds = {}
-
-            genome_builds[genome_build] = build_transcript["genome_builds"][genome_build]
-            # Use latest (with merged genome builds)
-            build_transcript["genome_builds"] = genome_builds
-            transcript_versions[transcript_id] = build_transcript
-
-        f.seek(0)  # Reset for next ijson call
-        for gene_id, gene_data in ijson.kvitems(f, "genes"):
-            genes[gene_id] = gene_data
-
-        f.close()
-
-    write_cdot_json(args.output, genes, transcript_versions, list(genome_build_file.keys()))
+    for genome_build, filename in genome_build_filename.items():
+        with gzip.open(filename) as f:
+            # TODO: Check cdot versions
+            json_builds = next(ijson.items(f, "genome_builds"))
+            if json_builds != [genome_build]:
+                raise ValueError(f"JSON file provided for {genome_build} needs to have only {genome_build} "
+                                 f"data (has {json_builds})")
+
+            f.seek(0)  # Reset for next ijson call
+            for transcript_id, build_transcript in ijson.kvitems(f, "transcripts"):
+                genome_builds = {}
+                existing_transcript = transcript_versions.get(transcript_id)
+                if existing_transcript:
+                    genome_builds = existing_transcript["genome_builds"]
+                    # Latest always used, but check existing - if codons are different old versions are wrong so remove
+                    for field in ["start_codon", "stop_codon"]:
+                        old = existing_transcript.get(field)
+                        new = build_transcript.get(field)
+                        if old != new:  # Old relied on different codons so is obsolete
+                            for build_coordinates in genome_builds.values():
+                                url = build_coordinates["url"]
+                                urls_different_coding[url].append(transcript_id)
+                            genome_builds = {}
+
+                genome_builds[genome_build] = build_transcript["genome_builds"][genome_build]
+                # Use latest (with merged genome builds)
+                build_transcript["genome_builds"] = genome_builds
+                transcript_versions[transcript_id] = build_transcript
+
+            f.seek(0)  # Reset for next ijson call
+            for gene_id, gene_data in ijson.kvitems(f, "genes"):
+                genes[gene_id] = gene_data
+
+    method = "Combine multiple genome builds"
+    write_cdot_json(args.output, method, list(genome_build_filename.values()),
+                    genes, transcript_versions, list(genome_build_filename.keys()))
 
     if urls_different_coding:
         print("Some transcripts were removed as they had different coding coordinates from latest")
         for url, transcript_ids in urls_different_coding.items():
             print(f"{url}: {','.join(transcript_ids)}")
 
+def release_notes(args):
+    with gzip.open(args.json_filename) as f:
+        metadata = next(ijson.items(f, "metadata"))
+        if metadata is None:
+            raise ValueError("No metadata in JSON (requires schema version >=0.2.31)")
+        print(f"### {os.path.basename(args.json_filename)}")
+        print(f"Method: {metadata['method']}")
+        print("Input files:")
+        for input_file in metadata["input_files"]:
+            print(f"- {input_file}")
+
+        if args.show_urls:
+            print("Urls:")
+            # Put in descending order
+            url_counts = Counter(metadata["url_counts"])
+            for url, count in url_counts.most_common():
+                print(f"- {url}: {count}")
+
 
 def main():
     parser = _setup_arg_parser()
@@ -493,6 +531,7 @@ def main():
         "merge_historical": merge_historical,
         "combine_builds": combine_builds,
         "uta_to_json": uta_to_json,
+        "release_notes": release_notes,
     }
     subcommands[args.subcommand](args)
 
diff --git a/generate_transcript_data/github_release_upload.sh b/generate_transcript_data/github_release_upload.sh
@@ -14,28 +14,48 @@ BASE_DIR=$(dirname ${FULL_PATH_TO_SCRIPT})
 export PYTHONPATH=${BASE_DIR}/..
 
 CDOT_DATA_VERSION=$(${BASE_DIR}/cdot_json.py --version)
-
 CDOT_RELEASE_NAME=data_v${CDOT_DATA_VERSION}
-echo "For the rest of the script to work, it assumes you have tagged + pushed a data release of ${CDOT_DATA_VERSION}"
-echo "then run: gh release create ${CDOT_RELEASE_NAME} --title=${CDOT_RELEASE_NAME} --notes 'release notes...'"
-
-gh release upload ${CDOT_RELEASE_NAME} \
-  ${CDOT_DATA_DIR}/ensembl/cdot-${CDOT_DATA_VERSION}.all-builds-ensembl-grch37_grch38_t2t-chm13v2.0.json.gz \
-  ${CDOT_DATA_DIR}/ensembl/cdot-${CDOT_DATA_VERSION}.ensembl.GRCh37.json.gz \
-  ${CDOT_DATA_DIR}/ensembl/GRCh37/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh37_Ensembl_87.gtf.json.gz \
-  ${CDOT_DATA_DIR}/ensembl/cdot-${CDOT_DATA_VERSION}.ensembl.GRCh38.json.gz \
-  ${CDOT_DATA_DIR}/ensembl/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_Ensembl_110.gtf.json.gz \
-  ${CDOT_DATA_DIR}/ensembl/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_Ensembl_111.gtf.json.gz \
-  ${CDOT_DATA_DIR}/ensembl/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_Ensembl_112.gtf.json.gz \
-  ${CDOT_DATA_DIR}/ensembl/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_Ensembl_113.gtf.json.gz \
-  ${CDOT_DATA_DIR}/ensembl/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_Ensembl_114.gtf.json.gz \
-  ${CDOT_DATA_DIR}/ensembl/cdot-${CDOT_DATA_VERSION}.ensembl.T2T-CHM13v2.0.json.gz \
-  ${CDOT_DATA_DIR}/refseq/cdot-${CDOT_DATA_VERSION}.all-builds-refseq-grch37_grch38_t2t-chm13v2.0.json.gz \
-  ${CDOT_DATA_DIR}/refseq/cdot-${CDOT_DATA_VERSION}.refseq.GRCh37.json.gz \
-  ${CDOT_DATA_DIR}/refseq/GRCh37/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh37_RefSeq_105.20201022.gff.json.gz \
-  ${CDOT_DATA_DIR}/refseq/GRCh37/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh37_RefSeq_105.20220307.gff.json.gz \
-  ${CDOT_DATA_DIR}/refseq/cdot-${CDOT_DATA_VERSION}.refseq.GRCh38.json.gz \
-  ${CDOT_DATA_DIR}/refseq/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_RefSeq_110.gff.json.gz \
-  ${CDOT_DATA_DIR}/refseq/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_RefSeq_RS_2023_10.gff.json.gz \
-  ${CDOT_DATA_DIR}/refseq/cdot-${CDOT_DATA_VERSION}.refseq.T2T-CHM13v2.0.json.gz
 
+files=(
+  "${CDOT_DATA_DIR}/ensembl/cdot-${CDOT_DATA_VERSION}.ensembl.GRCh37.json.gz"
+  "${CDOT_DATA_DIR}/ensembl/GRCh37/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh37_Ensembl_87.gtf.json.gz"
+  "${CDOT_DATA_DIR}/ensembl/cdot-${CDOT_DATA_VERSION}.ensembl.GRCh38.json.gz"
+  "${CDOT_DATA_DIR}/ensembl/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_Ensembl_110.gtf.json.gz"
+  "${CDOT_DATA_DIR}/ensembl/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_Ensembl_111.gtf.json.gz"
+  "${CDOT_DATA_DIR}/ensembl/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_Ensembl_112.gtf.json.gz"
+  "${CDOT_DATA_DIR}/ensembl/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_Ensembl_113.gtf.json.gz"
+  "${CDOT_DATA_DIR}/ensembl/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_Ensembl_114.gtf.json.gz"
+  "${CDOT_DATA_DIR}/ensembl/cdot-${CDOT_DATA_VERSION}.ensembl.T2T-CHM13v2.0.json.gz"
+  "${CDOT_DATA_DIR}/refseq/cdot-${CDOT_DATA_VERSION}.all-builds-refseq-grch37_grch38_t2t-chm13v2.0.json.gz"
+  "${CDOT_DATA_DIR}/refseq/cdot-${CDOT_DATA_VERSION}.refseq.GRCh37.json.gz"
+  "${CDOT_DATA_DIR}/refseq/GRCh37/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh37_RefSeq_105.20201022.gff.json.gz"
+  "${CDOT_DATA_DIR}/refseq/GRCh37/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh37_RefSeq_105.20220307.gff.json.gz"
+  "${CDOT_DATA_DIR}/refseq/cdot-${CDOT_DATA_VERSION}.refseq.GRCh38.json.gz"
+  "${CDOT_DATA_DIR}/refseq/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_RefSeq_110.gff.json.gz"
+  "${CDOT_DATA_DIR}/refseq/GRCh38/cdot-${CDOT_DATA_VERSION}.Homo_sapiens_GRCh38_RefSeq_RS_2023_10.gff.json.gz"
+  "${CDOT_DATA_DIR}/refseq/cdot-${CDOT_DATA_VERSION}.refseq.T2T-CHM13v2.0.json.gz"
+)
+
+git fetch --tags
+if ! git tag -l "${CDOT_RELEASE_NAME}" | grep -q .; then
+  echo "Git repo has no tag of '${CDOT_RELEASE_NAME}'"
+  exit 1
+fi
+
+
+if gh release view ${CDOT_RELEASE_NAME}; then
+  echo "Release ${CDOT_RELEASE_NAME} exists"
+else
+  echo "Creating release ${CDOT_RELEASE_NAME}"
+  echo "Generating notes..."
+  RELEASE_NOTES_FILENAME="/tmp/${CDOT_RELEASE_NAME}.txt"
+  echo > ${RELEASE_NOTES_FILENAME} # Clear
+  for f in "${files[@]}"; do
+    ${BASE_DIR}/cdot_json.py release_notes --json-filename=$f >> ${RELEASE_NOTES_FILENAME}
+  done
+  RELEASE_NOTES=$(cat ${RELEASE_NOTES_FILENAME})
+  echo "Creating on GitHub"
+  gh release create ${CDOT_RELEASE_NAME} --title=${CDOT_RELEASE_NAME} --notes ${RELEASE_NOTES}
+fi
+
+gh release upload "${CDOT_RELEASE_NAME}" "${files[@]}"
diff --git a/generate_transcript_data/json_schema_version.py b/generate_transcript_data/json_schema_version.py
@@ -5,5 +5,6 @@
 
 # 0.2.29 - Ensembl now has HGNC added from outside GTFs
 # 0.2.30 - Ensembl GRCh37 has canonical transcripts added from outside GTFs
+# 0.2.31 - Add 'metadata' - method/urls
 
-JSON_SCHEMA_VERSION = "0.2.30"
+JSON_SCHEMA_VERSION = "0.2.31"