initial commit

wingolab · wingolab · commit 03542693bea9 · 2025-07-06T21:40:02.000-07:00
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1,2 @@
+.Rhistory
+*.bak
diff --git a/.perltidyrc b/.perltidyrc
@@ -0,0 +1,40 @@
+# modified from DAGOLDEN .perltidyrc file
+
+-se # Errors to STDERR
+
+-l=85 # Max line width target
+-vmll # variable maximum line length
+-wc=10 # depth to reduce indentation levels
+-i=2 # Indent level
+-ci=2 # Continuation
+
+-vt=0 # vertical tightness
+-cti=0 # extra indentation for closing brackets
+-vtc=0 # close parens on own line if possible
+
+-nsot # stack opening
+-nsct # stack closing
+
+-notr # opening tokens on right of a line
+-pt=1 # parenthesis tightness
+-bt=1 # brace tightness
+-sbt=1 # square bracket tightness
+-bbt=0 # block brace tightness
+-cab=1
+
+-nsfp # no space after function
+-nsfs # No space before semicolons in for loops
+
+-nolq # Don't outdent long quoted strings
+-nola # Don't outdent labels
+-nolc # Don't outdent long comments
+-nokw # Don't outdent keywords
+-nhsc # Don't expect hanging side comments
+-nbbc # No blank before comments
+-tso # Tight secret operators
+
+-msc=1 # Space to side comment
+
+-wbb="% + - \* / x != == >= <= =~ !~ < > | &" # Break before all operators except assignment
+
+-ole=unix # line endings
diff --git a/.prettierrc b/.prettierrc
@@ -0,0 +1,7 @@
+{
+  "endOfLine": "lf",
+  "printWidth": 80,
+  "proseWrap": "always",
+  "tabWidth": 2,
+  "useTabs": false
+}
diff --git a/MESuSiE/MESuSiE_prepare_assoc_match_allele_from_lmm.R b/MESuSiE/MESuSiE_prepare_assoc_match_allele_from_lmm.R
@@ -0,0 +1,39 @@
+args <- commandArgs(trailingOnly = T)
+library(tidyverse)
+
+# gemma assoc is args[1];
+# lmm output
+# chr     rs      ps      n_miss  allele1 allele0 af      beta    se      logl_H1 l_remle p_wald
+assoc <- read.table(args[1], header = T, as.is = T)
+
+## allele list is args[2]; no header; first 3 columns (SNP,A1,A2)
+allele <- read.table(args[2], as.is = T)
+colnames(allele) <- c("SNP", "A1.tomatch", "A2.tomatch")
+
+# plink .fam file is args[3]; only to get sample size N
+fam <- read.table(args[3], as.is = T)
+fam[fam[, 6] == -9, 6] <- NA
+N <- sum(!is.na(fam[, 6]))
+
+output <- args[4]
+
+this_asso <- inner_join(assoc, allele, by = c("rs" = "SNP"))
+# write.table(this_asso,"tep.file")
+# assoc[,c("rs","beta","se")]
+this_asso$Beta.tomatch <- ifelse(this_asso$allele1 == this_asso$A1.tomatch & this_asso$allele0 == this_asso$A2.tomatch,
+  this_asso$beta, ifelse(this_asso$allele0 == this_asso$A1.tomatch & this_asso$allele1 == this_asso$A2.tomatch,
+    -this_asso$beta, NA
+  )
+)
+# colnames(summ)=c("SNP","Beta","Se")
+this_asso$Z <- this_asso$Beta.tomatch / this_asso$se
+this_asso$N <- N - this_asso$n_miss
+this_asso <- this_asso %>% select(rs, Beta.tomatch, se, Z, N)
+colnames(this_asso) <- c("SNP", "Beta", "Se", "Z", "N")
+
+# rm NA
+this_asso <- this_asso[!is.na(this_asso$Beta), ]
+# keep SNP uniq
+# this_asso=this_asso[!duplicated(this_asso$SNP),]
+
+write.table(this_asso, output, row.names = F, col.names = T, quote = F)
diff --git a/MESuSiE/MESuSiE_run_from_lmm.R b/MESuSiE/MESuSiE_run_from_lmm.R
@@ -0,0 +1,59 @@
+# setwd("/Users/yueliu/temp/temp1/Project_Diversity_pQTL/finemapping/MESuSIE/ENSG00000172803")
+args <- commandArgs(trailingOnly = T)
+library(tidyverse)
+library(MESuSiE)
+
+# args[1]="plink.race.list"
+race <- read.table(args[1], as.is = T)$V1
+if (length(race) < 2) {
+  cat("fewer than two races, quit\n")
+  q()
+}
+
+if (length(args) < 2) {
+  output <- "MESuSiE_res"
+} else {
+  output <- args[2]
+}
+
+bim.suf <- ".mind005.match_allele.bim"
+ld.suf <- ".mind005.match_allele.square.ld"
+asso.suf <- ".lmm.assoc.txt.match_allele"
+
+
+summ_stat_list <- list()
+LD_list <- list()
+
+# snp list is the snp list  in all files
+# take first race as the beginning snp list
+snp.list <- read.table(paste0(race[1], bim.suf), as.is = T)$V2
+# add ld to LD_list, and add assoc to summ_stat_list
+for (r in race) {
+  this_bim <- read.table(paste0(r, bim.suf), as.is = T)$V2
+  this_ld <- read.table(paste0(r, ld.suf), as.is = T)
+  rownames(this_ld) <- this_bim
+  colnames(this_ld) <- this_bim
+  snp.list <- intersect(snp.list, this_bim)
+  LD_list[[r]] <- this_ld
+
+  this_asso <- read.table(paste0(r, asso.suf), header = T, as.is = T)
+  rownames(this_asso) <- this_asso$SNP
+  snp.list <- intersect(snp.list, this_asso$SNP)
+  summ_stat_list[[r]] <- this_asso
+}
+
+# LD_list[["AA"]][1:5,1:5]
+# summ_stat_list[["AA"]][1:5,]
+
+# subset LD_list and summ_stat_list to snp.list
+for (r in race) {
+  LD_list[[r]] <- as.matrix(LD_list[[r]][snp.list, snp.list])
+  summ_stat_list[[r]] <- summ_stat_list[[r]][snp.list, ]
+}
+
+MESuSiE_res <- meSuSie_core(LD_list, summ_stat_list, L = 10)
+# MESuSiE_res.NHW_AA=meSuSie_core(LD_list[c("AA","NHW")],
+#                                summ_stat_list[c("AA","NHW")],L=10)
+
+
+save(LD_list, summ_stat_list, race, snp.list, MESuSiE_res, file = paste0(output, ".RDat"))
diff --git a/MESuSiE/MESuSiE_run_from_lmm_loopdir.match.sh b/MESuSiE/MESuSiE_run_from_lmm_loopdir.match.sh
@@ -0,0 +1,8 @@
+dirlist=$1
+
+pwd=$(pwd)
+for f in $(less $dirlist); do
+  cd $f
+  Rscript ~/bin/MESuSiE_run_from_lmm.R plink.race.list > MESuSiE_run.log
+  cd $pwd
+done
diff --git a/MESuSiE/multi_ancestry_prepare_files_for_MESuSiE.pl b/MESuSiE/multi_ancestry_prepare_files_for_MESuSiE.pl
@@ -0,0 +1,81 @@
+$fam_path = shift;
+$out_dir  = shift;
+
+if ( !$out_dir ) {
+  $out_dir = "multi_out";
+}
+
+$lmm_suf = shift; #lmm suf
+if ( !$lmm_suf ) {
+  $lmm_suf = ".gemma.lmm.assoc.txt";
+}
+
+open( FP, "$fam_path" );
+while (<FP>) {
+  if (/(\S+)\s+(\S+)/) {
+    $path{$2} = `readlink -f $1`;
+    chomp( $path{$2} );
+  }
+}
+
+foreach $r ( sort keys %path ) {
+  #    print "$r\t$path{$r}\n";
+
+  $this_path = $path{$r};
+  if ( $this_path =~ /(\S+)\// ) {
+    $root = $1;
+  }
+  open( TH, "$this_path" );
+  while (<TH>) {
+    if (/((\S+\/(\S+?))\.\S+)\.fam/) {
+      $prefix     = $1;
+      $lmm_prefix = $2;
+      $gene       = $3;
+      #$bed=$prefix.".bed";
+      #$bim=$prefix.".bim";
+      #$fam=$prefix.".fam";
+      $plink{$gene}{$r} = $root . "/$prefix";
+      $lmm{$gene}{$r}   = $root . "/$lmm_prefix" . $lmm_suf;
+    }
+  }
+}
+
+foreach $g ( sort keys %plink ) {
+  `mkdir -p $out_dir/$g`;
+  chdir("$out_dir/$g");
+  open( PL, ">plink.race.list" );
+  open( PR, ">plink.race" );
+  open( PN, ">plink.race.num" );
+  $n = 0;
+  foreach $r ( sort keys %{ $plink{$g} } ) {
+    $check_bed = $plink{$g}{$r} . ".bed";
+    if ( !-e $check_bed ) {
+      print STDERR "no $check_bed\n";
+      next;
+    }
+
+    `ln -s $plink{$g}{$r}".bed" "$r.bed"`;
+    `ln -s $plink{$g}{$r}".bim" "$r.bim"`;
+    `ln -s $plink{$g}{$r}".fam" "$r.fam"`;
+
+    `ln -s $lmm{$g}{$r} "$r.lmm.assoc.txt"`;
+
+    print PL "$r\n";
+    print PR "$r\t$r\n";
+    $n++;
+    $race = $r;
+
+  }
+  if ( !$n ) {
+    print STDERR "no data for $g; omit this gene \n";
+    chdir("../../");
+    `rm -rf $out_dir/$g`;
+    next;
+  }
+  print PN "$n\n";
+
+  #use the last race bim for match alleles
+  `ln -s $race.bim bim_for_match_alleles`;
+
+  chdir("../../");
+}
diff --git a/MESuSiE/multi_ancestry_prepare_files_for_MESuSiE_ld_and_asso.match.sh b/MESuSiE/multi_ancestry_prepare_files_for_MESuSiE_ld_and_asso.match.sh
@@ -0,0 +1,33 @@
+dirlist=$1
+
+pwd=$(pwd)
+for f in $(less $dirlist); do
+  cd $f
+
+  #double check missingness; require mind 0.05
+  for r in $(less plink.race.list); do
+    plink --bfile $r --mind 0.05 --geno 0.05 --out $r.mind005 --make-bed
+  done
+
+  #get match alleles
+  #remove ambiguous alleles (A/T and G/C)
+  awk '{if ( ! ( ($5 == "A" && $6 == "T") || ($5 == "T" && $6 == "A") || ($5 == "G" && $6 == "C") || ($5 == "C" && $6 == "G") ) ) { print  $2,$5,$6}}' bim_for_match_alleles > match.alleles.A1_A2
+  awk '{print $1,$2}' match.alleles.A1_A2 > match.alleles
+
+  #new plink files that match alleles
+  for r in $(less plink.race.list); do
+    plink --bfile $r.mind005 --extract match.alleles --reference-allele match.alleles --make-bed --out $r.mind005.match_allele
+  done
+
+  #ld matrix
+  for r in $(less plink.race.list); do
+    plink --bfile $r.mind005.match_allele --r square --out $r.mind005.match_allele.square --reference-allele match.alleles
+  done
+
+  #match allele to lmm assoc
+  for r in $(less plink.race.list); do
+    Rscript ~/bin/MESuSiE_prepare_assoc_match_allele_from_lmm.R $r.lmm.assoc.txt match.alleles.A1_A2 $r.fam $r.lmm.assoc.txt.match_allele
+  done
+
+  cd $pwd
+done
diff --git a/MESuSiE_notes.txt b/MESuSiE_notes.txt
@@ -0,0 +1,11 @@
+====Run MESuSiE in each gene====
+#the ld matrix is produced in-samples, i.e not from external panels
+#thus, ld-mismatch-checking step is not needed here.
+#in /home/yliu/work_dir/ProteinPrediction/Diversity_pQTL/run.11012023/finemap/MESuSiE
+1) on cluster: prepare plink files in each gene using lmm assoc results from all 3 populations
+qsub2 "perl ~/bin/multi_ancestry_prepare_files_for_MESuSiE.pl NHW_AA_Hisp.fam.path "
+2) on clusters: match allele; ld matrix;  match allele for lmm assoc in each gene
+ls -d multi_out/ENSG* >all.dir.list
+for f in $(less all.dir.list); qsub2 "~/bin/multi_ancestry_prepare_files_for_MESuSiE_ld_and_asso.match.sh $f";done
+3) on clusters: run MESuSie for each gene 
+for f in $(less all.dir.list); qsub2 "~/bin/MESuSiE_run_from_lmm_loopdir.match.sh $f";done
diff --git a/Makefile b/Makefile
@@ -0,0 +1,95 @@
+# Directories to exclude from processing (space-separated)
+EXCLUDE_DIRS := .git
+
+# Convert to find-compatible format
+FIND_EXCLUDE := $(foreach dir,$(EXCLUDE_DIRS),-path "./$(dir)" -prune -o)
+
+.PHONY: format all check-deps show clean help
+
+default: help
+
+# Check if tools are installed and give installation instructions
+check-deps:
+	@echo "Checking dependencies..."
+	@if ! which perltidy >/dev/null 2>&1; then \
+		echo "❌ perltidy not found"; \
+		echo "   Install with: brew install perltidy  OR cpm install -g Perl::Tidy"; \
+	else \
+		echo "✅ perltidy found"; \
+	fi
+	@if ! which Rscript >/dev/null 2>&1; then \
+		echo "❌ Rscript not found"; \
+		echo "   Install R from: https://r-project.org  OR  brew install r"; \
+	else \
+		echo "✅ Rscript found"; \
+	fi
+	@if ! which prettier >/dev/null 2>&1; then \
+		echo "❌ prettier not found"; \
+		echo "   Install with: npm install -g prettier  OR  brew install prettier"; \
+	else \
+		echo "✅ prettier found"; \
+	fi
+	@if ! which shfmt >/dev/null 2>&1; then \
+		echo "❌ shfmt not found"; \
+		echo "   Install with: brew install shfmt  OR  go install mvdan.cc/sh/v3/cmd/shfmt@latest"; \
+	else \
+		echo "✅ shfmt found"; \
+	fi
+	@echo ""
+	@echo "Please manually check R::styler is installed."
+	@echo "  To install: Rscript src/install_r_packages.R styler"
+	@echo ""
+
+format:
+	@echo "Formatting files..."
+	@if which perltidy >/dev/null 2>&1; then \
+		find . $(FIND_EXCLUDE) \( -name "*.pl" -o -name "*.pm" -o -name "*.t" \) -print0 | xargs -0 perltidy --pro=.perltidyrc -b; \
+	else \
+		echo "⚠️  Skipping Perl files (perltidy not installed - run 'make check-deps')"; \
+	fi
+	@if which Rscript >/dev/null 2>&1; then \
+		if Rscript -e "if (!requireNamespace('styler', quietly=TRUE)) quit(status=1)" 2>/dev/null; then \
+			find . $(FIND_EXCLUDE) -name "*.R" -print0 | xargs -0 -I {} Rscript -e "styler::style_file('{}')"; \
+		else \
+			echo "⚠️  Skipping R files (styler package not installed)"; \
+		fi; \
+	else \
+		echo "⚠️  Skipping R files (Rscript not installed - run 'make check-deps')"; \
+	fi
+	@if which prettier >/dev/null 2>&1; then \
+		find . $(FIND_EXCLUDE) \( -name "*.md" -o -name "*.markdown" \) -print0 | xargs -0 prettier --write; \
+	else \
+		echo "⚠️  Skipping markdown files (prettier not installed - run 'make check-deps')"; \
+	fi
+	@if which shfmt >/dev/null 2>&1; then \
+		find . $(FIND_EXCLUDE) \( -name "*.sh" -o -name "*.bash" \) -print0 | xargs -0 shfmt -w -i 2 -ci -sr; \
+	else \
+		echo "⚠️  Skipping shell files (shfmt not installed - run 'make check-deps')"; \
+	fi
+
+show:
+	@echo "Files that would be processed:"
+	@echo "Excluded directories: $(EXCLUDE_DIRS)"
+	@echo ""
+	@echo "Perl files:"
+	@find . $(FIND_EXCLUDE) \( -name "*.pl" -o -name "*.pm" -o -name "*.t" \) -print | head -5
+	@echo "R files:"
+	@find . $(FIND_EXCLUDE) -name "*.R" -print | head -5
+	@echo "Markdown files:"
+	@find . $(FIND_EXCLUDE) \( -name "*.md" -o -name "*.markdown" \) -print | head -5
+	@echo "Shell files:"
+	@find . $(FIND_EXCLUDE) \( -name "*.sh" -o -name "*.bash" \) -print | head -5
+
+clean:
+	@find . $(FIND_EXCLUDE) -name "*.bak" -print0 | xargs -0 rm -f
+
+help:
+	@echo "Available targets:"
+	@echo "  check-deps      Check if required tools are installed"
+	@echo "  format          Format all code files"
+	@echo "  show            Show files that would be processed"
+	@echo "  clean           Remove backup files"
+	@echo "  all             Run format"
+	@echo "  help            Show this help"
+	@echo ""
+	@echo "Excluded directories: $(EXCLUDE_DIRS)"
diff --git a/README.md b/README.md
diff --git a/src/install_r_packages.R b/src/install_r_packages.R