sunlabuiuc
diff --git a/‎.gitignore‎
Lines changed: 21 additions & 0 deletions b/‎.gitignore‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎labeling/lfs.py‎
Lines changed: 30 additions & 6 deletions b/‎labeling/lfs.py‎
Lines changed: 30 additions & 6 deletions
diff --git a/‎pipeline.sh‎
Lines changed: 35 additions & 35 deletions b/‎pipeline.sh‎
Lines changed: 35 additions & 35 deletions
diff --git a/‎pipeline_temp_stocks.sh‎
Lines changed: 70 additions & 0 deletions b/‎pipeline_temp_stocks.sh‎
Lines changed: 70 additions & 0 deletions
diff --git a/‎stock_price/scrape_amendments.py‎
Lines changed: 9 additions & 2 deletions b/‎stock_price/scrape_amendments.py‎
Lines changed: 9 additions & 2 deletions
@@ -161,3 +161,24 @@ cython_debug/
 #  and can be added to the global gitignore or merged into this file.  For a more nuclear
 #  option (not recommended) you can uncomment the following to ignore the entire idea folder.
 #.idea/
+#
+--exclude-from=.git/info/exclude
+# Lines that start with '#' are comments.
+# For a project mostly in C, the following would be a good set of
+# exclude patterns (uncomment them if you want to use them):
+# *.[oa]
+# *~
+#
+CTTI*
+supplementary*
+*GNews*
+*.zip
+labeling/*/*
+clinical-trial-outcome-prediction*
+*.csv
+news_headlines/nct_news_logs/*
+manual_labels/*
+baselines/data/
+baselines/*.pt
+*PyTrial*
+ablations/                                                                                                                                                                                                              
@@ -260,7 +260,8 @@ def get_lfs(lf_each_thresh_path,
             LINKAGE_PATH,
             LABELS_AND_TICKERS_PATH,
             STUDIES_WITH_NEWS_PATH,
-            no_hint=False):
+            no_hint=False,
+            skip_list=None):
     lf_thresh_df = pd.read_csv(lf_each_thresh_path, low_memory=False).sort_values(['lf', 'phase','acc'], ascending=False).astype(str)
     lf_thresh_df['best_thresh'] = 0
     for lf in lf_thresh_df['lf'].unique():
@@ -282,6 +283,13 @@ def get_lfs(lf_each_thresh_path,
 
     known_lfs_list = [hint_lf,hint_lf,hint_lf, status_lf,status_lf, gpt_lf,gpt_lf, linkage_lf,linkage_lf, stock_price_lf, results_reported_lf, new_headlines_lf, pvalues_lf]
     df_names = ['hint_train', 'hint_train2', 'hint_train3', 'status','status2',  'gpt','gpt2', 'linkage','linkage2',  'stock_price', 'results_reported', 'new_headlines', 'pvalues']
+    if skip_list is not None:
+        inds = []
+        for i, name in enumerate(df_names):
+            if name not in skip_list:
+                inds.append(i)
+        df_names = [df_names[i] for i in inds]
+        known_lfs_list = [known_lfs_list[i] for i in inds]
     phase_dfs = []
     for phase in ['1', '2', '3']:
         phase_lfs = known_lfs_list.copy()
@@ -326,8 +334,15 @@ def get_lfs(lf_each_thresh_path,
     parser.add_argument('--CTO_GOLD_PATH', type=str, default='/srv/local/data/CTO/outcome_labels/final_cto_labels_2020_2024.csv"')
     parser.add_argument('--label_mode', type=str, default='DP')
     parser.add_argument('--get_thresholds', type=bool, default=False)
+    parser.add_argument('--SAVE_PATH', type=str, default="./")
+    parser.add_argument('--SKIP_LIST', type=str, default=None, help="List of lfs to skip, e.g. ['hint_train', 'status']")
     args = parser.parse_args()
     print(args)
+    if args.SKIP_LIST is not None:
+        args.SKIP_LIST = eval(args.SKIP_LIST) 
+        assert isinstance(args.SKIP_LIST, list), "SKIP_LIST should be a list of strings"
+        assert all(isinstance(x, str) for x in args.SKIP_LIST), "SKIP_LIST should contain only strings"
+        print(type(args.SKIP_LIST), args.SKIP_LIST)
 
     cto_gold = pd.read_csv(args.CTO_GOLD_PATH)
     cto_gold.rename(columns={'labels': 'label'}, inplace=True)
@@ -409,15 +424,16 @@ def get_lfs(lf_each_thresh_path,
         df.to_csv(args.LF_EACH_THRESH_PATH, index=False)
 
     # ==== load best thresholds ====
-    no_hint = True if args.label_mode != 'DP' else False
+    no_hint = True if args.label_mode != 'DP' else False # do not compute thresholds if not using DP
     df_list = get_lfs(lf_each_thresh_path=args.LF_EACH_THRESH_PATH,
                                  path=args.CTTI_PATH, 
                                  HINT_PATH=args.HINT_PATH,
                                  GPT_PATH=args.GPT_PATH,
                                  LINKAGE_PATH=args.LINKAGE_PATH,
                                  LABELS_AND_TICKERS_PATH=args.LABELS_AND_TICKERS_PATH,
                                  STUDIES_WITH_NEWS_PATH=args.STUDIES_WITH_NEWS_PATH,
-                                 no_hint=no_hint)
+                                 no_hint=no_hint,
+                                 skip_list=args.SKIP_LIST)
 
 
     # ==== fit dp ====
@@ -469,6 +485,10 @@ def get_lfs(lf_each_thresh_path,
             label_model.fit(L[:,3:], class_balance=[1-positive_prop, positive_prop], seed=0, lr=lrs[i], n_epochs=300)
             label_model_pred_proba = label_model.predict_proba(L[:,3:])[:,1]
             label_model_pred = label_model.predict(L[:,3:])
+        elif args.label_mode == 'MV':
+            label_model = MajorityLabelVoter(cardinality=2)
+            label_model_pred_proba = label_model.predict_proba(L)[:,1]
+            label_model_pred = label_model.predict(L)
 
         # apply status lf
         status_lf = lf_status(path=args.CTTI_PATH)
@@ -486,6 +506,7 @@ def get_lfs(lf_each_thresh_path,
         print(df2['pred'].value_counts())
 
         df2['pred_proba'] = df2['pred']
+        df2['pred_proba'] = df2['pred_proba'].astype(float)
         mask = df2['pred'] == -1
 
         # apply labelmodel pred where pred == -1
@@ -519,7 +540,10 @@ def get_lfs(lf_each_thresh_path,
         cohen_kappa_score(combined['label'], combined['pred']))
 
     # save results
-    all_combined_full[0].to_csv(f'phase1_{args.label_mode.lower()}.csv', index=False)
-    all_combined_full[1].to_csv(f'phase2_{args.label_mode.lower()}.csv', index=False)
-    all_combined_full[2].to_csv(f'phase3_{args.label_mode.lower()}.csv', index=False)
+    if os.path.exists(args.SAVE_PATH) == False:
+        os.makedirs(args.SAVE_PATH)
+    combined.to_csv(os.path.join(args.SAVE_PATH, f'combined_eval_{args.label_mode.lower()}.csv'), index=False)
+    all_combined_full[0].to_csv(os.path.join(args.SAVE_PATH, f'phase1_{args.label_mode.lower()}.csv'), index=False)
+    all_combined_full[1].to_csv(os.path.join(args.SAVE_PATH, f'phase2_{args.label_mode.lower()}.csv'), index=False)
+    all_combined_full[2].to_csv(os.path.join(args.SAVE_PATH, f'phase3_{args.label_mode.lower()}.csv'), index=False)
 
@@ -1,70 +1,70 @@
-DATA_PATH=/srv/local/data/CTO/CTTI_new
-SAVE_PATH=/srv/local/data/CTO
+DATA_PATH=/shared/rsaas/CTO/ctti_11_06_2025
+SAVE_PATH=/shared/rsaas/CTO/andy
 
 
 # # Downloading CTTI new data
 # echo "Downloading CTTI new data"
 # python download_ctti.py --save_path $SAVE_PATH 
 
 
-
-# # # Getting LLM predictions on Pubmed data
-echo "Getting LLM predictions on Pubmed data"
-cd llm_prediction_on_pubmed 
-
+# ========================= Getting LLM predictions on Pubmed data =========================
+# echo "Getting LLM predictions on Pubmed data"
 # echo "Extracting and Updating Pubmed data"
-# python extract_pubmed_abstracts.py --data_path $DATA_PATH --save_path $SAVE_PATH #--dev 
+# python ./llm_prediction_on_pubmed/extract_pubmed_abstracts.py --data_path $DATA_PATH --save_path $SAVE_PATH #--dev
 # echo "Search Pubmed and extract abstracts"
-# python extract_pubmed_abstracts_through_search.py --data_path $DATA_PATH --save_path $SAVE_PATH #--dev
+# python ./llm_prediction_on_pubmed/extract_pubmed_abstracts_through_search.py --data_path $DATA_PATH --save_path $SAVE_PATH #--dev
 # echo "Retrieving top 2 relevant abstracts"
-# python retrieve_top2_abstracts.py --data_path $DATA_PATH --save_path $SAVE_PATH #--dev
+# python ./llm_prediction_on_pubmed/retrieve_top2_abstracts.py --data_path $DATA_PATH --save_path $SAVE_PATH #--dev
 # echo "Obtaining LLM predictions"
-# python get_llm_predictions.py  --save_path $SAVE_PATH --azure #--dev
-# python clean_and_extract_final_outcomes.py --save_path $SAVE_PATH 
+# python ./llm_prediction_on_pubmed/get_llm_predictions.py  --save_path $SAVE_PATH --azure #--dev
+# python ./llm_prediction_on_pubmed/clean_and_extract_final_outcomes.py --save_path $SAVE_PATH
 
 
-# # # # Getting Clinical Trial Linkage
+# ========================= Getting Clinical Trial Linkage ========================
 # echo "Getting Clinical Trial Linkage"
-cd ..
-cd clinical_trial_linkage
 
 # echo "Downloading FDA orange book and drug code dictionary"
-# python download_data.py --save_path $SAVE_PATH   # centralize the links in the .sh
+# python ./clinical_trial_linkage/download_data.py --save_path $SAVE_PATH   # centralize the links in the .sh
 # echo "Processing FDA orange book and drug code dictionary"
-# python process_drugbank.py --save_path $SAVE_PATH
-# python create_drug_mapping.py --save_path $SAVE_PATH
+# python ./clinical_trial_linkage/process_drugbank.py --save_path $SAVE_PATH
+# python ./clinical_trial_linkage/create_drug_mapping.py --save_path $SAVE_PATH
 
 # echo "Extracting trial info and trial embeddings"
-# python extract_trial_info.py --data_path $DATA_PATH --save_path $SAVE_PATH #--dev
-# python get_embedding_for_trial_linkage.py --save_path $SAVE_PATH --num_workers 8 --gpu_ids 0,1,2 #--dev
+# python ./clinical_trial_linkage/extract_trial_info.py --data_path $DATA_PATH --save_path $SAVE_PATH #--dev
+# python ./clinical_trial_linkage/get_embedding_for_trial_linkage.py --save_path $SAVE_PATH --num_workers 8 --gpu_ids 0,1,2 #--dev
 
 
 # echo 'Linking Clinical Trials across phases'
 # echo 'Phase 4'
-# python create_trial_linkage.py --save_path $SAVE_PATH --target_phase 'phase4' --num_workers 1 --gpu_ids 4 #--dev
+# python ./clinical_trial_linkage/create_trial_linkage.py --save_path $SAVE_PATH --target_phase 'phase4' --num_workers 1 --gpu_ids 4 #--dev
 # echo 'Phase 3'
-# python create_trial_linkage.py --save_path $SAVE_PATH --target_phase 'phase3' --num_workers 1 --gpu_ids 4 #--dev
+# python ./clinical_trial_linkage/create_trial_linkage.py --save_path $SAVE_PATH --target_phase 'phase3' --num_workers 1 --gpu_ids 4 #--dev
 # echo 'Phase 2/ Phase 3'
-# python create_trial_linkage.py --save_path $SAVE_PATH --target_phase 'phase2/phase3' --num_workers 1 --gpu_ids 4 #--dev
+# python ./clinical_trial_linkage/create_trial_linkage.py --save_path $SAVE_PATH --target_phase 'phase2/phase3' --num_workers 1 --gpu_ids 4 #--dev
 # echo 'Phase 2'
-# python create_trial_linkage.py --save_path $SAVE_PATH --target_phase 'phase2' --num_workers 1 --gpu_ids 4 #--dev
+# python ./clinical_trial_linkage/create_trial_linkage.py --save_path $SAVE_PATH --target_phase 'phase2' --num_workers 1 --gpu_ids 4 #--dev
 
 # echo 'Extract outcomes from Clinical Trial Linkage'
-# python extract_outcome_from_trial_linkage.py --save_path $SAVE_PATH 
+# python ./clinical_trial_linkage/extract_outcome_from_trial_linkage.py --save_path $SAVE_PATH
 # echo 'Matching with FDA orange book'
-# python match_fda_approvals.py --save_path $SAVE_PATH #--dev
-
-
+# python ./clinical_trial_linkage/match_fda_approvals.py --save_path $SAVE_PATH #--dev
 
-# News
 
+# ========================= News ========================
+# skip for now due to quota limits
+# python ./news_headlines/get_news.py --mode=get_news --continue_from_prev_log=True --CTTI_PATH=$DATA_PATH --SENTIMENT_MODEL="cardiffnlp/twitter-roberta-base-sentiment-latest" --SAVE_NEWS_LOG_PATH=$SAVE_PATH/news_headlines/ --SAVE_STUDY_NEWS_PATH=$SAVE_PATH/news.csv
 
-#Stock prices
+# # ========================= Stock prices =======================
+# echo "Updating stock prices and computing slopes"
+# # Ensure tickers.csv exists under SAVE_PATH (adjust path as needed)
+# python ./stock_price/get_stocks.py --CTTI_PATH $DATA_PATH --TICKERS_PATH ./stock_price/tickers.csv --SAVE_STOCKS_PATH $SAVE_PATH/stock_data.csv.zip --SAVE_STOCKS_SLOPES_PATH $SAVE_PATH/stock_labels.csv
 
+# ========================= Amendments ========================
+python ./stock_price/scrape_amendments.py --CTTI_PATH $DATA_PATH --SAVE_PATH $SAVE_PATH/amendment_counts.csv --years 2
 
-# Labeling
-# echo "Copy all labeling results to the labeling folder"
-cd ..
-python arrange_labels.py --save_path $SAVE_PATH
+# # ========================= Lpdate :abels =================
+# python labeling/lfs.py --get_thresholds=True --LF_EACH_THRESH_PATH=$LF_EACH_THRESH_PATH --CTTI_PATH=$CTTI_PATH --HINT_PATH=$HINT_PATH --LABELS_AND_TICKERS_PATH=$LABELS_AND_TICKERS_PATH --GPT_PATH=$GPT_PATH --LINKAGE_PATH=$LINKAGE_PATH --STUDIES_WITH_NEWS_PATH=$STUDIES_WITH_NEWS_PATH --label_mode=$label_mode --CTO_GOLD_PATH=$CTO_GOLD_PATH --SAVE_PATH=$SAVE_PATH --SKIP_LIST="['new_headlines']"
 
-# limit it to drugs
+# # # Labeling
+# # cd ..
+# # python arrange_labels.py --save_path $SAVE_PATH
@@ -0,0 +1,70 @@
+DATA_PATH=/shared/rsaas/CTO/ctti_11_06_2025
+SAVE_PATH=/shared/rsaas/CTO/andy
+
+
+# # Downloading CTTI new data
+# echo "Downloading CTTI new data"
+# python download_ctti.py --save_path $SAVE_PATH 
+
+
+# ========================= Getting LLM predictions on Pubmed data =========================
+# echo "Getting LLM predictions on Pubmed data"
+# echo "Extracting and Updating Pubmed data"
+# python ./llm_prediction_on_pubmed/extract_pubmed_abstracts.py --data_path $DATA_PATH --save_path $SAVE_PATH #--dev
+# echo "Search Pubmed and extract abstracts"
+# python ./llm_prediction_on_pubmed/extract_pubmed_abstracts_through_search.py --data_path $DATA_PATH --save_path $SAVE_PATH #--dev
+# echo "Retrieving top 2 relevant abstracts"
+# python ./llm_prediction_on_pubmed/retrieve_top2_abstracts.py --data_path $DATA_PATH --save_path $SAVE_PATH #--dev
+# echo "Obtaining LLM predictions"
+# python ./llm_prediction_on_pubmed/get_llm_predictions.py  --save_path $SAVE_PATH --azure #--dev
+# python ./llm_prediction_on_pubmed/clean_and_extract_final_outcomes.py --save_path $SAVE_PATH
+
+
+# ========================= Getting Clinical Trial Linkage ========================
+# echo "Getting Clinical Trial Linkage"
+
+# echo "Downloading FDA orange book and drug code dictionary"
+# python ./clinical_trial_linkage/download_data.py --save_path $SAVE_PATH   # centralize the links in the .sh
+# echo "Processing FDA orange book and drug code dictionary"
+# python ./clinical_trial_linkage/process_drugbank.py --save_path $SAVE_PATH
+# python ./clinical_trial_linkage/create_drug_mapping.py --save_path $SAVE_PATH
+
+# echo "Extracting trial info and trial embeddings"
+# python ./clinical_trial_linkage/extract_trial_info.py --data_path $DATA_PATH --save_path $SAVE_PATH #--dev
+# python ./clinical_trial_linkage/get_embedding_for_trial_linkage.py --save_path $SAVE_PATH --num_workers 8 --gpu_ids 0,1,2 #--dev
+
+
+# echo 'Linking Clinical Trials across phases'
+# echo 'Phase 4'
+# python ./clinical_trial_linkage/create_trial_linkage.py --save_path $SAVE_PATH --target_phase 'phase4' --num_workers 1 --gpu_ids 4 #--dev
+# echo 'Phase 3'
+# python ./clinical_trial_linkage/create_trial_linkage.py --save_path $SAVE_PATH --target_phase 'phase3' --num_workers 1 --gpu_ids 4 #--dev
+# echo 'Phase 2/ Phase 3'
+# python ./clinical_trial_linkage/create_trial_linkage.py --save_path $SAVE_PATH --target_phase 'phase2/phase3' --num_workers 1 --gpu_ids 4 #--dev
+# echo 'Phase 2'
+# python ./clinical_trial_linkage/create_trial_linkage.py --save_path $SAVE_PATH --target_phase 'phase2' --num_workers 1 --gpu_ids 4 #--dev
+
+# echo 'Extract outcomes from Clinical Trial Linkage'
+# python ./clinical_trial_linkage/extract_outcome_from_trial_linkage.py --save_path $SAVE_PATH
+# echo 'Matching with FDA orange book'
+# python ./clinical_trial_linkage/match_fda_approvals.py --save_path $SAVE_PATH #--dev
+
+
+# ========================= News ========================
+# skip for now due to quota limits
+# python ./news_headlines/get_news.py --mode=get_news --continue_from_prev_log=True --CTTI_PATH=$DATA_PATH --SENTIMENT_MODEL="cardiffnlp/twitter-roberta-base-sentiment-latest" --SAVE_NEWS_LOG_PATH=$SAVE_PATH/news_headlines/ --SAVE_STUDY_NEWS_PATH=$SAVE_PATH/news.csv
+
+# ========================= Stock prices =======================
+echo "Updating stock prices and computing slopes"
+# Ensure tickers.csv exists under SAVE_PATH (adjust path as needed)
+python ./stock_price/get_stocks.py --CTTI_PATH $DATA_PATH --TICKERS_PATH ./stock_price/tickers.csv --SAVE_STOCKS_PATH $SAVE_PATH/stock_data.csv.zip --SAVE_STOCKS_SLOPES_PATH $SAVE_PATH/stock_labels.csv
+
+# # ========================= Amendments ========================
+# python ./stock_price/scrape_amendments.py --CTTI_PATH $DATA_PATH --SAVE_PATH $SAVE_PATH/amendment_counts.csv --years 2
+
+# # ========================= Lpdate :abels =================
+# python labeling/lfs.py --get_thresholds=True --LF_EACH_THRESH_PATH=$LF_EACH_THRESH_PATH --CTTI_PATH=$CTTI_PATH --HINT_PATH=$HINT_PATH --LABELS_AND_TICKERS_PATH=$LABELS_AND_TICKERS_PATH --GPT_PATH=$GPT_PATH --LINKAGE_PATH=$LINKAGE_PATH --STUDIES_WITH_NEWS_PATH=$STUDIES_WITH_NEWS_PATH --label_mode=$label_mode --CTO_GOLD_PATH=$CTO_GOLD_PATH --SAVE_PATH=$SAVE_PATH --SKIP_LIST="['new_headlines']"
+
+# # # Labeling
+# # cd ..
+# # python arrange_labels.py --save_path $SAVE_PATH
@@ -16,6 +16,8 @@
 if __name__ == '__main__':
     parser = argparse.ArgumentParser()
     parser.add_argument('--CTTI_PATH', type=str, default='../CTTI/')
+    parser.add_argument('--SAVE_PATH', type=str, default='./amendment_counts.csv')
+    parser.add_argument("--years", type=int, default=2, help="Number of years back to scrape amendments for")
     args = parser.parse_args()
 
     studies = pd.read_csv(os.path.join(args.CTTI_PATH, 'studies.txt'), sep='|')
@@ -28,12 +30,17 @@
 
     studies = studies.dropna(subset=['phase'])
 
+    # select only trials with start date within the last `years` years
+    current_year = time.localtime().tm_year
+    studies['start_year'] = pd.to_datetime(studies['start_date'], errors='coerce').dt.year
+    studies = studies[studies['start_year'] >= current_year - args.years]
+
     chrome_options = Options()
     chrome_options.add_argument("--headless") #FOR DEBUG COMMENT OUT SO YOU CAN SEE WHAT YOU'RE DOING
     driver = webdriver.Firefox(options=chrome_options)
 
     amendment_counts = []
-    for i, nct in enumerate(tqdm(studies['nct_id'].iloc[59525:])):
+    for i, nct in enumerate(tqdm(studies['nct_id'])):
         try:
             driver.get(f'https://clinicaltrials.gov/study/{nct}?tab=history')
             # driver.page_source # needs to be called before the next line
@@ -47,7 +54,7 @@
 
             if i % 100 == 0:
                 out_df = pd.DataFrame(amendment_counts, columns=['nct_id', 'amendment_count'])
-                out_df.to_csv('./amendment_counts.csv', index=False)
+                out_df.to_csv(os.path.join(args.SAVE_PATH), index=False)
         except Exception as e:
             print(f"Error for {nct}: {e}")
         # break