add mklsts cv options (flags) to GUI

niklases · niklases · commit e94ee3c6096a · 2025-07-12T21:52:24.000+02:00
diff --git a/pypef/gui/PyPEFGUIQtWindow.py b/pypef/gui/PyPEFGUIQtWindow.py
@@ -149,6 +149,7 @@ def __init__(self):
         self.sig_start = Signal()  # needed only due to PyCharm debugger bug (!)
         self.llm = 'esm'
         self.regression_model = 'PLS'
+        self.mklsts_cv_method = ''
         self.c = 0
         self.ls_proportion = 0.8
         self.setMinimumSize(QSize(1400, 400))
@@ -167,6 +168,7 @@ def __init__(self):
         self.llm_text = QLabel("LLM")
         self.regression_model_text =  QLabel("Regression model")
         self.utils_text = QLabel("Utilities")
+        self.mklsts_cv_options_text = QLabel("Cross-validation split options")
         self.dca_text = QLabel("DCA (unsupervised)")
         self.hybrid_text = QLabel("Hybrid (supervised DCA)")
         self.hybrid_dca_llm_text = QLabel("Hybrid (supervised DCA+LLM)")
@@ -215,7 +217,7 @@ def __init__(self):
         self.slider.move(10, 105)
         self.slider.valueChanged.connect(self.selection_ls_proportion)
 
-        # Boxes ########################################################################
+        # ComboBoxes ########################################################################
         self.box_regression_model = QComboBox()
         self.regression_models = [
             'PLS', 'PLS_LOOCV', 'Ridge', 'Lasso', 'ElasticNet', 'SVR', 'RF', 'MLP'
@@ -232,6 +234,15 @@ def __init__(self):
         self.box_llm.addItems(['ESM1v', 'ProSST'])
         self.box_llm.currentIndexChanged.connect(self.selection_llm_model)
         self.box_llm.setStyleSheet("color:white;background-color:rgb(54, 69, 79);")
+
+        self.box_mklsts_cv = QComboBox()
+        self.box_mklsts_cv.addItems([
+            'None', 'Random split', 'Modulo split', 
+            'Continuous split', 'Plot distribution'
+        ])
+        self.box_mklsts_cv.currentIndexChanged.connect(self.selection_mklsts_splits)
+        self.box_mklsts_cv.setStyleSheet("color:white;background-color:rgb(54, 69, 79);")
+
         
         # Buttons ######################################################################
         # Utilities
@@ -527,6 +538,8 @@ def __init__(self):
         layout.addWidget(self.button_mklsts, 5, 0, 1, 1)
         layout.addWidget(self.button_mkps, 6, 0, 1, 1)
 
+        layout.addWidget(self.mklsts_cv_options_text, 1, 1, 1, 1)
+        layout.addWidget(self.box_mklsts_cv, 2, 1, 1, 1)
         layout.addWidget(self.dca_text, 3, 1, 1, 1)
         layout.addWidget(self.button_dca_inference_gremlin, 4, 1, 1, 1)
         layout.addWidget(self.button_dca_inference_gremlin_msa_info, 5, 1, 1, 1)
@@ -641,6 +654,11 @@ def selection_regression_model(self, i):
     def selection_llm_model(self, i):
         self.llm = ['esm', 'prosst'][i]
 
+    def selection_mklsts_splits(self, i):
+        self.mklsts_cv_method = [
+            '', '--random', '--modulo', '--cont', '--plot'
+        ][i]
+
     def selection_ls_proportion(self, value):
         self.ls_proportion = value / 100
         self.slider_text.setText(
@@ -680,7 +698,7 @@ def pypef_mklsts(self):
             self.version_text.setText("Running MKLSTS...")
             self.cmd = (
                 f'mklsts --wt {wt_fasta_file} --input {csv_variant_file} '
-                f'--ls_proportion {self.ls_proportion}'
+                f'--ls_proportion {self.ls_proportion} {self.mklsts_cv_method}'
             )
             self.start_threads()
         else:
diff --git a/pypef/main.py b/pypef/main.py
@@ -173,6 +173,8 @@
   --all                             Finally training on all data [default: False].
   --conc                            Concatenating mutational level variants for predicting variants
                                     from next higher level [default: False].
+  --cont                            Continuous splits in five-fold cross-validation fashion that 
+                                    split the data based on the positions of mutations.
   --csvaa                           Directed evolution csv amino acid substitutions,
                                     requires flag "--usecsv" [default: False].
   --ddiverse                        Create/predict double natural diverse variants [default: False].
@@ -197,6 +199,8 @@
   --llm LLM                         LLM model to use for hybrid modeling next to DCA (options are 'ESM1v' and 'ProSST').
   -m --model MODEL                  Model (pickle file) for plotting of validation or for
                                     performing predictions.
+  --modulo                          Modulo-like splits in five-fold cross-validation fashion that 
+                                    split the data based on the positions of mutations.
   --msa MSA_FILE                    Multiple sequence alignment (MSA) in FASTA or A2M format for
                                     inferring DCA parameters.
   --mutation_sep MUTATION_SEP       Mutation separator [default: /].
@@ -214,6 +218,9 @@
                                     and couplings [default: 100].
   --params PARAM_FILE               Input PLMC couplings parameter file.
   --pdb PDB_FILE                    Input protein structure file in PDB format used for ProSST LLM modeling.
+  --plot                            Plot different five-fold dataset split distributions performed when using
+                                    the flags --random, --modulo, --cont with the mklsts command.
+  --random                          Random splits in five-fold cross-validation fashion.
   -u --pmult                        Predict for all prediction files in folder for recombinants
                                     or for diverse variants [default: False].
   -p --ps PREDICTION_SET            Prediction set for performing predictions using a trained Model.
diff --git a/pypef/utils/learning_test_sets.py b/pypef/utils/learning_test_sets.py
@@ -116,7 +116,8 @@ def get_variants(
         df,
         amino_acids,
         wild_type_sequence,
-        mutation_sep: str = '/'
+        mutation_sep: str = '/',
+        verbose=True
 ):
     """
     Gets variants and divides and counts the variant data for single substituted
@@ -202,12 +203,13 @@ def get_variants(
                 single_variants.append([full_variant])
                 if i not in index_lower:
                     index_lower.append(i)
-    logger.info(
-        'Single (for mklsts if provided plus WT): {}, Double: {}, Triple: {}, Quadruple: {}, Quintuple: {}, '
-        'Sextuple: {}, Septuple: {}, Octuple: {}, Nonuple: {}, Decuple: {}, Higher (>Decuple): {}'.format(
-            single, double, triple, quadruple, quintuple, sextuple, septuple, octuple, nonuple, decuple, higher
+    if verbose:
+        logger.info(
+            'Single (for mklsts if provided plus WT): {}, Double: {}, Triple: {}, Quadruple: {}, Quintuple: {}, '
+            'Sextuple: {}, Septuple: {}, Octuple: {}, Nonuple: {}, Decuple: {}, Higher (>Decuple): {}'.format(
+                single, double, triple, quadruple, quintuple, sextuple, septuple, octuple, nonuple, decuple, higher
+            )
         )
-    )
     for vals in y[index_higher]:
         higher_values.append(vals)
     for vals in y[index_lower]:
diff --git a/pypef/utils/split.py b/pypef/utils/split.py
@@ -33,9 +33,12 @@ def __init__(
         self.n_cv = n_cv
         if type(df_or_csv_file) == pd.DataFrame:
             self.df = df_or_csv_file
+            self.fig_path = path.abspath('CV_split_pos_aa_distr.png')
         else:
             self.df = pd.read_csv(self.df_or_csv_file, sep=self.csv_separator)
-        print(f'Dataframe size: {self.df.shape[0]}')
+            self.fig_path = path.abspath(path.splitext(path.basename(
+                self.df_or_csv_file))[0] + '_pos_aa_distr.png')
+        logger.info(f'Dataframe size: {self.df.shape[0]}')
         self.random_splits_train_indices_combined, self.random_splits_test_indices_combined = None, None
         self.modulo_splits_train_indices_combined, self.modulo_splits_test_indices_combined = None, None
         self.cont_splits_train_indices_combined, self.cont_splits_test_indices_combined = None, None
@@ -56,13 +59,14 @@ def order_by_pos(self):
         if single_mut_idxs:   
             self.df = self.df.loc[single_mut_idxs, :]
             if len(single_mut_idxs) != self.df.size:
-                print(f'Removed multimutated variants from dataframe... '
+                logger.info(f'Removed multimutated variants from dataframe... '
                       f'new dataframe size: {self.df.shape[0]}')
         if self.mutation_column is None:
             variants = self.df.iloc[:, 0].to_list()
         else:
             variants = self.df[self.mutation_column].to_list()
-        self.df.loc[:, 'variant_pos'] = [int(v[1:-1]) for v in variants]
+        self.df.reset_index(drop=True, inplace=True)
+        self.df['variant_pos'] = [int(v[1:-1]) for v in variants]
         self.df['substitutions'] = [v[-1] for v in variants]
         self.df.sort_values(['variant_pos', 'substitutions'], ascending=[True, True], inplace=True)
         self.min_pos, self.max_pos = self.df['variant_pos'].to_numpy()[0], self.df['variant_pos'].to_numpy()[-1]
@@ -165,8 +169,12 @@ def get_all_split_indices(self):
     def _get_df_split_data(self, combined_train_indices, combined_test_indices):
         train_split_data, test_split_data = [], []
         for train_split, test_split in zip(combined_train_indices, combined_test_indices):
-            train_split_data.append(self.df.iloc[train_split, :])
-            test_split_data.append(self.df.iloc[test_split, :])
+            train_split_data.append(
+                self.df.iloc[train_split, :].reset_index(drop=True)
+            )
+            test_split_data.append(
+                self.df.iloc[test_split, :].reset_index(drop=True)
+            )
         return train_split_data, test_split_data
     
     def get_random_df_split_data(self):
@@ -192,6 +200,7 @@ def plot_distributions(self):
             nrows=4, ncols=self.n_cv,  
             constrained_layout=True
         )
+        logger.info("Plotting distributions...")
         fig.set_figwidth(30)
         fig.set_figheight(10)
         
@@ -234,7 +243,7 @@ def plot_distributions(self):
                 axs[i_category + 1, i_split].set_ylim(0, 20)
                 axs[i_category + 1, i_split].set_xlim(self.min_pos - 4, self.max_pos + 4)
         axs[0, self.n_cv // 2].set_xticks(xticks)
-        fig_path = path.abspath(path.splitext(path.basename(self.csv_file))[0] + '_pos_aa_distr.png')
-        plt.savefig(fig_path, dpi=300)
-        logger.info(f"Saved figure as {fig_path}.")
+        
+        plt.savefig(self.fig_path, dpi=300)
+        logger.info(f"Saved figure as {self.fig_path}.")
         plt.close(fig)
diff --git a/pypef/utils/utils_run.py b/pypef/utils/utils_run.py
@@ -60,19 +60,37 @@ def run_pypef_utils(arguments):
             arguments['--random'], arguments['--modulo'], 
             arguments['--cont'], arguments['--plot']
         ]:
-            ds = DatasetSplitter(df)
+            ds = DatasetSplitter(df, mutation_separator=arguments['--mutation_sep'])
             if arguments['--random']:
                 train_data, test_data = ds.get_random_df_split_data()
-                print(train_data)
+                cv_technique = 'random'
             elif arguments['--modulo']:
                 train_data, test_data = ds.get_modulo_df_split_data()
-                print(train_data)
+                cv_technique = 'modulo'
             elif arguments['--cont']:
                 train_data, test_data = ds.get_continuous_df_split_data()
-                print(train_data)
+                cv_technique = 'continuous'
             elif arguments['--plot']:
                 ds.print_shapes()
                 ds.plot_distributions() 
+            if not arguments['--plot']:
+                for i_cv, (train_set, test_set) in enumerate(zip(train_data, test_data)):
+                    single_variants_train, single_values_train, _, _ = get_variants(
+                        train_set, amino_acids, wt_sequence, 
+                        arguments['--mutation_sep'], verbose=False
+                    )
+                    single_variants_test, single_values_test, _, _ = get_variants(
+                        test_set, amino_acids, wt_sequence, 
+                        arguments['--mutation_sep'], verbose=False
+                    )
+                    make_fasta_ls_ts(
+                        f'LS_{cv_technique}_{i_cv + 1 }.fasl', wt_sequence, 
+                        single_variants_train, single_values_train
+                    )
+                    make_fasta_ls_ts(
+                        f'TS_{cv_technique}_{i_cv + 1 }.fasl', wt_sequence, 
+                        single_variants_test, single_values_test
+                    )
         else:
             sub_ls, val_ls, sub_ts, val_ts = make_sub_ls_ts(
                 single_variants, single_values, 
@@ -96,8 +114,8 @@ def run_pypef_utils(arguments):
                         higher_variants, higher_values,
                         ls_proportion
                     )
-                    make_fasta_ls_ts('LS_random_' + str(random_set_counter) + '.fasl', wt_sequence, sub_ls, val_ls)
-                    make_fasta_ls_ts('TS_random_' + str(random_set_counter) + '.fasl', wt_sequence, sub_ts, val_ts)
+                    make_fasta_ls_ts('LS_default_random_' + str(random_set_counter) + '.fasl', wt_sequence, sub_ls, val_ls)
+                    make_fasta_ls_ts('TS_default_random_' + str(random_set_counter) + '.fasl', wt_sequence, sub_ts, val_ts)
                     random_set_counter += 1
 
     elif arguments['mkps']: