Update for inclusive jets

qgp · qgp · commit 1a763c76a28b · 2025-01-13T13:58:59.000+01:00
diff --git a/machine_learning_hep/data/data_run3/database_ml_parameters_Jet_pp.yml b/machine_learning_hep/data/data_run3/database_ml_parameters_Jet_pp.yml
@@ -50,11 +50,12 @@ Jet_pp:
     #region dfs
     dfs:
         read:
-            evtorig:
-                index: fIndexCJetCO
-                trees:
-                    O2cjetco: [fPosZ]
-                filter: "abs(fPosZ) < 10."
+            # evtorig:
+            #     index: fIndexCJetCO
+            #     level: data
+            #     trees:
+            #         O2cjetco: [fPosZ]
+            #     filter: "abs(fPosZ) < 10."
             collcnt:
                 trees:
                     O2collcount:
@@ -113,6 +114,9 @@ Jet_pp:
                             fPairTheta,
                         ]
                 filter: "abs(fJetEta) < (.9 - (fJetR / 100.))" # TODO: check jet eta cut
+                extra:
+                    fPt: 5.
+                    fM: 1.86
 
             colldet:
                 level: det
@@ -154,6 +158,9 @@ Jet_pp:
                             fPairTheta,
                         ]
                 filter: "abs(fJetEta) < (.9 - (fJetR / 100.))" # TODO: check jet eta cut
+                extra:
+                    fPt: 5.
+                    fM: 1.86
 
             colldata:
                 level: data
@@ -189,6 +196,9 @@ Jet_pp:
                             fPairTheta,
                         ]
                 filter: "abs(fJetEta) < (.9 - (fJetR / 100.))" # TODO: check jet eta cut
+                extra:
+                    fPt: 5.
+                    fM: 1.86
 
         merge:
             - { base: jetgen, ref: collgen }
@@ -205,16 +215,21 @@ Jet_pp:
             jetdata:
                 level: data
                 file: AnalysisResultsReco.parquet
-            # evtorig:
-            #     level: all
-            #     file: AnalysisResultsEvtOrig.parquet
-            # evt:
-            #     level: all
-            #     source: evtorig
+            colldata:
+                level: data
+                file: AnalysisResultsEvtOrig.parquet
+            collgen:
+                level: mc
+                file: AnalysisResultsEvtOrig.parquet
+            # colldata_all:
+            #     level: data
             #     file: AnalysisResultsEvt.parquet
-            # collcnt:
-            #     level: all
-            #     file: AnalysisResultsCollCnt.parquet
+            # collgen_all:
+            #     level: mc
+            #     file: AnalysisResultsEvt.parquet
+            collcnt:
+                level: all
+                file: AnalysisResultsCollCnt.parquet
             # bccnt:
             #     level: all
             #     file: AnalysisResultsBcCnt.parquet
@@ -392,7 +407,7 @@ Jet_pp:
         namefile_reco: AnalysisResultsReco.parquet
         namefile_evt: AnalysisResultsEvt.parquet
         namefile_collcnt: AnalysisResultsCollCnt.parquet
-        namefile_bccnt: AnalysisResultsBcCnt.parquet
+        # namefile_bccnt: AnalysisResultsBcCnt.parquet
         namefile_evtvalroot: AnalysisResultsROOTEvtVal.root
         namefile_evtorig: AnalysisResultsEvtOrig.parquet
         namefile_gen: AnalysisResultsGen.parquet
@@ -528,11 +543,12 @@ Jet_pp:
         dir_general_plots: /data2/jklein/data/analysis_plots
 
         jet_obs: &jet_default
+            hfjet: false
             sel_an_binmin: [1, 2, 3, 4, 5, 6, 7, 8, 10, 12, 16, 24] # hadron pt bins (sel_an_binmin bins)
             sel_an_binmax: [2, 3, 4, 5, 6, 7, 8, 10, 12, 16, 24, 48] # hadron pt bins (sel_an_binmin bins) # FIXME: move the last edge in sel_an_binmin
             bins_ptjet: [5, 7, 15, 30, 50, 70] # systematics, TODO: split rec and gen binning
             bins_ptjet_eff: [2, 5, 7, 15, 30, 50, 70, 90] # systematics, TODO: split rec and gen binning
-            cand_collidx: fIndexHfD0CollBases
+            # cand_collidx: fIndexHfD0CollBases
             counter_read_data: fReadCountsWithTVXAndZVertexAndSel8
             counter_read_mc: fReadCountsWithTVXAndZVertexAndSelMC
             counter_tvx: fReadCountsWithTVX
@@ -622,13 +638,13 @@ Jet_pp:
                 lntheta-lnkt:
                     arraycols: [3, 4]
 
-            data_selections:
-                mcsig:
-                    level: mc
-                    query: "(isd0 & seld0) or (isd0bar & seld0bar)"
-                mcrefl:
-                    level: mc
-                    query: "(isd0 & seld0bar) or (isd0bar & seld0)"
+            # data_selections:
+            #     mcsig:
+            #         level: mc
+            #         query: "(isd0 & seld0) or (isd0bar & seld0bar)"
+            #     mcrefl:
+            #         level: mc
+            #         query: "(isd0 & seld0bar) or (isd0bar & seld0)"
 
             corr_refl: true # systematics
             fit_levels: ["mcsig", "mcrefl", "mc", "data"]
@@ -945,10 +961,9 @@ Jet_pp:
             bin_width: 0.001 # bin width of the invariant mass histogram # systematics?
             n_rebin: 3 # number of mass bins to merge
             efficiency:
-                extra_cols:
-                    ["isd0", "isd0bar", "seld0", "seld0bar", "mlBkgScore"]
-                filter_det: "(isd0 & seld0) or (isd0bar & seld0bar)"
-                index_match: fIndexArrayD0CMCPJETOS_hf
+                # extra_cols: ["isd0", "isd0bar", "seld0", "seld0bar"]
+                # filter_det: "(isd0 & seld0) or (isd0bar & seld0bar)"
+                index_match: fIndexArrayD0CMCPJETOS_geo
                 correction_method: run3
 
             unfolding_iterations: 8 # used, maximum iteration
@@ -1070,7 +1085,7 @@ Jet_pp:
             variations_db: database_variations_Jet_pp_jet_obs.yml
 
             # Additional cuts applied before mass histogram is filled
-            use_cuts: True # systematics
+            use_cuts: False # systematics
             cuts: [
                     "mlBkgScore < 0.02",
                     "mlBkgScore < 0.02",
diff --git a/machine_learning_hep/processer.py b/machine_learning_hep/processer.py
@@ -111,8 +111,8 @@ def __init__(self, case, datap, run_param, mcordata, p_maxfiles, # pylint: disab
         self.n_reco = datap["files_names"]["namefile_reco"]
         self.n_evt = datap["files_names"]["namefile_evt"]
         self.n_collcnt = datap["files_names"]["namefile_collcnt"]
-        self.n_bccnt = datap["files_names"]["namefile_bccnt"]
-        self.n_evtorig = datap["files_names"]["namefile_evtorig"]
+        self.n_bccnt = datap["files_names"].get("namefile_bccnt")
+        self.n_evtorig = datap["files_names"].get("namefile_evtorig")
         self.n_evt_count_ml = datap["files_names"].get("namefile_evt_count", "evtcount.yaml")
         self.n_gen = datap["files_names"]["namefile_gen"]
         self.n_filemass = datap["files_names"]["histofilename"]
@@ -373,10 +373,15 @@ def dfuse(df_spec):
                         dfappend(df_name, df)
 
         for df_name, df_spec in self.df_read.items():
-            if dfuse(df_spec) and not dfs[df_name].empty:
+            if dfuse(df_spec):
+                if dfs[df_name].empty:
+                    self.logger.warning("DF %s is empty", df_name)
+                else:
+                    self.logger.info("DF %s is filled", df_name)
                 if 'extra' in df_spec:
-                    self.logger.debug(' %s -> extra', df_name)
+                    self.logger.info(' %s -> extra', df_name)
                     for col_name, col_val in df_spec['extra'].items():
+                        self.logger.info(' %s -> %s', col_name, col_val)
                         dfs[df_name][col_name] = dfs[df_name].eval(col_val)
                 if 'extract_component' in df_spec:
                     self.logger.debug(' %s -> extract_component', df_name)
diff --git a/machine_learning_hep/processer_jet.py b/machine_learning_hep/processer_jet.py
@@ -124,19 +124,7 @@ def _calculate_variables(self, df, verify=False): # pylint: disable=invalid-name
         self.logger.info('calculating variables')
         if len(df) == 0:
             return df
-        df['dr'] = np.sqrt((df.fJetEta - df.fEta)**2 + ((df.fJetPhi - df.fPhi + math.pi) % math.tau - math.pi)**2)
-        df['jetPx'] = df.fJetPt * np.cos(df.fJetPhi)
-        df['jetPy'] = df.fJetPt * np.sin(df.fJetPhi)
-        df['jetPz'] = df.fJetPt * np.sinh(df.fJetEta)
-        df['hfPx'] = df.fPt * np.cos(df.fPhi)
-        df['hfPy'] = df.fPt * np.sin(df.fPhi)
-        df['hfPz'] = df.fPt * np.sinh(df.fEta)
-        df['zpar_num'] = df.jetPx * df.hfPx + df.jetPy * df.hfPy + df.jetPz * df.hfPz
-        df['zpar_den'] = df.jetPx * df.jetPx + df.jetPy * df.jetPy + df.jetPz * df.jetPz
-        df['zpar'] = df.zpar_num / df.zpar_den
-        df[df['zpar'] >= 1.]['zpar'] = .999 # move 1 to last bin
         df['nsub21'] = df.fNSub2 / df.fNSub1
-
         self.logger.debug('zg')
         df['zg_array'] = np.array(.5 - abs(df.fPtSubLeading / (df.fPtLeading + df.fPtSubLeading) - .5))
         zcut = self.cfg('zcut', .1)
@@ -150,6 +138,20 @@ def _calculate_variables(self, df, verify=False): # pylint: disable=invalid-name
             (lambda ar: np.log(ar.fPtSubLeading * np.sin(ar.fTheta))), axis=1)
         df['lntheta'] = df['fTheta'].apply(lambda x: -np.log(x))
         # df['lntheta'] = np.array(-np.log(df.fTheta))
+
+        if self.cfg('hfjet', True):
+            df['dr'] = np.sqrt((df.fJetEta - df.fEta)**2 + ((df.fJetPhi - df.fPhi + math.pi) % math.tau - math.pi)**2)
+            df['jetPx'] = df.fJetPt * np.cos(df.fJetPhi)
+            df['jetPy'] = df.fJetPt * np.sin(df.fJetPhi)
+            df['jetPz'] = df.fJetPt * np.sinh(df.fJetEta)
+            df['hfPx'] = df.fPt * np.cos(df.fPhi)
+            df['hfPy'] = df.fPt * np.sin(df.fPhi)
+            df['hfPz'] = df.fPt * np.sinh(df.fEta)
+            df['zpar_num'] = df.jetPx * df.hfPx + df.jetPy * df.hfPy + df.jetPz * df.hfPz
+            df['zpar_den'] = df.jetPx * df.jetPx + df.jetPy * df.jetPy + df.jetPz * df.jetPz
+            df['zpar'] = df.zpar_num / df.zpar_den
+            df[df['zpar'] >= 1.]['zpar'] = .999 # move 1 to last bin
+
         self.logger.debug('done')
         if verify:
             self._verify_variables(df)
@@ -172,18 +174,20 @@ def process_histomass_single(self, index):
             dfevtorig = read_df(self.l_evtorig[index])
             histonorm = TH1F("histonorm", "histonorm", 4, 0, 4)
             histonorm.SetBinContent(1, len(dfquery(dfevtorig, self.s_evtsel)))
-            dfcollcnt = read_df(self.l_collcnt[index])
-            ser_collcnt = dfcollcnt[self.cfg(f'counter_read_{self.mcordata}')]
-            collcnt_read = functools.reduce(lambda x,y: float(x)+float(y), (ar[0] for ar in ser_collcnt))
-            ser_collcnt = dfcollcnt[self.cfg('counter_tvx')]
-            collcnt_tvx = functools.reduce(lambda x,y: float(x)+float(y), (ar[0] for ar in ser_collcnt))
-            dfbccnt = read_df(self.l_bccnt[index])
-            ser_bccnt = dfbccnt[self.cfg('counter_tvx')]
-            bccnt_tvx = functools.reduce(lambda x,y: float(x)+float(y), (ar[0] for ar in ser_bccnt))
-            self.logger.info('sampled %g collisions', collcnt_read)
-            histonorm.SetBinContent(2, collcnt_read)
-            histonorm.SetBinContent(3, collcnt_tvx)
-            histonorm.SetBinContent(4, bccnt_tvx)
+            if self.l_collcnt:
+                dfcollcnt = read_df(self.l_collcnt[index])
+                ser_collcnt = dfcollcnt[self.cfg(f'counter_read_{self.mcordata}')]
+                collcnt_read = functools.reduce(lambda x,y: float(x)+float(y), (ar[0] for ar in ser_collcnt))
+                self.logger.info('sampled %g collisions', collcnt_read)
+                histonorm.SetBinContent(2, collcnt_read)
+                ser_collcnt = dfcollcnt[self.cfg('counter_tvx')]
+                collcnt_tvx = functools.reduce(lambda x,y: float(x)+float(y), (ar[0] for ar in ser_collcnt))
+                histonorm.SetBinContent(3, collcnt_tvx)
+            if self.l_bccnt:
+                dfbccnt = read_df(self.l_bccnt[index])
+                ser_bccnt = dfbccnt[self.cfg('counter_tvx')]
+                bccnt_tvx = functools.reduce(lambda x,y: float(x)+float(y), (ar[0] for ar in ser_bccnt))
+                histonorm.SetBinContent(4, bccnt_tvx)
             get_axis(histonorm, 0).SetBinLabel(1, 'N_{evt}')
             get_axis(histonorm, 0).SetBinLabel(2, 'N_{coll}')
             get_axis(histonorm, 0).SetBinLabel(3, 'N_{coll}^{TVX}')
@@ -314,23 +318,26 @@ def process_efficiency_single(self, index):
             hist.SetName(hist.GetName() + '_frac')
 
         with TFile.Open(self.l_histoeff[index], "recreate") as rfile:
-            # TODO: avoid hard-coding values here (check if restriction is needed at all)
-            cols = ['ismcprompt', 'ismcsignal', 'ismcfd', 'fPt', 'fEta', 'fPhi', 'fJetPt', 'fJetEta', 'fJetPhi',
-                    'fPtLeading', 'fPtSubLeading', 'fTheta', 'fNSub2DR', 'fNSub1', 'fNSub2']
+            # # TODO: avoid hard-coding values here (check if restriction is needed at all)
+            # cols = ['ismcprompt', 'ismcsignal', 'ismcfd', 'fPt', 'fEta', 'fPhi', 'fJetPt', 'fJetEta', 'fJetPhi',
+            #         'fPtLeading', 'fPtSubLeading', 'fTheta', 'fNSub2DR', 'fNSub1', 'fNSub2']
 
             # read generator level
-            dfgen_orig = pd.concat(read_df(self.mptfiles_gensk[bin][index], columns=cols)
+            dfgen_orig = pd.concat(read_df(self.mptfiles_gensk[bin][index])
                                    for bin in self.active_bins_skim)
             df = self._calculate_variables(dfgen_orig)
             df = df.rename(lambda name: name + '_gen', axis=1)
-            dfgen = {'pr': df.loc[(df.ismcsignal_gen == 1) & (df.ismcprompt_gen == 1)],
-                     'np': df.loc[(df.ismcsignal_gen == 1) & (df.ismcfd_gen == 1)]}
+            if self.cfg('hfjet', True):
+                dfgen = {'pr': df.loc[(df.ismcsignal_gen == 1) & (df.ismcprompt_gen == 1)],
+                        'np': df.loc[(df.ismcsignal_gen == 1) & (df.ismcfd_gen == 1)]}
+            else:
+                dfgen = {'pr': df, 'np': df}
 
             # read detector level
-            cols.extend(self.cfg('efficiency.extra_cols', []))
-            if idx := self.cfg('efficiency.index_match'):
-                cols.append(idx)
-            df = pd.concat(read_df(self.mptfiles_recosk[bin][index], columns=cols)
+            # cols.extend(self.cfg('efficiency.extra_cols', []))
+            # if idx := self.cfg('efficiency.index_match'):
+            #     cols.append(idx)
+            df = pd.concat(read_df(self.mptfiles_recosk[bin][index])
                            for bin in self.active_bins_skim)
 
             # Custom skimming cuts
@@ -342,8 +349,11 @@ def process_efficiency_single(self, index):
             else:
                 self.logger.warning('No matching criterion specified, cannot match det and gen')
             df = self._calculate_variables(df)
-            dfdet = {'pr': df.loc[(df.ismcsignal == 1) & (df.ismcprompt == 1)],
-                     'np': df.loc[(df.ismcsignal == 1) & (df.ismcfd == 1)]}
+            if self.cfg('hfjet', True):
+                dfdet = {'pr': df.loc[(df.ismcsignal == 1) & (df.ismcprompt == 1)],
+                        'np': df.loc[(df.ismcsignal == 1) & (df.ismcfd == 1)]}
+            else:
+                dfdet = {'pr': df, 'np': df}
 
             dfmatch = {cat: pd.merge(dfdet[cat], dfgen[cat], left_on=['df', 'idx_match'], right_index=True)
                         for cat in cats if 'idx_match' in dfdet[cat]}
diff --git a/machine_learning_hep/utilities_files.py b/machine_learning_hep/utilities_files.py
@@ -131,6 +131,8 @@ def createlist(prefolder: str, mylistfolder: list[str], namefile: str):
     """
     Appends base foldername + filename in list
     """
+    if not namefile:
+        return []
     listfiles = appendfiletolist(mylistfolder, namefile)
     listfiles = appendmainfoldertolist(prefolder, listfiles)
     return listfiles