Update GPT Detector (#15)

sarahmish · web-flow · commit b84945f1f8e5 · 2024-09-18T06:46:35.000-07:00
* edit gpt pipeline

* tab -&gt; spaces

* fix lint
diff --git a/sigllm/pipelines/detector/gpt_detector.json b/sigllm/pipelines/detector/gpt_detector.json
@@ -1,13 +1,15 @@
 {
     "primitives": [
         "mlstars.custom.timeseries_preprocessing.time_segments_aggregate",
+        "sklearn.impute.SimpleImputer",
         "sigllm.primitives.transformation.Float2Scalar",
-        "mlstars.custom.timeseries_preprocessing.rolling_window_sequences",
+        "sigllm.primitives.forecasting.custom.rolling_window_sequences",
         "sigllm.primitives.transformation.format_as_string",
         "sigllm.primitives.forecasting.gpt.GPT",
         "sigllm.primitives.transformation.format_as_integer",
         "sigllm.primitives.transformation.Scalar2Float",
         "sigllm.primitives.postprocessing.aggregate_rolling_window",
+        "numpy.reshape",
         "orion.primitives.timeseries_errors.regression_errors",
         "orion.primitives.timeseries_anomalies.find_anomalies"
     ],
@@ -21,45 +23,73 @@
             "decimal": 2,
             "rescale": true
         },
-        "mlstars.custom.timeseries_preprocessing.rolling_window_sequences#1": {
+        "sigllm.primitives.forecasting.custom.rolling_window_sequences#1": {
             "target_column": 0,
             "window_size": 140,
             "target_size": 1
         },
         "sigllm.primitives.transformation.format_as_string#1": {
             "space": true
         },
-        "sigllm.primitives.forecasting.gpt.GPT": {
+        "sigllm.primitives.forecasting.gpt.GPT#1": {
             "name": "gpt-3.5-turbo",
             "steps": 5
         },
         "sigllm.primitives.transformation.format_as_integer#1": {
-            "trunc": 1
+            "trunc": 1,
+            "errors": "coerce"
         },
         "sigllm.primitives.postprocessing.aggregate_rolling_window#1": {
-            "agg": "median"
+            "agg": "median",
+            "remove_outliers": true
         },
         "orion.primitives.timeseries_anomalies.find_anomalies#1": {
-            "window_size_portion": 0.33,
+            "window_size_portion": 0.3,
             "window_step_size_portion": 0.1,
             "fixed_threshold": true
         }
     },
     "input_names": {
+        "sigllm.primitives.transformation.Float2Scalar#1": {
+            "X": "y"
+        },
+        "sigllm.primitives.transformation.format_as_integer#1": {
+            "X": "y_hat"
+        },
+        "sigllm.primitives.transformation.Scalar2Float#1": {
+            "X": "y_hat"
+        },
         "sigllm.primitives.postprocessing.aggregate_rolling_window#1": {
             "y": "y_hat"
+        },
+        "numpy.reshape#1": {
+            "X": "y_hat"
+        },
+        "orion.primitives.timeseries_anomalies.find_anomalies#1": {
+            "index": "target_index"
         }
     },
     "output_names": {
-        "mlstars.custom.timeseries_preprocessing.rolling_window_sequences#1": {
-            "index": "X_index",
-            "target_index": "y_index"
+        "sklearn.impute.SimpleImputer#1": {
+            "X": "y"
         },
-        "sigllm.primitives.forecasting.huggingface.HF#1": {
-            "y": "yhat"
+        "sigllm.primitives.forecasting.gpt.GPT#1": {
+            "y": "y_hat"
+        },
+        "sigllm.primitives.transformation.format_as_integer#1": {
+            "X": "y_hat"
+        },
+        "sigllm.primitives.transformation.Scalar2Float#1": {
+            "X": "y_hat"
         },
         "sigllm.primitives.postprocessing.aggregate_rolling_window#1": {
-            "y": "yhat"
+            "y": "y_hat"
+        },
+        "numpy.reshape#1": {
+            "X": "y_hat"
+        },
+        "orion.primitives.timeseries_anomalies.find_anomalies#1": {
+            "y": "anomalies"
         }
     }
 }
diff --git a/sigllm/pipelines/detector/mistral_detector.json b/sigllm/pipelines/detector/mistral_detector.json
@@ -4,7 +4,7 @@
         "sklearn.impute.SimpleImputer",
         "sigllm.primitives.transformation.Float2Scalar",
         "sigllm.primitives.forecasting.custom.rolling_window_sequences",
-	"sigllm.primitives.transformation.format_as_string",
+        "sigllm.primitives.transformation.format_as_string",
         "sigllm.primitives.forecasting.huggingface.HF",
         "sigllm.primitives.transformation.format_as_integer",
         "sigllm.primitives.transformation.Scalar2Float",
diff --git a/sigllm/primitives/forecasting/gpt.py b/sigllm/primitives/forecasting/gpt.py
@@ -5,6 +5,7 @@
 
 import openai
 import tiktoken
+from openai import OpenAI
 from tqdm import tqdm
 
 PROMPT_PATH = os.path.join(
@@ -74,6 +75,8 @@ def __init__(self, name='gpt-3.5-turbo', chat=True, sep=',', steps=1, temp=1,
         valid_tokens.extend(self.tokenizer.encode(self.sep))
         self.logit_bias = {token: BIAS for token in valid_tokens}
 
+        self.client = OpenAI()
+
     def forecast(self, X, **kwargs):
         """Use GPT to forecast a signal.
 
@@ -86,21 +89,21 @@ def forecast(self, X, **kwargs):
                 * List of forecasted signal values.
                 * Optionally, a list of the output tokens' log probabilities.
         """
-        input_length = len(self.tokenizer.encode(X[0]))
-        average_length = (input_length + 1) // len(X[0].split(','))
-        max_tokens = average_length * self.steps
-
         all_responses, all_probs = [], []
         for text in tqdm(X):
+            input_length = len(self.tokenizer.encode(text))
+            average_length = (input_length + 1) // len(text.split(','))
+            max_tokens = average_length * self.steps
+
             if self.chat:
-                message = ' '.join(PROMPTS['user_message'], text, self.sep)
-                response = openai.ChatCompletion.create(
+                message = ' '.join([PROMPTS['user_message'], text, self.sep])
+                response = self.client.chat.completions.create(
                     model=self.name,
                     messages=[
                         {"role": "system", "content": PROMPTS['system_message']},
                         {"role": "user", "content": message}
                     ],
-                    max_tokens=max_tokens,
+                    max_completion_tokens=max_tokens,
                     temperature=self.temp,
                     top_p=self.top_p,
                     logprobs=self.logprobs,
@@ -111,7 +114,7 @@ def forecast(self, X, **kwargs):
                 responses = [choice.message.content for choice in response.choices]
 
             else:
-                message = ' '.join(text, self.sep)
+                message = ' '.join([text, self.sep])
                 response = openai.Completion.create(
                     model=self.name,
                     prompt=message,
@@ -135,4 +138,4 @@ def forecast(self, X, **kwargs):
         if self.logprobs:
             return all_responses, all_probs
 
-        return responses
+        return all_responses
diff --git a/sigllm/primitives/jsons/sigllm.primitives.postprocessing.aggregate_rolling_window.json b/sigllm/primitives/jsons/sigllm.primitives.postprocessing.aggregate_rolling_window.json
@@ -29,6 +29,10 @@
             "agg": {
                 "type": "str",
                 "default": "median"
+            },
+            "remove_outliers": {
+                "type": "bool",
+                "default": false
             }
         }
     }
diff --git a/sigllm/primitives/postprocessing.py b/sigllm/primitives/postprocessing.py
@@ -2,7 +2,19 @@
 import numpy as np
 
 
-def aggregate_rolling_window(y, step_size=1, agg="median"):
+def outliers(predictions):
+    Q1, Q3 = np.percentile(predictions, [25, 75])
+
+    IQR = Q3 - Q1
+    lower_bound = Q1 - 1.5 * IQR
+    upper_bound = Q3 + 1.5 * IQR
+
+    predictions[(predictions < lower_bound) | (predictions > upper_bound)] = np.nan
+
+    return predictions
+
+
+def aggregate_rolling_window(y, step_size=1, agg="median", remove_outliers=False):
     """Aggregate a rolling window sequence.
 
     Convert a rolling window sequence into a flattened time series.
@@ -15,6 +27,8 @@ def aggregate_rolling_window(y, step_size=1, agg="median"):
             Stride size used when creating the rolling windows.
         agg (string):
             String denoting the aggregation method to use. Default is "median".
+        remove_outliers (bool):
+            Indicator to whether remove outliers from the predictions.
 
     Return:
         ndarray:
@@ -23,6 +37,9 @@ def aggregate_rolling_window(y, step_size=1, agg="median"):
     num_windows, num_samples, pred_length = y.shape
     num_errors = pred_length + step_size * (num_windows - 1)
 
+    if remove_outliers:
+        y = outliers(y)
+
     method = getattr(np, agg)
     signal = []
 

Original file line number	Diff line number	Diff line change
`@@ -29,6 +29,10 @@`
`29`	`29`	`"agg": {`
`30`	`30`	`"type": "str",`
`31`	`31`	`"default": "median"`
	`32`	`+ },`
	`33`	`+ "remove_outliers": {`
	`34`	`+ "type": "bool",`
	`35`	`+ "default": false`
`32`	`36`	`}`
`33`	`37`	`}`
`34`	`38`	`}`