Merge pull request #1 from alex98247/exponentiality-tests

alex98247 · web-flow · commit d9ff356f1023 · 2024-04-26T12:42:16.000+03:00
Exponentiality tests and some scripts
diff --git a/stattest/_statistic_test.py b/stattest/_statistic_test.py
@@ -0,0 +1,15 @@
+from dataclasses import dataclass
+from typing import Callable
+from experiment._distribution_type_enum import Distribution
+from experiment._hypothesis_enum import Hypothesis
+
+
+@dataclass
+class StatisticTest:
+    """
+    Class for representing statistic test.
+    """
+    dist_type: Distribution = None
+    hypothesis: Hypothesis = None
+    stat_func: Callable = None
+    limit_dist: Distribution = None
diff --git a/stattest/_utils.py b/stattest/_utils.py
@@ -0,0 +1,41 @@
+def _scale_sample(sample):
+    """
+    Scales the sample data.
+
+    Parameters
+    ----------
+    sample : array_like
+        Array of sample data.
+    Returns
+    -------
+    sample_copy : array_like
+        Scaled sample.
+    """
+    n = len(sample)
+    sample_copy = sample.copy()
+    sample_avg = sum(sample) / n
+    for i in range(n):
+        sample_copy[i] = sample_copy[i] / sample_avg
+
+    return sample_copy
+
+
+def _check_sample_length(sample):
+    """
+    Checks if sample length is less than 3.
+    If so, ValueError is called.
+
+    Parameters
+    ----------
+    sample : array_like
+        Array of sample data.
+
+    Returns
+    -------
+    True
+    """
+    n = len(sample)
+    if n < 3:
+        raise ValueError("Data must be at least length 3.")
+
+    return True
diff --git a/stattest/experiment/__init__.py b/stattest/experiment/__init__.py
diff --git a/stattest/experiment/_calculation_script.py b/stattest/experiment/_calculation_script.py
@@ -0,0 +1,6 @@
+from stattest._statistic_test import StatisticTest
+
+
+def get_test_metrics(stat_test: StatisticTest = None):
+
+    return True
diff --git a/stattest/experiment/_distribution_type_enum.py b/stattest/experiment/_distribution_type_enum.py
@@ -0,0 +1,11 @@
+import enum
+
+
+@enum.unique
+class Distribution(enum.Enum):
+    """
+    Enum class for representing distribution types.
+    """
+    no_type = "no_type"
+    normal = "normal"
+    exponential = "exponential"
diff --git a/stattest/experiment/_hypothesis_enum.py b/stattest/experiment/_hypothesis_enum.py
@@ -0,0 +1,10 @@
+import enum
+
+
+@enum.unique
+class Hypothesis(enum.Enum):
+    """
+    Enum class for representing hypotheses.
+    """
+    h0 = 0
+    h1 = 1
diff --git a/stattest/samples/__init__.py b/stattest/samples/__init__.py
diff --git a/stattest/samples/generate_samples.py b/stattest/samples/generate_samples.py
@@ -0,0 +1,70 @@
+import json
+import os
+from os.path import exists, abspath
+import numpy as np
+from stattest.experiment._distribution_type_enum import Distribution
+
+
+def generate_samples(dist_type: Distribution = None,
+                     number: int = None,
+                     start_size: int = None,
+                     final_size: int = None,
+                     step: int = None,
+                     path: str = None):
+    """
+    Generates samples based on parameters.
+
+    Parameters
+    ----------
+    dist_type : Distribution
+        Enum value representing distribution type.
+    number : int
+        Number of samples of each size.
+    start_size : int
+        Start size of the samples.
+    final_size : int
+        Final size of the samples.
+    step : int
+        Step of the iteration.
+    path : str
+        Path to save JSON file to.
+
+    Returns
+    -------
+    True
+    """
+    path = path if path is not None else os.getcwd()
+
+    all_types = dist_type is None
+
+    filename = f"{'all' if all_types else dist_type.value}_{number}_{start_size}_{final_size}_{step}"
+    if exists(f"{path}/{filename}.json"):
+        raise FileExistsError("Such samples already exist")
+
+    samples_by_size = {
+            size: [None for _ in range(number)]
+            for size in range(start_size, final_size + 1, step)
+        }
+    samples = {
+        type_.value: samples_by_size for type_ in Distribution
+        } if all_types else {dist_type.value: samples_by_size}
+
+    for size in range(start_size, final_size + 1, step):
+        for i in range(number):
+            if all_types or dist_type is Distribution.no_type:
+                sample = np.random.random_sample(size=size)
+                samples[dist_type.value][size][i] = list(sample)
+
+            if all_types or dist_type is Distribution.normal:
+                sample = np.random.normal(loc=0, scale=1, size=size)
+                samples[dist_type.value][size][i] = list(sample)
+
+            if all_types or dist_type is Distribution.exponential:
+                sample = np.random.exponential(scale=1, size=size)
+                samples[dist_type.value][size][i] = list(sample)
+
+    save_file = open(f"{path}/{filename}.json", "w")
+    json.dump(samples, save_file, indent=4)
+    save_file.close()
+
+    return True
diff --git a/stattest/stats/_stats_exp.py b/stattest/stats/_stats_exp.py
@@ -0,0 +1,114 @@
+from scipy.stats import norm
+import numpy as np
+from stattest._utils import _check_sample_length, _scale_sample
+
+
+def eptest_exp(x):
+    """
+    Epps and Pulley test statistic for exponentiality.
+
+    Parameters
+    ----------
+    x : array_like
+        Array of sample data.
+
+    Returns
+    -------
+    statistic : float
+        The test statistic.
+    """
+    n = len(x)
+    _check_sample_length(x)
+    x_scaled = _scale_sample(x)
+
+    statistic_sum = 0
+    for j in range(n):
+        statistic_sum += np.exp(-x_scaled[j])
+
+    statistic = ((48 * n) ** 0.5) * ((statistic_sum / n) - 0.5)
+
+    return statistic
+
+
+def cmtest_exp(x):
+    """
+    Cramer-von-Mises test statistic for exponentiality.
+
+    Parameters
+    ----------
+    x : array_like
+        Array of sample data.
+
+    Returns
+    -------
+    statistic : float
+        The test statistic.
+    """
+    n = len(x)
+    _check_sample_length(x)
+    x_scaled_sorted = sorted(_scale_sample(x))
+
+    statistic_sum = 0
+    for j in range(n):
+        statistic_sum += ((1 - np.exp(-x_scaled_sorted[j])) - (2 * j - 1) / (2 * n)) ** 2
+
+    statistic = (1 / 12 * n) + statistic_sum
+
+    return statistic
+
+
+def kstest_exp(x):
+    """
+    Kolmogorov and Smirnov test statistic for exponentiality.
+
+    Parameters
+    ----------
+    x : array_like
+        Array of sample data.
+
+    Returns
+    -------
+    statistic : float
+        The test statistic.
+    """
+    n = len(x)
+    _check_sample_length(x)
+    x_scaled_sorted = sorted(_scale_sample(x))
+
+    ks_plus = float('-inf')
+    ks_minus = float('-inf')
+
+    for j in range(n):
+        ks_plus = max(j / n - (1 - np.exp(-x_scaled_sorted[j])), ks_plus)
+        ks_minus = max((1 - np.exp(-x_scaled_sorted[j]) - (j - 1) / n), ks_minus)
+
+    statistic = max(ks_plus, ks_minus)
+
+    return statistic
+
+
+def zptest_exp(x):
+    """
+    Zardasht et al. test statistic for exponentiality.
+
+    Parameters
+    ----------
+    x : array_like
+        Array of sample data.
+
+    Returns
+    -------
+    statistic : float
+        The test statistic.
+    """
+    n = len(x)
+    _check_sample_length(x)
+    x_scaled = _scale_sample(x)
+
+    statistic_sum = 0
+    for j in range(n):
+        statistic_sum += x_scaled[j] * np.exp(-x_scaled[j])
+
+    statistic = statistic_sum / n - (1 / 4)
+
+    return statistic