DIMFLIX-Hackathons
diff --git a/‎.env.example‎
Lines changed: 2 additions & 2 deletions b/‎.env.example‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎README.md‎
Lines changed: 12 additions & 7 deletions b/‎README.md‎
Lines changed: 12 additions & 7 deletions
diff --git a/‎disk_destiny/app.py‎
Lines changed: 109 additions & 42 deletions b/‎disk_destiny/app.py‎
Lines changed: 109 additions & 42 deletions
diff --git a/‎disk_destiny/config.py‎
Lines changed: 28 additions & 0 deletions b/‎disk_destiny/config.py‎
Lines changed: 28 additions & 0 deletions
diff --git a/‎disk_destiny/models/KNN.py‎
Lines changed: 60 additions & 4 deletions b/‎disk_destiny/models/KNN.py‎
Lines changed: 60 additions & 4 deletions
@@ -1,5 +1,5 @@
 WEIGHTS_USE=True
 
 KNN_WEIGHT=0.8
-LOGISTICS_REGRESSION_WEIGHT=0.7
-XGBOOST_WEIGHT=1
+TREECLASSIFIER_WEIGHT=0.7
+RANDOMFORESTCLASSIFIER_WEIGHT=1
@@ -24,15 +24,20 @@
 1. Клонируем проект с GitHub: `git clone https://github.com/DIMFLIX-OFFICIAL/disk-destiny.git`
 2. Переходим в папку с проектом: `cd disk-destiny`
 3. Устанавливаем зависимости: `poetry install`
-4. Запускаем программу: `poetry run python disk_destiny/app.py`
-
-Программа будет запускаться в терминале и предложить выбрать действие для выполнения.
+4. В папку `data/prediction` копируем нужные датасеты
+5. Запускаем программу `poetry run python disk_destiny/app.py` и следуем дальнейшим инструкциям. 
 
 > [!important]
 > Для выбора нескольких значений в списке нужно нажать клавишу 'Space'.
 > Если возможно выбрать только одно значение из списка, нужно просто нажать клавишу 'Enter'.
 
 # Разработчикам
+## Обучение моделей
+Для обучения моделей требуется скопировать тренировочные датасеты в папку `data/train`.
+Далее запустить программу `poetry run python disk_destiny/app.py` и выбрать опцию `Дообучение модели`.
+Выбираем нужную модель датасеты для обучения.
+
+## Добавление новых моделей
 Если вы хотите добавить новые модели, то вам нужно будет создать файл с именем `models/your_model.py` в корневой папке проекта. 
 
 Класс вашей модели должен наследоваться от класса `BaseModel` и реализовывать методы `train` и `predict`. Так-же у вашего класса должен быть атрибут `name` со значением типа `str`.
@@ -53,28 +58,28 @@
         <img src="https://github.com/DIMFLIX-OFFICIAL.png?size=100" width="100px;" alt=""/><br/>
         <b>Пронин Дмитрий</b>
       </a><br/>
-      <sub>Построение и оптимизация алгоритмов.<br>Разработка TUI</sub>
+      <sub>Algorithmic Designer<br>System Architect</sub>
     </td>
     <td align="center">
       <a href="https://github.com/K1rsn7">
         <img src="https://github.com/K1rsn7.png?size=100" width="100px;" alt=""/><br />
         <b>Сухоруков Кирилл</b>
       </a><br />
-      <sub>Построение алгоритмов.<br>Обучение моделей</sub>
+      <sub>ML Engineer</sub>
     </td>
 	<td align="center">
       <a href="https://github.com/AsDo001">
         <img src="https://github.com/AsDo001.png?size=100" width="100px;" alt=""/><br />
         <b>Донсков Арсений</b>
       </a><br />
-      <sub>Построение алгоритмов.<br>Обучение моделей</sub>
+      <sub>ML Engineer</sub>
     </td>
 	<td align="center">
       <a href="https://github.com/Sweepyd1">
         <img src="https://github.com/Sweepyd1.png?size=100" width="100px;" alt=""/><br />
         <b>Яшин Дмитрий</b>
       </a><br />
-      <sub>Построение алгоритмов.<br>Обучение моделей</sub>
+      <sub>Data Engineer</sub>
     </td>
   </tr>
 </table>
 
@@ -1,19 +1,27 @@
-import os
 import inquirer
 import numpy as np
+import pandas as pd
 from dotenv import load_dotenv
-from typing import Dict, List
+from typing import Dict, List, Tuple
 
 import models
 from models.base import BaseModel
-from utils.other import print_pure_banner
+from utils.data_normalizing import Normalizer
+from utils.other import print_pure_banner, get_csv_files, ask_list, ask_checkbox
+from config import WEIGHTS, WEIGHTS_USE, PATH_TO_PREDICT_DATASETS, PATH_TO_PREDICT_NORMALIZED_DATASETS, PATH_TO_TRAIN_DATASETS
 
 
-class App:
+class Application:
+	weights_use: bool
 	allowed_models: Dict[str, BaseModel]
 
 	def __init__(self, weights: Dict[str, float], weights_use: bool = True) -> None:
+		self.weights_use = weights_use
 		self.allowed_models = {}
+		
+		PATH_TO_PREDICT_DATASETS.mkdir(exist_ok=True, parents=True)
+		PATH_TO_PREDICT_NORMALIZED_DATASETS.mkdir(exist_ok=True, parents=True)
+		PATH_TO_TRAIN_DATASETS.mkdir(exist_ok=True, parents=True)
 
 		for model in BaseModel.__subclasses__():
 			weight =  weights.get(model.name.upper(), 1)
@@ -30,58 +38,117 @@ def __init__(self, weights: Dict[str, float], weights_use: bool = True) -> None:
 
 	def run(self) -> None:
 		print_pure_banner()
-		self.ask_questions()
+		self.main_menu()
 
-	def ask_questions(self) -> None:
-		main_menu_answer = inquirer.prompt([
-			inquirer.List('answer',
-				message="Что будем делать?",
-				choices=['Дообучение модели', 'Получить предсказание', 'Выход'],
-			)
-		])['answer']
-
+	def main_menu(self) -> None:
+		main_menu_answer = ask_list("Что будем делать?", ['Дообучение модели', 'Получить предсказание', 'Выход'])
 		print_pure_banner()
 
 		match main_menu_answer:
 			case 'Дообучение модели':
-				model = inquirer.prompt([
-					inquirer.List('answer',
-						message="Выберите модель для дообучения",
-						choices=self.allowed_models,
-					)
-				])['answer']
-				self.allowed_models[model].train()
+				self.train()
 
 			case 'Получить предсказание':
-				models = inquirer.prompt([
-					inquirer.Checkbox('answer',
-						message="Выберите модели для предсказания.",
-						choices=self.allowed_models,
-					)
-				])['answer']
-				print(models)
-				self.predict(list_models=models)
+				self.predict()
 
 			case 'Выход':
 				exit()
 
-	def predict(self, list_models: List[BaseModel], use_weights: bool = True) -> float:
-		results = {i.weight: i.predict() for i in list_models}
-		
-		if use_weights:
-			return np.average(results.values(), axis=0, weights=results.keys())
+	def train(self) -> None:
+		model = ask_list("Выберите модель для дообучения", self.allowed_models)
+		print_pure_banner()
+
+		csv_files = get_csv_files(path=PATH_TO_TRAIN_DATASETS)
+		if not csv_files:
+			print("Нет датасетов для обучения!")
+			exit()
+
+		dataset_filename = ask_list("Выберите тренировочный датасет.", csv_files)
+		print(dataset_filename)
+
+
+		data = Normalizer.get_df_for_train(PATH_TO_TRAIN_DATASETS / dataset_filename)
+		self.allowed_models[model].train(data)
+
+	def predict(self) -> float:
+		list_models: List[BaseModel] = ask_checkbox("Выберите модели для предсказания.",self.allowed_models, default=list(self.allowed_models.keys()))
+		list_models = [self.allowed_models[i] for i in list_models]
+		print_pure_banner()
+
+		csv_files = get_csv_files(path=PATH_TO_PREDICT_DATASETS)
+		if not csv_files:
+			print("Нет датасетов для предсказания!")
+			exit()
+
+		dataset_filename = ask_list("Выберите датасет.", csv_files)	
+
+		##==> Нормализация данных
+		##########################################################
+		csv_path = PATH_TO_PREDICT_DATASETS/ dataset_filename
+		csv_normalized_path = PATH_TO_PREDICT_NORMALIZED_DATASETS / dataset_filename
+
+		if csv_normalized_path.exists() and inquirer.confirm("Данные уже преобразованы. Хотите продолжить без повторной обработки?", default=True):
+			print("Продолжаем с преобразованными данными...")
+			X = pd.read_csv(csv_normalized_path)
 		else:
-			return np.mean(results.values(), axis=0)
+			print("Преобразуем данные... Это может занять некоторое время.")
+			X = Normalizer.get_df_for_predict(csv_path)
 
+		print_pure_banner()
+		print("Начинаем предсказывание отказоустойчивости дисков...")
+		results: Dict[float, np.ndarray] = {i.weight: i.predict(X=X) for i in list_models}
 
-if __name__ == "__main__":
-	load_dotenv()
-	weights_use = os.environ.get('WEIGHTS_USE', 'true').lower() == 'true'
+		##==> Подсчёт среднего отказа дисков по моделям
+		##########################################################
+		def calculate_destroyed_devices(shans: Dict[str, List[float]], count_models: int) -> Tuple[int, List[str]]:
+			count_destroy = 0
+			destroy_devices = []
+			for key, values in shans.items():
+				for month in range(4):
+					if values[month] / count_models > 0.7:
+						count_destroy += 1
+						destroy_devices.append(key)
+			return count_destroy, destroy_devices
 
-	weights = {
-		key.replace("_WEIGHT", ""): value 
-		for key, value in os.environ.items() if key.endswith('_WEIGHT')
-	}
+		if self.weights_use:
+			shans = {}
+			count_models = len(results.keys())
+			
+			for weight, pred in results.items():
+				for key in pred.keys():
+					if key not in shans:
+						shans[key] = [0, 0, 0, 0]
+					for month in range(4):
+						shans[key][month] += pred[key][month] * weight
 
-	app = App(weights=weights, weights_use=weights_use)
+			count_destroy_3month, destroy_devices3 = calculate_destroyed_devices(shans, count_models)
+			count_destroy_6month, destroy_devices6 = calculate_destroyed_devices(shans, count_models)
+			count_destroy_9month, destroy_devices9 = calculate_destroyed_devices(shans, count_models)
+			count_destroy_12month, destroy_devices12 = calculate_destroyed_devices(shans, count_models)
+
+		else:
+			shans_no_weight = {}
+			count_models = len(results.keys())
+			
+			for pred in results.values():
+				for key in pred.keys():
+					if key not in shans_no_weight:
+						shans_no_weight[key] = [0, 0, 0, 0]
+					for month in range(4):
+						shans_no_weight[key][month] += pred[key][month]
+
+			count_destroy_3month, destroy_devices3 = calculate_destroyed_devices(shans_no_weight, count_models)
+			count_destroy_6month, destroy_devices6 = calculate_destroyed_devices(shans_no_weight, count_models)
+			count_destroy_9month, destroy_devices9 = calculate_destroyed_devices(shans_no_weight, count_models)
+			count_destroy_12month, destroy_devices12 = calculate_destroyed_devices(shans_no_weight, count_models)
+
+		print(f"\n\n[{count_destroy_3month}] Устройств выйдет из строя в течение 3 месяцев: {destroy_devices3}")
+		print(f"[{count_destroy_6month}] Устройств выйдет из строя в течение 6 месяцев: {destroy_devices6}")
+		print(f"[{count_destroy_9month}] Устройств выйдет из строя в течение 9 месяцев: {destroy_devices9}")
+		print(f"[{count_destroy_12month}] Устройств выйдет из строя в течение 12 месяцев: {destroy_devices12}")
+
+
+if __name__ == "__main__":
+	load_dotenv()
+	app = Application(weights=WEIGHTS, weights_use=WEIGHTS_USE)
 	app.run()
@@ -0,0 +1,28 @@
+import os
+from pathlib import Path
+from dotenv import load_dotenv
+
+load_dotenv()
+
+WEIGHTS_USE = os.environ.get('WEIGHTS_USE', 'true').lower() == 'true'
+WEIGHTS = {
+	key.replace("_WEIGHT", ""): value 
+	for key, value in os.environ.items() if key.endswith('_WEIGHT')
+}
+
+PROJECT_ROOT = Path(__file__).parent.parent
+PROJECT_SRC = Path(__file__).parent
+
+
+PATH_TO_DATA = PROJECT_ROOT / "data"
+PATH_TO_PARAMS = PROJECT_SRC / "params"
+
+PATH_TO_PREDICT_DATASETS = PROJECT_ROOT / "data" / "prediction"
+PATH_TO_PREDICT_NORMALIZED_DATASETS = PROJECT_ROOT / "data" / "prediction" / "normalized"
+PATH_TO_TRAIN_DATASETS = PROJECT_ROOT / "data" / "train"
+
+PATH_TO_WEIGHTS = PROJECT_SRC / "models" / "weights"
+PATH_TO_COLUMNS = PATH_TO_PARAMS / "column_good.json"
+PATH_TO_MEDIANS = PATH_TO_PARAMS / "medians_value.json"
+PATH_TO_MODELS_CODING = PATH_TO_PARAMS / "model_coding.json"
+PATH_TO_START_HDD = PATH_TO_PARAMS / "start_date_HDD.csv"
@@ -1,11 +1,67 @@
+from pandas import DataFrame
+import numpy as np
+from sklearn.neighbors import KNeighborsClassifier
+from sklearn.model_selection import GridSearchCV
+from sklearn.metrics import accuracy_score, f1_score
+import pickle
+from typing import List
+
 from .base import BaseModel
+from schemes import TrainData
+from config import PATH_TO_WEIGHTS
 
 
 class KNN(BaseModel):
 	name = 'KNN'
 
-	def train(self) -> None:
-		pass
+	def __init__(self, weight: float = 1) -> None:
+		super().__init__(weight=weight)
+		self.model = KNeighborsClassifier()
+	
+	def _train(self,  data: TrainData) -> None:
+		def get_matrix(model, data: TrainData) -> dict:
+			pred = model.predict(data.X_test)
+			metrics = {}
+			for i, column in enumerate(data.y_test.columns):
+				accuracy = accuracy_score(data.y_test[column], pred[:, i])
+				f1 = f1_score(data.y_test[column], pred[:, i])
+
+				metrics[column] = {
+					'Accuracy':accuracy,
+					'F1 Score': f1
+				}
+			return metrics
+
+		with open(PATH_TO_WEIGHTS / "KNN.pkl", 'rb') as f:
+			self.model = pickle.load(f)
+
+		# Считаем метрики старой модели
+		old_metrics = get_matrix(self.model, data)
+		mean_old_f1 = np.mean([v['F1 Score'] for v in old_metrics.values()])
+		mean_old_accuracy = np.mean([v['Accuracy'] for v in old_metrics.values()])
+		
+		# Обучение модели 
+		param_grid = {'n_neighbors': [3, 5, 7, 9, 11], 'metric': ['euclidean', 'manhattan']}
+		grid_search = GridSearchCV(self.model, param_grid, cv=5, verbose=2)
+		grid_search.fit(data.X_train, data.y_train)
+		self.model = grid_search.best_estimator_
+
+		# Считаем метрики новой модели
+		new_metrics = get_matrix(self.model, data)
+		mean_new_f1 = np.mean([v['F1 Score'] for v in new_metrics.values()])
+		mean_new_accuracy = np.mean([v['Accuracy'] for v in new_metrics.values()])
+
+		# Сравниваем, стала-ли лучше модель или нет
+		if mean_new_f1 > mean_old_f1 and mean_new_accuracy > mean_old_accuracy:
+			with open(PATH_TO_WEIGHTS / "KNN.pkl", 'wb') as f:
+				pickle.dump(self.model, f)
+			print(f"Модель улучшилась после дообучения! Accuracy: {mean_old_accuracy} -> {mean_new_accuracy}, F1 Score: {mean_old_f1} -> {mean_new_f1}!")
+		else:
+			print("Модель не улучшилась после дообучения!")
 
-	def predict(self) -> float:
-		pass
+	def _predict(self, X: DataFrame) -> List[list]:
+		with open(PATH_TO_WEIGHTS / "KNN.pkl", 'rb') as f:
+			self.model = pickle.load(f)
+		
+		predictions = self.model.predict(X[:10])
+		return {key: value for key, value in zip(X.index.values, predictions)}