fix feature engineering

corazzon · corazzon · commit d00a9eba6d7f · 2025-06-25T23:31:36.000+09:00
diff --git a/kepco/kepco_eda.ipynb b/kepco/kepco_eda.ipynb
@@ -47,7 +47,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 36,
+   "execution_count": 1,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -103,15 +103,6 @@
     "df.shape"
    ]
   },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "df"
-   ]
-  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -221,7 +212,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 50,
+   "execution_count": 14,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -261,113 +252,101 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "def advanced_feature_engineering(df):\n",
-    "    \"\"\"\n",
-    "    고급 특성 공학 수행 - 47개 새로운 특성 생성\n",
-    "    \"\"\"\n",
-    "    print(\"고급 특성 공학 수행 중...\")\n",
-    "    df_features = df.copy()\n",
-    "    \n",
-    "    # 1. 결측치 처리\n",
-    "    df_features['상대습도'] = df_features['상대습도'].fillna(df_features['상대습도'].median())\n",
-    "    df_features['풍속'] = df_features['풍속'].fillna(df_features['풍속'].median())\n",
-    "    df_features['기온'] = df_features['기온'].fillna(df_features['기온'].median())\n",
-    "    \n",
-    "    # 2. 시간 기반 특성 (순환 인코딩)\n",
-    "    df_features['시간_sin'] = np.sin(2 * np.pi * df_features['시'] / 24)\n",
-    "    df_features['시간_cos'] = np.cos(2 * np.pi * df_features['시'] / 24)\n",
-    "    df_features['월_sin'] = np.sin(2 * np.pi * df_features['월'] / 12)\n",
-    "    df_features['월_cos'] = np.cos(2 * np.pi * df_features['월'] / 12)\n",
-    "    df_features['요일_sin'] = np.sin(2 * np.pi * df_features['요일'] / 7)\n",
-    "    df_features['요일_cos'] = np.cos(2 * np.pi * df_features['요일'] / 7)\n",
-    "    \n",
-    "    # 3. 시간대 구분\n",
-    "    df_features['주말'] = (df_features['요일'] >= 5).astype(int)\n",
-    "    df_features['새벽'] = ((df_features['시'] >= 0) & (df_features['시'] < 6)).astype(int)\n",
-    "    df_features['오전'] = ((df_features['시'] >= 6) & (df_features['시'] < 12)).astype(int)\n",
-    "    df_features['오후'] = ((df_features['시'] >= 12) & (df_features['시'] < 18)).astype(int)\n",
-    "    df_features['저녁'] = ((df_features['시'] >= 18) & (df_features['시'] < 24)).astype(int)\n",
-    "    df_features['오전피크'] = ((df_features['시'] >= 8) & (df_features['시'] <= 10)).astype(int)\n",
-    "    df_features['저녁피크'] = ((df_features['시'] >= 18) & (df_features['시'] <= 20)).astype(int)\n",
-    "    \n",
-    "    # 4. 계절 기반 특성\n",
-    "    df_features['봄'] = df_features['월'].isin([3, 4, 5]).astype(int)\n",
-    "    df_features['여름'] = df_features['월'].isin([6, 7, 8]).astype(int)\n",
-    "    df_features['가을'] = df_features['월'].isin([9, 10, 11]).astype(int)\n",
-    "    df_features['겨울'] = df_features['월'].isin([12, 1, 2]).astype(int)\n",
-    "    \n",
-    "    # 5. 기상 기반 특성\n",
-    "    df_features['냉방도일'] = np.maximum(0, df_features['기온'] - 24)\n",
-    "    df_features['난방도일'] = np.maximum(0, 18 - df_features['기온'])\n",
-    "    df_features['불쾌지수'] = 1.8 * df_features['기온'] - 0.55 * (1 - df_features['상대습도']/100) * (1.8 * df_features['기온'] - 26) + 32\n",
-    "    df_features['체감온도'] = df_features['기온'] - 0.4 * (df_features['기온'] - 10) * (1 - df_features['상대습도']/100)\n",
-    "    \n",
-    "    # 6. 극한 기상 조건\n",
-    "    df_features['고온'] = (df_features['기온'] > df_features['기온'].quantile(0.9)).astype(int)\n",
-    "    df_features['저온'] = (df_features['기온'] < df_features['기온'].quantile(0.1)).astype(int)\n",
-    "    df_features['고습도'] = (df_features['상대습도'] > df_features['상대습도'].quantile(0.9)).astype(int)\n",
-    "    df_features['강풍'] = (df_features['풍속'] > df_features['풍속'].quantile(0.9)).astype(int)\n",
-    "    \n",
-    "    # 7. 전력 관련 파생 특성\n",
-    "    df_features['이용률'] = df_features['전력부하합계'] / (df_features['계약전력합계'] + 1e-6)\n",
-    "    df_features['전력밀도'] = df_features['전력부하합계'] / (df_features['공동주택수'] + 1e-6)\n",
-    "    df_features['단지당계약전력'] = df_features['계약전력합계'] / (df_features['공동주택수'] + 1e-6)\n",
-    "    df_features['정규화부하'] = df_features['전력부하합계'] / (df_features['계약전력합계'] * df_features['공동주택수'] / 100 + 1e-6)\n",
-    "    \n",
-    "\n",
-    "    # Combine columns into a datetime string\n",
-    "    dt_str = (\n",
-    "        df_features['연도'].astype(str) + '-' +\n",
-    "        df_features['월'].astype(str).str.zfill(2) + '-' +\n",
-    "        df_features['일'].astype(str).str.zfill(2) + ' ' +\n",
-    "        df_features['시'].astype(str).str.zfill(2) + ':00:00'\n",
-    "    )\n",
     "\n",
-    "    # Find rows where hour is 24\n",
-    "    mask_24 = df_features['시'] == 24\n",
-    "\n",
-    "    # Set hour to 0 for those rows\n",
-    "    dt_str[mask_24] = (\n",
-    "        df_features.loc[mask_24, '연도'].astype(str) + '-' +\n",
-    "        df_features.loc[mask_24, '월'].astype(str).str.zfill(2) + '-' +\n",
-    "        df_features.loc[mask_24, '일'].astype(str).str.zfill(2) + ' 00:00:00'\n",
-    "    )\n",
+    "# 1. 결측치 처리\n",
+    "df['상대습도'] = df['상대습도'].fillna(df['상대습도'].median())\n",
+    "df['풍속'] = df['풍속'].fillna(df['풍속'].median())\n",
+    "df['기온'] = df['기온'].fillna(df['기온'].median())\n",
     "\n",
-    "    # Convert to datetime\n",
-    "    df_features['날짜'] = pd.to_datetime(dt_str, format='%Y-%m-%d %H:%M:%S')\n",
-    "\n",
-    "\n",
-    "    # 8. 시계열 지연 특성 (데이터 시간순 정렬 필요)\n",
-    "    # '연도', '월', '일', '시' 컬럼을 이용해 '날짜' 컬럼 생성 (datetime 대체)\n",
-    "\n",
-    "    df_features = df_features.sort_values('날짜').reset_index(drop=True)\n",
-    "    for lag in [1, 24, 168]:  # 1시간, 1일, 1주일 전\n",
-    "        if lag < len(df_features):\n",
-    "            df_features[f'전력부하_lag{lag}'] = df_features['전력부하합계'].shift(lag)\n",
-    "            df_features[f'기온_lag{lag}'] = df_features['기온'].shift(lag)\n",
-    "    # 9. 이동 평균 및 표준편차\n",
-    "    for window in [24, 168]:  # 24시간, 1주일\n",
-    "        if window < len(df_features):\n",
-    "            df_features[f'전력부하_ma{window}'] = df_features['전력부하합계'].rolling(window=window, min_periods=1).mean()\n",
-    "            df_features[f'기온_ma{window}'] = df_features['기온'].rolling(window=window, min_periods=1).mean()\n",
-    "            df_features[f'전력부하_std{window}'] = df_features['전력부하합계'].rolling(window=window, min_periods=1).std()\n",
-    "    \n",
-    "    # 10. 상호작용 특성\n",
-    "    df_features['기온_시간'] = df_features['기온'] * df_features['시']\n",
-    "    df_features['기온_제곱'] = df_features['기온'] ** 2\n",
-    "    df_features['기온_세제곱'] = df_features['기온'] ** 3\n",
-    "    df_features['여름_오후'] = df_features['여름'] * df_features['오후']\n",
-    "    df_features['겨울_저녁'] = df_features['겨울'] * df_features['저녁']\n",
-    "    df_features['주말_오전'] = df_features['주말'] * df_features['오전']\n",
-    "    \n",
-    "    # 결측치 처리 (지연 특성으로 인한)\n",
-    "    df_features = df_features.fillna(method='bfill').fillna(method='ffill')\n",
-    "    \n",
-    "    return df_features\n",
-    "\n",
-    "# 특성 공학\n",
-    "df_engineered = advanced_feature_engineering(df)\n",
-    "df_engineered"
+    "# 2. 시간 기반 특성 (순환 인코딩)\n",
+    "df['시간_sin'] = np.sin(2 * np.pi * df['시'] / 24)\n",
+    "df['시간_cos'] = np.cos(2 * np.pi * df['시'] / 24)\n",
+    "df['월_sin'] = np.sin(2 * np.pi * df['월'] / 12)\n",
+    "df['월_cos'] = np.cos(2 * np.pi * df['월'] / 12)\n",
+    "df['요일_sin'] = np.sin(2 * np.pi * df['요일'] / 7)\n",
+    "df['요일_cos'] = np.cos(2 * np.pi * df['요일'] / 7)\n",
+    "\n",
+    "# 3. 시간대 구분\n",
+    "df['주말'] = (df['요일'] >= 5).astype(int)\n",
+    "df['새벽'] = ((df['시'] >= 0) & (df['시'] < 6)).astype(int)\n",
+    "df['오전'] = ((df['시'] >= 6) & (df['시'] < 12)).astype(int)\n",
+    "df['오후'] = ((df['시'] >= 12) & (df['시'] < 18)).astype(int)\n",
+    "df['저녁'] = ((df['시'] >= 18) & (df['시'] < 24)).astype(int)\n",
+    "df['오전피크'] = ((df['시'] >= 8) & (df['시'] <= 10)).astype(int)\n",
+    "df['저녁피크'] = ((df['시'] >= 18) & (df['시'] <= 20)).astype(int)\n",
+    "\n",
+    "# 4. 계절 기반 특성\n",
+    "df['봄'] = df['월'].isin([3, 4, 5]).astype(int)\n",
+    "df['여름'] = df['월'].isin([6, 7, 8]).astype(int)\n",
+    "df['가을'] = df['월'].isin([9, 10, 11]).astype(int)\n",
+    "df['겨울'] = df['월'].isin([12, 1, 2]).astype(int)\n",
+    "\n",
+    "# 5. 기상 기반 특성\n",
+    "df['냉방도일'] = np.maximum(0, df['기온'] - 24)\n",
+    "df['난방도일'] = np.maximum(0, 18 - df['기온'])\n",
+    "df['불쾌지수'] = 1.8 * df['기온'] - 0.55 * (1 - df['상대습도']/100) * (1.8 * df['기온'] - 26) + 32\n",
+    "df['체감온도'] = df['기온'] - 0.4 * (df['기온'] - 10) * (1 - df['상대습도']/100)\n",
+    "\n",
+    "# 6. 극한 기상 조건\n",
+    "df['고온'] = (df['기온'] > df['기온'].quantile(0.9)).astype(int)\n",
+    "df['저온'] = (df['기온'] < df['기온'].quantile(0.1)).astype(int)\n",
+    "df['고습도'] = (df['상대습도'] > df['상대습도'].quantile(0.9)).astype(int)\n",
+    "df['강풍'] = (df['풍속'] > df['풍속'].quantile(0.9)).astype(int)\n",
+    "\n",
+    "# 7. 전력 관련 파생 특성\n",
+    "df['이용률'] = df['전력부하합계'] / (df['계약전력합계'] + 1e-6)\n",
+    "df['전력밀도'] = df['전력부하합계'] / (df['공동주택수'] + 1e-6)\n",
+    "df['단지당계약전력'] = df['계약전력합계'] / (df['공동주택수'] + 1e-6)\n",
+    "df['정규화부하'] = df['전력부하합계'] / (df['계약전력합계'] * df['공동주택수'] / 100 + 1e-6)\n",
+    "\n",
+    "\n",
+    "# Combine columns into a datetime string\n",
+    "dt_str = (\n",
+    "    df['연도'].astype(str) + '-' +\n",
+    "    df['월'].astype(str).str.zfill(2) + '-' +\n",
+    "    df['일'].astype(str).str.zfill(2) + ' ' +\n",
+    "    df['시'].astype(str).str.zfill(2) + ':00:00'\n",
+    ")\n",
+    "\n",
+    "# Find rows where hour is 24\n",
+    "mask_24 = df['시'] == 24\n",
+    "\n",
+    "# Set hour to 0 for those rows\n",
+    "dt_str[mask_24] = (\n",
+    "    df.loc[mask_24, '연도'].astype(str) + '-' +\n",
+    "    df.loc[mask_24, '월'].astype(str).str.zfill(2) + '-' +\n",
+    "    df.loc[mask_24, '일'].astype(str).str.zfill(2) + ' 00:00:00'\n",
+    ")\n",
+    "\n",
+    "# Convert to datetime\n",
+    "df['날짜'] = pd.to_datetime(dt_str, format='%Y-%m-%d %H:%M:%S')\n",
+    "\n",
+    "\n",
+    "# 8. 시계열 지연 특성 (데이터 시간순 정렬 필요)\n",
+    "# '연도', '월', '일', '시' 컬럼을 이용해 '날짜' 컬럼 생성 (datetime 대체)\n",
+    "\n",
+    "df = df.sort_values('날짜').reset_index(drop=True)\n",
+    "for lag in [1, 24, 168]:  # 1시간, 1일, 1주일 전\n",
+    "    if lag < len(df):\n",
+    "        df[f'전력부하_lag{lag}'] = df['전력부하합계'].shift(lag)\n",
+    "        df[f'기온_lag{lag}'] = df['기온'].shift(lag)\n",
+    "# 9. 이동 평균 및 표준편차\n",
+    "for window in [24, 168]:  # 24시간, 1주일\n",
+    "    if window < len(df):\n",
+    "        df[f'전력부하_ma{window}'] = df['전력부하합계'].rolling(window=window, min_periods=1).mean()\n",
+    "        df[f'기온_ma{window}'] = df['기온'].rolling(window=window, min_periods=1).mean()\n",
+    "        df[f'전력부하_std{window}'] = df['전력부하합계'].rolling(window=window, min_periods=1).std()\n",
+    "\n",
+    "# 10. 상호작용 특성\n",
+    "df['기온_시간'] = df['기온'] * df['시']\n",
+    "df['기온_제곱'] = df['기온'] ** 2\n",
+    "df['기온_세제곱'] = df['기온'] ** 3\n",
+    "df['여름_오후'] = df['여름'] * df['오후']\n",
+    "df['겨울_저녁'] = df['겨울'] * df['저녁']\n",
+    "df['주말_오전'] = df['주말'] * df['오전']\n",
+    "\n",
+    "# 결측치 처리 (지연 특성으로 인한)\n",
+    "df = df.fillna(method='bfill').fillna(method='ffill')"
    ]
   },
   {
@@ -398,7 +377,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 54,
+   "execution_count": 18,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -432,7 +411,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 57,
+   "execution_count": 21,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -479,7 +458,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 59,
+   "execution_count": 23,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -557,7 +536,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 61,
+   "execution_count": 25,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -628,7 +607,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 73,
+   "execution_count": 30,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -657,61 +636,7 @@
    "execution_count": null,
    "metadata": {},
    "outputs": [],
-   "source": [
-    "# 특성 공학\n",
-    "df_engineered = advanced_feature_engineering(df)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# 데이터 준비\n",
-    "X_train, X_test, y_train, y_test, X_train_scaled, X_test_scaled, scaler = prepare_modeling_data(df_engineered)\n"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "\n",
-    "# 모델 평가\n",
-    "model_results = comprehensive_model_evaluation(X_train_scaled, X_test_scaled, y_train, y_test)\n"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "\n",
-    "# 하이퍼파라미터 최적화\n",
-    "best_model = hyperparameter_optimization(X_train_scaled, y_train)\n",
-    "\n",
-    "# 앙상블 모델\n",
-    "ensemble_model = create_ensemble_model(X_train_scaled, y_train)\n",
-    "\n",
-    "# 시계열 교차 검증\n",
-    "tscv = TimeSeriesSplit(n_splits=3)\n",
-    "cv_scores = cross_val_score(best_model, X_train_scaled, y_train, cv=tscv, scoring='r2')\n",
-    "\n",
-    "print(f\"\\n최종 모델 성능:\")\n",
-    "print(f\"시계열 교차검증 R²: {cv_scores.mean():.4f} (±{cv_scores.std():.4f})\")\n",
-    "\n",
-    "# 9. 모델 저장 (pickle 사용)\n",
-    "import pickle\n",
-    "with open('best_power_prediction_model.pkl', 'wb') as f:\n",
-    "    pickle.dump(best_model, f)\n",
-    "with open('scaler.pkl', 'wb') as f:\n",
-    "    pickle.dump(scaler, f)\n",
-    "\n",
-    "print(\"모델 및 스케일러 저장 완료\")\n"
-   ]
+   "source": []
   },
   {
    "cell_type": "code",