You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
이제 `Trainer` API와 사용자 정의 훈련 루프를 모두 사용하여 미세 조정을 구현하는 방법을 배웠으므로, 결과를 해석하는 방법을 이해하는 것이 중요합니다. 학습 곡선은 훈련 중 모델의 성능을 평가하고 성능을 저하시키기 전에 잠재적인 문제를 식별하는 데 도움이 되는 매우 유용한 도구입니다.
10
+
이제 `Trainer` API와 사용자 정의 훈련 루프를 모두 사용하여 미세 조정을 구현하는 방법을 배웠으므로, 결과를 해석하는 방법을 이해하는 것이 중요합니다. 학습 곡선은 훈련 중 모델의 성능을 평가하고 성능 저하를 일으킬 수 있는 잠재적 문제를 미리 식별하는 데 도움이 되는 매우 유용한 도구입니다.
11
11
12
12
이 섹션에서는 정확도와 손실 곡선을 읽고 해석하는 방법을 탐구하고, 다양한 곡선 모양이 모델의 동작에 대해 무엇을 알려주는지 이해하며, 일반적인 훈련 문제를 해결하는 방법을 배웁니다.
13
13
14
14
## 학습 곡선이란 무엇인가요?[[what-are-learning-curves]]
15
15
16
-
학습 곡선은 훈련 중에 시간에 따른 모델의 성능 메트릭을 시각적으로 나타낸 것입니다. 모니터링해야 할 가장 중요한 두 곡선은 다음과 같습니다:
16
+
학습 곡선은 훈련 중에 시간에 따른 모델의 성능 메트릭을 시각적으로 나타낸 것입니다. 모니터링해야 할 가장 중요한 두 곡선은 다음과 같습니다.
17
17
18
-
-**손실 곡선**: 훈련 단계나 에폭에 따라 모델의 오류(손실)가 어떻게 변하는지 보여줍니다
19
-
-**정확도 곡선**: 훈련 단계나 에폭에 따른 정확한 예측의 백분율을 보여줍니다
18
+
-**손실 곡선**: 훈련 단계나 에폭에 따라 모델의 오류(손실)가 어떻게 변하는지 보여줍니다.
19
+
-**정확도 곡선**: 훈련 단계나 에폭에 따른 정확한 예측의 백분율을 보여줍니다.
20
20
21
-
이러한 곡선은 모델이 효과적으로 학습하고 있는지 이해하는 데 도움이 되며, 성능을 향상시키기 위한 조정을 가이드할 수 있습니다. Transformers에서는 이러한 메트릭이 각 배치에 대해 개별적으로 계산된 다음 디스크에 기록됩니다. 그런 다음 [Weights & Biases](https://wandb.ai/)와 같은 라이브러리를 사용하여 이러한 곡선을 시각화하고 시간에 따른 모델의 성능을 추적할 수 있습니다.
21
+
이러한 곡선을 통해 모델의 학습 효과를 파악하고, 성능 향상을 위한 조정 방향을 결정할 수 있습니다. Transformers에서는 이러한 메트릭이 각 배치에 대해 개별적으로 계산된 다음 디스크에 기록됩니다. 그런 다음 [Weights & Biases](https://wandb.ai/)와 같은 라이브러리를 사용하여 이러한 곡선을 시각화하고 시간에 따른 모델의 성능을 추적할 수 있습니다.
22
22
23
23
### 손실 곡선[[loss-curves]]
24
24
25
-
손실 곡선은 시간에 따라 모델의 오류가 어떻게 감소하는지 보여줍니다. 일반적으로 성공적인 훈련 실행에서는 아래와 같은 곡선을 볼 수 있습니다:
25
+
손실 곡선은 시간에 따라 모델의 오류가 어떻게 감소하는지 보여줍니다. 일반적으로 성공적인 훈련 실행에서는 아래와 같은 곡선을 볼 수 있습니다.
-**낮게 시작**: 모델이 아직 데이터의 패턴을 학습하지 않았으므로 초기 정확도는 낮아야 합니다
76
-
-**훈련과 함께 증가**: 모델이 데이터의 패턴을 학습할 수 있다면 학습함에 따라 정확도가 일반적으로 향상되어야 합니다
77
-
-**고원 현상을 보일 수 있음**: 모델이 실제 레이블에 가까운 예측을 하므로 정확도는 부드럽게 증가하기보다는 이산적인 점프로 증가하는 경우가 많습니다
75
+
-**낮게 시작**: 모델이 아직 데이터의 패턴을 학습하지 않았으므로 초기 정확도는 낮아야 합니다.
76
+
-**훈련과 함께 증가**: 모델이 데이터의 패턴을 학습할 수 있다면 학습함에 따라 정확도가 일반적으로 향상되어야 합니다.
77
+
-**고원 현상을 보일 수 있음**: 모델이 실제 레이블에 가까운 예측을 만들어내므로, 정확도는 부드럽게 상승하기보다는 계단식으로 점프하는 경우가 많습니다.
78
78
79
79
<Tip>
80
80
@@ -96,7 +96,7 @@ trainer.train()
96
96
97
97
### 건전한 학습 곡선[[healthy-learning-curves]]
98
98
99
-
잘 작동하는 훈련 실행은 일반적으로 아래와 같은 곡선 모양을 보여줍니다:
99
+
잘 작동하는 훈련 실행은 일반적으로 아래와 같은 곡선 모양을 보여줍니다.
100
100
101
101

102
102
@@ -106,7 +106,7 @@ trainer.train()
106
106
107
107
이제 정확도 곡선에 초점을 맞춰보겠습니다. 이는 시간에 따른 모델의 정확도를 나타냅니다. 정확도 곡선은 낮은 값에서 시작하여 훈련이 진행됨에 따라 증가합니다. 정확도는 올바르게 분류된 인스턴스의 비율을 측정합니다. 따라서 정확도 곡선이 상승함에 따라 모델이 더 정확한 예측을 하고 있음을 의미합니다.
108
108
109
-
곡선 간의 주목할 만한 차이점 중 하나는 정확도 곡선의 부드러움과 "고원"의 존재입니다. 손실이 부드럽게 감소하는 동안 정확도 곡선의 고원은 연속적인 증가 대신 정확도의 이산적인 점프를 나타냅니다. 이 동작은 정확도가 측정되는 방식에 기인합니다. 최종 예측이 여전히 틀렸더라도 모델의 출력이 목표에 가까워지면 손실이 개선될 수 있습니다. 그러나 정확도는 예측이 정확한 임계값을 넘어야만 향상됩니다.
109
+
곡선 간의 주목할 만한 차이점 중 하나는 정확도 곡선의 부드러움과 "고원"의 존재입니다. 손실이 부드럽게 감소하는 동안 정확도 곡선의 고원은 연속적인 증가 대신 정확도의 이산적인 점프를 나타냅니다. 이러한 현상은 정확도 측정 방식의 특성 때문입니다. 최종 예측이 여전히 틀렸더라도 모델의 출력이 목표에 가까워지면 손실이 개선될 수 있습니다. 그러나 정확도는 예측이 정확한 임계값을 넘어야만 향상됩니다.
110
110
111
111
예를 들어, 고양이(0)와 개(1)를 구별하는 이진 분류기에서 모델이 개 이미지(실제 값 1)에 대해 0.3을 예측하면 이는 0으로 반올림되어 잘못된 분류입니다. 다음 단계에서 0.4를 예측하면 여전히 틀렸습니다. 0.4가 0.3보다 1에 더 가깝기 때문에 손실은 감소했지만 정확도는 변하지 않아 고원을 만듭니다. 정확도는 모델이 0.5보다 큰 값을 예측하여 1로 반올림될 때만 점프합니다.
112
112
@@ -125,7 +125,7 @@ trainer.train()
125
125
126
126
#### 훈련 중[[during-training]]
127
127
128
-
훈련 과정 중(`trainer.train()`을 실행한 후) 다음과 같은 주요 지표를 모니터링할 수 있습니다:
128
+
훈련 과정 중(`trainer.train()`을 실행한 후) 다음과 같은 주요 지표를 모니터링할 수 있습니다.
129
129
130
130
1.**손실 수렴**: 손실이 여전히 감소하고 있는가, 아니면 고원에 도달했는가?
131
131
2.**과적합 신호**: 훈련 손실은 감소하는 동안 검증 손실이 증가하기 시작하는가?
@@ -143,7 +143,7 @@ trainer.train()
143
143
144
144
<Tip>
145
145
146
-
🔍 **W&B 대시보드 기능**: Weights & Biases는 학습 곡선의 아름답고 대화형 플롯을 자동으로 생성합니다. 다음을 할 수 있습니다:
146
+
🔍 **W&B 대시보드 기능**: Weights & Biases는 학습 곡선의 아름답고 대화형 플롯을 자동으로 생성합니다. 다음을 할 수 있습니다.
147
147
- 여러 실행을 나란히 비교
148
148
- 사용자 정의 메트릭 및 시각화 추가
149
149
- 이상 동작에 대한 알림 설정
@@ -203,7 +203,7 @@ trainer = Trainer(
203
203
204
204
#### 2. 부적합[[underfitting]]
205
205
206
-
부적합은 모델이 데이터의 기본 패턴을 포착하기에는 너무 단순할 때 발생합니다. 이는 여러 가지 이유로 발생할 수 있습니다:
206
+
부적합은 모델이 데이터의 기본 패턴을 포착하기에는 너무 단순할 때 발생합니다. 이는 여러 가지 이유로 발생할 수 있습니다.
0 commit comments