You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: chapters/de/chapter3/4.mdx
+7-4Lines changed: 7 additions & 4 deletions
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -105,7 +105,7 @@ Alle 🤗 Transformer Modelle geben den Verlust zurück, wenn `labels` angegeben
105
105
Wir sind fast so weit, unsere Trainingsschleife zu schreiben! Es fehlen nur noch zwei Dinge: ein Optimierer und ein Scheduler für die Lernrate. Da wir versuchen, das zu wiederholen, was der `Trainer` automatisch gemacht hat, werden wir die gleichen Standardwerte verwenden. Der Optimierer, den der `Trainer` verwendet, heißt "AdamW" und ist größtenteils derselbe wie Adam, abgesehen von einer Abwandlung für die "Weight Decay Regularization" (siehe ["Decoupled Weight Decay Regularization"] (https://arxiv.org/abs/1711.05101) von Ilya Loshchilov und Frank Hutter):
106
106
107
107
```py
108
-
fromtransformersimport AdamW
108
+
fromtorch.optimimport AdamW
109
109
110
110
optimizer = AdamW(model.parameters(), lr=5e-5)
111
111
```
@@ -209,7 +209,8 @@ Auch hier werden deine Ergebnisse wegen der Zufälligkeit bei der Initialisierun
209
209
Die Trainingsschleife, die wir zuvor definiert haben, funktioniert gut auf einer einzelnen CPU oder GPU. Aber mit der Bibliothek [🤗 Accelerate](https://github.com/huggingface/accelerate) können wir mit wenigen Anpassungen verteiltes Training auf mehreren GPUs oder TPUs implementieren. Beginnend mit der Erstellung der Trainings- und Validierungsdaten, sieht unsere manuelle Trainingsschleife nun folgendermaßen aus:
210
210
211
211
```py
212
-
from transformers import AdamW, AutoModelForSequenceClassification, get_scheduler
212
+
from torch.optim import AdamW
213
+
from transformers import AutoModelForSequenceClassification, get_scheduler
213
214
214
215
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)
215
216
optimizer = AdamW(model.parameters(), lr=3e-5)
@@ -246,7 +247,8 @@ Und hier sind die Änderungen:
246
247
247
248
```diff
248
249
+ from accelerate import Accelerator
249
-
from transformers import AdamW, AutoModelForSequenceClassification, get_scheduler
250
+
from torch.optim import AdamW
251
+
from transformers import AutoModelForSequenceClassification, get_scheduler
250
252
251
253
+ accelerator = Accelerator()
252
254
@@ -298,7 +300,8 @@ Wenn du damit experimentieren möchtest, siehst du hier, wie die komplette Train
298
300
299
301
```py
300
302
from accelerate import Accelerator
301
-
from transformers import AdamW, AutoModelForSequenceClassification, get_scheduler
303
+
from torch.optim import AdamW
304
+
from transformers import AutoModelForSequenceClassification, get_scheduler
0 commit comments