Skip to content

Commit 92671bc

Browse files
authored
[RU] Subtitles for Chapter 1 of the video course (#489)
* Created a directory for the russian subtitles. Created a folder for Russian subtitles for the video course and published a translation of the introductory video from chapter 1. * Uploaded subtitles for chapter 1 Uploaded subtitles for the remaining videos for chapter 1 of the video course. * Added subtitles for chapter 2 of the video course Added STR subtitle files for the second chapter of the YouTube video course. * Delete subtitles/ru directory Removed the old translation. Incorrect timestamping. * Create 00_welcome-to-the-hugging-face-course.srt Create a directory and upload a subtitle file for the introductory video of the course. * Add files via upload Upload subtitle files for the first chapter of the course.
1 parent 1d92a90 commit 92671bc

8 files changed

+2958
-0
lines changed

subtitles/ru/00_welcome-to-the-hugging-face-course.srt

Lines changed: 411 additions & 0 deletions
Large diffs are not rendered by default.

subtitles/ru/01_the-pipeline-function.srt

Lines changed: 400 additions & 0 deletions
Large diffs are not rendered by default.

subtitles/ru/02_the-carbon-footprint-of-transformers.srt

Lines changed: 516 additions & 0 deletions
Large diffs are not rendered by default.
Lines changed: 360 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,360 @@
1+
1
2+
00:00:00,189 --> 00:00:02,856
3+
4+
5+
2
6+
00:00:05,550 --> 00:00:07,293
7+
Что такое трансфертное обучение?
8+
9+
3
10+
00:00:09,480 --> 00:00:10,920
11+
Идея трансферного обучения
12+
13+
4
14+
00:00:10,920 --> 00:00:12,570
15+
состоит в том, чтобы использовать знания, полученные
16+
17+
5
18+
00:00:12,570 --> 00:00:15,543
19+
моделью, обученной на большом количестве данных для другой задачи.
20+
21+
6
22+
00:00:16,410 --> 00:00:20,130
23+
Модель A будет обучена специально для задачи A.
24+
25+
7
26+
00:00:20,130 --> 00:00:22,200
27+
Теперь предположим, что вы хотите обучить модель B
28+
29+
8
30+
00:00:22,200 --> 00:00:23,970
31+
для другой задачи.
32+
33+
9
34+
00:00:23,970 --> 00:00:27,330
35+
Одним из вариантов может быть обучение модели с нуля.
36+
37+
10
38+
00:00:27,330 --> 00:00:30,633
39+
Это может потребовать большого количества вычислений, времени и данных.
40+
41+
11
42+
00:00:31,470 --> 00:00:34,260
43+
Вместо этого мы можем инициализировать модель B
44+
45+
12
46+
00:00:34,260 --> 00:00:36,570
47+
с теми же весами, что и модель A,
48+
49+
13
50+
00:00:36,570 --> 00:00:39,213
51+
передавая знания модели A на задачу B.
52+
53+
14
54+
00:00:41,040 --> 00:00:42,690
55+
При обучении с нуля,
56+
57+
15
58+
00:00:42,690 --> 00:00:45,870
59+
все веса модели инициализируются случайным образом.
60+
61+
16
62+
00:00:45,870 --> 00:00:48,870
63+
В этом примере мы обучаем модель BERT
64+
65+
17
66+
00:00:48,870 --> 00:00:50,220
67+
на задаче распознавания того,
68+
69+
18
70+
00:00:50,220 --> 00:00:52,203
71+
похожи или нет два предложения.
72+
73+
19
74+
00:00:54,116 --> 00:00:56,730
75+
Слева - обучение с нуля,
76+
77+
20
78+
00:00:56,730 --> 00:01:00,000
79+
а справа - дообучение предварительно обученной модели.
80+
81+
21
82+
00:01:00,000 --> 00:01:02,220
83+
Как мы видим, использование трансфертного обучения
84+
85+
22
86+
00:01:02,220 --> 00:01:05,160
87+
и предварительно обученной модели дает лучшие результаты.
88+
89+
23
90+
00:01:05,160 --> 00:01:07,140
91+
И неважно, будем ли мы обучать дольше.
92+
93+
24
94+
00:01:07,140 --> 00:01:10,620
95+
Точность обучения с нуля составляет около 70%,
96+
97+
25
98+
00:01:10,620 --> 00:01:13,293
99+
в то время как предварительно обученная модель легко преодолевает отметку в 86%.
100+
101+
26
102+
00:01:14,460 --> 00:01:16,140
103+
Это связано с тем, что предварительно обученные модели
104+
105+
27
106+
00:01:16,140 --> 00:01:18,420
107+
обычно обучаются на больших объемах данных
108+
109+
28
110+
00:01:18,420 --> 00:01:21,000
111+
которые обеспечивают модели статистическое понимание
112+
113+
29
114+
00:01:21,000 --> 00:01:23,413
115+
языка, используемого во время предварительного обучения.
116+
117+
30
118+
00:01:24,450 --> 00:01:25,950
119+
В компьютерном зрении
120+
121+
31
122+
00:01:25,950 --> 00:01:28,080
123+
трансфертное обучение успешно применяется
124+
125+
32
126+
00:01:28,080 --> 00:01:30,060
127+
уже почти десять лет.
128+
129+
33
130+
00:01:30,060 --> 00:01:32,850
131+
Модели часто предварительно обучаются на наборе данных ImageNet,
132+
133+
34
134+
00:01:32,850 --> 00:01:36,153
135+
содержащем 1,2 миллиона фотографий.
136+
137+
35
138+
00:01:37,170 --> 00:01:41,130
139+
Каждое изображение классифицируется по одной из 1000 меток.
140+
141+
36
142+
00:01:41,130 --> 00:01:44,010
143+
Подобное обучение на размеченных данных
144+
145+
37
146+
00:01:44,010 --> 00:01:45,663
147+
называется обучением с учителем.
148+
149+
38
150+
00:01:47,340 --> 00:01:49,140
151+
В обработке естественного языка (NLP),
152+
153+
39
154+
00:01:49,140 --> 00:01:51,870
155+
трансфертное обучение появилось совсем недавно.
156+
157+
40
158+
00:01:51,870 --> 00:01:54,480
159+
Ключевое отличие от ImageNet заключается в том, что предварительное обучение
160+
161+
41
162+
00:01:54,480 --> 00:01:56,460
163+
обычно осуществляется самостоятельно,
164+
165+
42
166+
00:01:56,460 --> 00:01:58,770
167+
что означает, что оно не требует аннотации от человека
168+
169+
43
170+
00:01:58,770 --> 00:01:59,673
171+
для меток.
172+
173+
44
174+
00:02:00,780 --> 00:02:02,700
175+
Очень распространенной целью предварительного обучения
176+
177+
45
178+
00:02:02,700 --> 00:02:05,310
179+
является угадывание следующего слова в предложении.
180+
181+
46
182+
00:02:05,310 --> 00:02:07,710
183+
Для этого нужно только много-много текста.
184+
185+
47
186+
00:02:07,710 --> 00:02:10,710
187+
Например, GPT-2 была предварительно обучена таким образом
188+
189+
48
190+
00:02:10,710 --> 00:02:12,900
191+
используя содержание 45 миллионов ссылок
192+
193+
49
194+
00:02:12,900 --> 00:02:14,673
195+
размещенных пользователями в Reddit.
196+
197+
50
198+
00:02:16,560 --> 00:02:19,590
199+
Другим примером задачи предварительного cамообучения под наблюдением
200+
201+
51
202+
00:02:19,590 --> 00:02:22,470
203+
является предсказание значения случайно замаскированных слов.
204+
205+
52
206+
00:02:22,470 --> 00:02:24,540
207+
Это похоже на тесты "заполни пустое место",
208+
209+
53
210+
00:02:24,540 --> 00:02:26,760
211+
которые вы, возможно, выполняли в школе.
212+
213+
54
214+
00:02:26,760 --> 00:02:29,880
215+
BERT был предварительно обучен таким образом, используя английскую Википедию
216+
217+
55
218+
00:02:29,880 --> 00:02:31,893
219+
и 11 000 неопубликованных книг.
220+
221+
56
222+
00:02:33,120 --> 00:02:36,450
223+
На практике трансферное обучение применяется к заданной модели
224+
225+
57
226+
00:02:36,450 --> 00:02:39,090
227+
путем отбрасывания ее головы,
228+
229+
58
230+
00:02:39,090 --> 00:02:42,150
231+
то есть последних слоев, сфокусированных на цели предварительного обучения,
232+
233+
59
234+
00:02:42,150 --> 00:02:45,360
235+
и замены ее новой, случайно инициализированной головой,
236+
237+
60
238+
00:02:45,360 --> 00:02:46,860
239+
подходящей для поставленной задачи.
240+
241+
61
242+
00:02:47,970 --> 00:02:51,570
243+
Например, когда мы ранее проводили дообучение модели BERT,
244+
245+
62
246+
00:02:51,570 --> 00:02:54,060
247+
мы удалили голову, которая классифицировала слова-маски,
248+
249+
63
250+
00:02:54,060 --> 00:02:56,790
251+
и заменили ее классификатором с двумя выходами.
252+
253+
64
254+
00:02:56,790 --> 00:02:58,563
255+
Поскольку наша задача имеет две метки.
256+
257+
65
258+
00:02:59,700 --> 00:03:02,490
259+
Чтобы быть максимально эффективной, используемая предварительно обученная модель
260+
261+
66
262+
00:03:02,490 --> 00:03:03,770
263+
должна быть максимально похожа
264+
265+
67
266+
00:03:03,770 --> 00:03:06,270
267+
на задачу, для которой она дообучается.
268+
269+
68
270+
00:03:06,270 --> 00:03:08,190
271+
Например, если проблема
272+
273+
69
274+
00:03:08,190 --> 00:03:10,860
275+
состоит в классификации немецких предложений,
276+
277+
70
278+
00:03:10,860 --> 00:03:13,053
279+
лучше всего использовать предварительно обученную немецкую модель.
280+
281+
71
282+
00:03:14,370 --> 00:03:16,649
283+
Но вместе с хорошим приходит и плохое.
284+
285+
72
286+
00:03:16,649 --> 00:03:19,380
287+
Предварительно обученная модель передает не только свои знания,
288+
289+
73
290+
00:03:19,380 --> 00:03:21,693
291+
но и любую предвзятость, которую она может содержать.
292+
293+
74
294+
00:03:22,530 --> 00:03:24,300
295+
ImageNet в основном содержит изображения
296+
297+
75
298+
00:03:24,300 --> 00:03:26,850
299+
из Соединенных Штатов и Западной Европы.
300+
301+
76
302+
00:03:26,850 --> 00:03:28,020
303+
Поэтому модели, дообученные с его помощью
304+
305+
77
306+
00:03:28,020 --> 00:03:31,710
307+
обычно лучше работают с изображениями из этих стран.
308+
309+
78
310+
00:03:31,710 --> 00:03:33,690
311+
OpenAI также изучил смещение
312+
313+
79
314+
00:03:33,690 --> 00:03:36,120
315+
в прогнозах своей модели GPT-3
316+
317+
80
318+
00:03:36,120 --> 00:03:36,953
319+
которая была предварительно обучена
320+
321+
81
322+
00:03:36,953 --> 00:03:38,750
323+
с использованием задачи "Угадай следующее слово".
324+
325+
82
326+
00:03:39,720 --> 00:03:41,040
327+
Изменение пола в строке подсказке
328+
329+
83
330+
00:03:41,040 --> 00:03:44,250
331+
с "He was very" на "She was very"
332+
333+
84
334+
00:03:44,250 --> 00:03:47,550
335+
изменило предсказания с преимущественно нейтральных прилагательных
336+
337+
85
338+
00:03:47,550 --> 00:03:49,233
339+
на почти только физические.
340+
341+
86
342+
00:03:50,400 --> 00:03:52,367
343+
В карточке модели GPT-2
344+
345+
87
346+
00:03:52,367 --> 00:03:54,990
347+
OpenAI также признает ее необъективность
348+
349+
88
350+
00:03:54,990 --> 00:03:56,730
351+
и не рекомендует использовать ее
352+
353+
89
354+
00:03:56,730 --> 00:03:58,803
355+
в системах, взаимодействующих с людьми.
356+
357+
90
358+
00:04:01,040 --> 00:04:03,707
359+
360+

0 commit comments

Comments
 (0)