|
| 1 | +1 |
| 2 | +00:00:00,189 --> 00:00:02,856 |
| 3 | + |
| 4 | + |
| 5 | +2 |
| 6 | +00:00:05,550 --> 00:00:07,293 |
| 7 | +Что такое трансфертное обучение? |
| 8 | + |
| 9 | +3 |
| 10 | +00:00:09,480 --> 00:00:10,920 |
| 11 | +Идея трансферного обучения |
| 12 | + |
| 13 | +4 |
| 14 | +00:00:10,920 --> 00:00:12,570 |
| 15 | +состоит в том, чтобы использовать знания, полученные |
| 16 | + |
| 17 | +5 |
| 18 | +00:00:12,570 --> 00:00:15,543 |
| 19 | +моделью, обученной на большом количестве данных для другой задачи. |
| 20 | + |
| 21 | +6 |
| 22 | +00:00:16,410 --> 00:00:20,130 |
| 23 | +Модель A будет обучена специально для задачи A. |
| 24 | + |
| 25 | +7 |
| 26 | +00:00:20,130 --> 00:00:22,200 |
| 27 | +Теперь предположим, что вы хотите обучить модель B |
| 28 | + |
| 29 | +8 |
| 30 | +00:00:22,200 --> 00:00:23,970 |
| 31 | +для другой задачи. |
| 32 | + |
| 33 | +9 |
| 34 | +00:00:23,970 --> 00:00:27,330 |
| 35 | +Одним из вариантов может быть обучение модели с нуля. |
| 36 | + |
| 37 | +10 |
| 38 | +00:00:27,330 --> 00:00:30,633 |
| 39 | +Это может потребовать большого количества вычислений, времени и данных. |
| 40 | + |
| 41 | +11 |
| 42 | +00:00:31,470 --> 00:00:34,260 |
| 43 | +Вместо этого мы можем инициализировать модель B |
| 44 | + |
| 45 | +12 |
| 46 | +00:00:34,260 --> 00:00:36,570 |
| 47 | +с теми же весами, что и модель A, |
| 48 | + |
| 49 | +13 |
| 50 | +00:00:36,570 --> 00:00:39,213 |
| 51 | +передавая знания модели A на задачу B. |
| 52 | + |
| 53 | +14 |
| 54 | +00:00:41,040 --> 00:00:42,690 |
| 55 | +При обучении с нуля, |
| 56 | + |
| 57 | +15 |
| 58 | +00:00:42,690 --> 00:00:45,870 |
| 59 | +все веса модели инициализируются случайным образом. |
| 60 | + |
| 61 | +16 |
| 62 | +00:00:45,870 --> 00:00:48,870 |
| 63 | +В этом примере мы обучаем модель BERT |
| 64 | + |
| 65 | +17 |
| 66 | +00:00:48,870 --> 00:00:50,220 |
| 67 | +на задаче распознавания того, |
| 68 | + |
| 69 | +18 |
| 70 | +00:00:50,220 --> 00:00:52,203 |
| 71 | +похожи или нет два предложения. |
| 72 | + |
| 73 | +19 |
| 74 | +00:00:54,116 --> 00:00:56,730 |
| 75 | +Слева - обучение с нуля, |
| 76 | + |
| 77 | +20 |
| 78 | +00:00:56,730 --> 00:01:00,000 |
| 79 | +а справа - дообучение предварительно обученной модели. |
| 80 | + |
| 81 | +21 |
| 82 | +00:01:00,000 --> 00:01:02,220 |
| 83 | +Как мы видим, использование трансфертного обучения |
| 84 | + |
| 85 | +22 |
| 86 | +00:01:02,220 --> 00:01:05,160 |
| 87 | +и предварительно обученной модели дает лучшие результаты. |
| 88 | + |
| 89 | +23 |
| 90 | +00:01:05,160 --> 00:01:07,140 |
| 91 | +И неважно, будем ли мы обучать дольше. |
| 92 | + |
| 93 | +24 |
| 94 | +00:01:07,140 --> 00:01:10,620 |
| 95 | +Точность обучения с нуля составляет около 70%, |
| 96 | + |
| 97 | +25 |
| 98 | +00:01:10,620 --> 00:01:13,293 |
| 99 | +в то время как предварительно обученная модель легко преодолевает отметку в 86%. |
| 100 | + |
| 101 | +26 |
| 102 | +00:01:14,460 --> 00:01:16,140 |
| 103 | +Это связано с тем, что предварительно обученные модели |
| 104 | + |
| 105 | +27 |
| 106 | +00:01:16,140 --> 00:01:18,420 |
| 107 | +обычно обучаются на больших объемах данных |
| 108 | + |
| 109 | +28 |
| 110 | +00:01:18,420 --> 00:01:21,000 |
| 111 | +которые обеспечивают модели статистическое понимание |
| 112 | + |
| 113 | +29 |
| 114 | +00:01:21,000 --> 00:01:23,413 |
| 115 | +языка, используемого во время предварительного обучения. |
| 116 | + |
| 117 | +30 |
| 118 | +00:01:24,450 --> 00:01:25,950 |
| 119 | +В компьютерном зрении |
| 120 | + |
| 121 | +31 |
| 122 | +00:01:25,950 --> 00:01:28,080 |
| 123 | +трансфертное обучение успешно применяется |
| 124 | + |
| 125 | +32 |
| 126 | +00:01:28,080 --> 00:01:30,060 |
| 127 | +уже почти десять лет. |
| 128 | + |
| 129 | +33 |
| 130 | +00:01:30,060 --> 00:01:32,850 |
| 131 | +Модели часто предварительно обучаются на наборе данных ImageNet, |
| 132 | + |
| 133 | +34 |
| 134 | +00:01:32,850 --> 00:01:36,153 |
| 135 | +содержащем 1,2 миллиона фотографий. |
| 136 | + |
| 137 | +35 |
| 138 | +00:01:37,170 --> 00:01:41,130 |
| 139 | +Каждое изображение классифицируется по одной из 1000 меток. |
| 140 | + |
| 141 | +36 |
| 142 | +00:01:41,130 --> 00:01:44,010 |
| 143 | +Подобное обучение на размеченных данных |
| 144 | + |
| 145 | +37 |
| 146 | +00:01:44,010 --> 00:01:45,663 |
| 147 | +называется обучением с учителем. |
| 148 | + |
| 149 | +38 |
| 150 | +00:01:47,340 --> 00:01:49,140 |
| 151 | +В обработке естественного языка (NLP), |
| 152 | + |
| 153 | +39 |
| 154 | +00:01:49,140 --> 00:01:51,870 |
| 155 | +трансфертное обучение появилось совсем недавно. |
| 156 | + |
| 157 | +40 |
| 158 | +00:01:51,870 --> 00:01:54,480 |
| 159 | +Ключевое отличие от ImageNet заключается в том, что предварительное обучение |
| 160 | + |
| 161 | +41 |
| 162 | +00:01:54,480 --> 00:01:56,460 |
| 163 | +обычно осуществляется самостоятельно, |
| 164 | + |
| 165 | +42 |
| 166 | +00:01:56,460 --> 00:01:58,770 |
| 167 | +что означает, что оно не требует аннотации от человека |
| 168 | + |
| 169 | +43 |
| 170 | +00:01:58,770 --> 00:01:59,673 |
| 171 | +для меток. |
| 172 | + |
| 173 | +44 |
| 174 | +00:02:00,780 --> 00:02:02,700 |
| 175 | +Очень распространенной целью предварительного обучения |
| 176 | + |
| 177 | +45 |
| 178 | +00:02:02,700 --> 00:02:05,310 |
| 179 | +является угадывание следующего слова в предложении. |
| 180 | + |
| 181 | +46 |
| 182 | +00:02:05,310 --> 00:02:07,710 |
| 183 | +Для этого нужно только много-много текста. |
| 184 | + |
| 185 | +47 |
| 186 | +00:02:07,710 --> 00:02:10,710 |
| 187 | +Например, GPT-2 была предварительно обучена таким образом |
| 188 | + |
| 189 | +48 |
| 190 | +00:02:10,710 --> 00:02:12,900 |
| 191 | +используя содержание 45 миллионов ссылок |
| 192 | + |
| 193 | +49 |
| 194 | +00:02:12,900 --> 00:02:14,673 |
| 195 | +размещенных пользователями в Reddit. |
| 196 | + |
| 197 | +50 |
| 198 | +00:02:16,560 --> 00:02:19,590 |
| 199 | +Другим примером задачи предварительного cамообучения под наблюдением |
| 200 | + |
| 201 | +51 |
| 202 | +00:02:19,590 --> 00:02:22,470 |
| 203 | +является предсказание значения случайно замаскированных слов. |
| 204 | + |
| 205 | +52 |
| 206 | +00:02:22,470 --> 00:02:24,540 |
| 207 | +Это похоже на тесты "заполни пустое место", |
| 208 | + |
| 209 | +53 |
| 210 | +00:02:24,540 --> 00:02:26,760 |
| 211 | +которые вы, возможно, выполняли в школе. |
| 212 | + |
| 213 | +54 |
| 214 | +00:02:26,760 --> 00:02:29,880 |
| 215 | +BERT был предварительно обучен таким образом, используя английскую Википедию |
| 216 | + |
| 217 | +55 |
| 218 | +00:02:29,880 --> 00:02:31,893 |
| 219 | +и 11 000 неопубликованных книг. |
| 220 | + |
| 221 | +56 |
| 222 | +00:02:33,120 --> 00:02:36,450 |
| 223 | +На практике трансферное обучение применяется к заданной модели |
| 224 | + |
| 225 | +57 |
| 226 | +00:02:36,450 --> 00:02:39,090 |
| 227 | +путем отбрасывания ее головы, |
| 228 | + |
| 229 | +58 |
| 230 | +00:02:39,090 --> 00:02:42,150 |
| 231 | +то есть последних слоев, сфокусированных на цели предварительного обучения, |
| 232 | + |
| 233 | +59 |
| 234 | +00:02:42,150 --> 00:02:45,360 |
| 235 | +и замены ее новой, случайно инициализированной головой, |
| 236 | + |
| 237 | +60 |
| 238 | +00:02:45,360 --> 00:02:46,860 |
| 239 | +подходящей для поставленной задачи. |
| 240 | + |
| 241 | +61 |
| 242 | +00:02:47,970 --> 00:02:51,570 |
| 243 | +Например, когда мы ранее проводили дообучение модели BERT, |
| 244 | + |
| 245 | +62 |
| 246 | +00:02:51,570 --> 00:02:54,060 |
| 247 | +мы удалили голову, которая классифицировала слова-маски, |
| 248 | + |
| 249 | +63 |
| 250 | +00:02:54,060 --> 00:02:56,790 |
| 251 | +и заменили ее классификатором с двумя выходами. |
| 252 | + |
| 253 | +64 |
| 254 | +00:02:56,790 --> 00:02:58,563 |
| 255 | +Поскольку наша задача имеет две метки. |
| 256 | + |
| 257 | +65 |
| 258 | +00:02:59,700 --> 00:03:02,490 |
| 259 | +Чтобы быть максимально эффективной, используемая предварительно обученная модель |
| 260 | + |
| 261 | +66 |
| 262 | +00:03:02,490 --> 00:03:03,770 |
| 263 | +должна быть максимально похожа |
| 264 | + |
| 265 | +67 |
| 266 | +00:03:03,770 --> 00:03:06,270 |
| 267 | +на задачу, для которой она дообучается. |
| 268 | + |
| 269 | +68 |
| 270 | +00:03:06,270 --> 00:03:08,190 |
| 271 | +Например, если проблема |
| 272 | + |
| 273 | +69 |
| 274 | +00:03:08,190 --> 00:03:10,860 |
| 275 | +состоит в классификации немецких предложений, |
| 276 | + |
| 277 | +70 |
| 278 | +00:03:10,860 --> 00:03:13,053 |
| 279 | +лучше всего использовать предварительно обученную немецкую модель. |
| 280 | + |
| 281 | +71 |
| 282 | +00:03:14,370 --> 00:03:16,649 |
| 283 | +Но вместе с хорошим приходит и плохое. |
| 284 | + |
| 285 | +72 |
| 286 | +00:03:16,649 --> 00:03:19,380 |
| 287 | +Предварительно обученная модель передает не только свои знания, |
| 288 | + |
| 289 | +73 |
| 290 | +00:03:19,380 --> 00:03:21,693 |
| 291 | +но и любую предвзятость, которую она может содержать. |
| 292 | + |
| 293 | +74 |
| 294 | +00:03:22,530 --> 00:03:24,300 |
| 295 | +ImageNet в основном содержит изображения |
| 296 | + |
| 297 | +75 |
| 298 | +00:03:24,300 --> 00:03:26,850 |
| 299 | +из Соединенных Штатов и Западной Европы. |
| 300 | + |
| 301 | +76 |
| 302 | +00:03:26,850 --> 00:03:28,020 |
| 303 | +Поэтому модели, дообученные с его помощью |
| 304 | + |
| 305 | +77 |
| 306 | +00:03:28,020 --> 00:03:31,710 |
| 307 | +обычно лучше работают с изображениями из этих стран. |
| 308 | + |
| 309 | +78 |
| 310 | +00:03:31,710 --> 00:03:33,690 |
| 311 | +OpenAI также изучил смещение |
| 312 | + |
| 313 | +79 |
| 314 | +00:03:33,690 --> 00:03:36,120 |
| 315 | +в прогнозах своей модели GPT-3 |
| 316 | + |
| 317 | +80 |
| 318 | +00:03:36,120 --> 00:03:36,953 |
| 319 | +которая была предварительно обучена |
| 320 | + |
| 321 | +81 |
| 322 | +00:03:36,953 --> 00:03:38,750 |
| 323 | +с использованием задачи "Угадай следующее слово". |
| 324 | + |
| 325 | +82 |
| 326 | +00:03:39,720 --> 00:03:41,040 |
| 327 | +Изменение пола в строке подсказке |
| 328 | + |
| 329 | +83 |
| 330 | +00:03:41,040 --> 00:03:44,250 |
| 331 | +с "He was very" на "She was very" |
| 332 | + |
| 333 | +84 |
| 334 | +00:03:44,250 --> 00:03:47,550 |
| 335 | +изменило предсказания с преимущественно нейтральных прилагательных |
| 336 | + |
| 337 | +85 |
| 338 | +00:03:47,550 --> 00:03:49,233 |
| 339 | +на почти только физические. |
| 340 | + |
| 341 | +86 |
| 342 | +00:03:50,400 --> 00:03:52,367 |
| 343 | +В карточке модели GPT-2 |
| 344 | + |
| 345 | +87 |
| 346 | +00:03:52,367 --> 00:03:54,990 |
| 347 | +OpenAI также признает ее необъективность |
| 348 | + |
| 349 | +88 |
| 350 | +00:03:54,990 --> 00:03:56,730 |
| 351 | +и не рекомендует использовать ее |
| 352 | + |
| 353 | +89 |
| 354 | +00:03:56,730 --> 00:03:58,803 |
| 355 | +в системах, взаимодействующих с людьми. |
| 356 | + |
| 357 | +90 |
| 358 | +00:04:01,040 --> 00:04:03,707 |
| 359 | + |
| 360 | + |
0 commit comments