-
Notifications
You must be signed in to change notification settings - Fork 0
Description
Chen, Xiaohan, Yu Cheng, Shuohang Wang, Zhe Gan, Zhangyang Wang, and Jingjing Liu. 2021. “EarlyBERT: Efficient BERT Training via Early-Bird Lottery Tickets.” In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 2195–2207. Online: Association for Computational Linguistics. https://aclanthology.org/2021.acl-long.171/
- Early Bird Lottery Tickets法にインスパイアされたBERTの派生形、その名も EarlyBERT.
- 「宝くじ仮説」に則った手法を実装:初期の段階で構造化された「当たり」を見つけ、はずれのネットワークを刈り込んでしまい、その上でトレーニングを行う
- 元となったBERTと同程度の性能で35〜45%の訓練時間の短縮に成功
- Pre-trainingだけでなくFine-tuningにも使える
Abstract
Heavily overparameterized language models such as BERT, XLNet and T5 have achieved impressive success in many NLP tasks. However, their high model complexity requires enormous computation resources and extremely long training time for both pre-training and fine-tuning. Many works have studied model compression on large NLP models, but only focusing on reducing inference time while still requiring an expensive training process. Other works use extremely large batch sizes to shorten the pre-training time, at the expense of higher computational resource demands. In this paper, inspired by the Early-Bird Lottery Tickets recently studied for computer vision tasks, we propose EarlyBERT, a general computationally-efficient training algorithm applicable to both pre-training and fine-tuning of large-scale language models. By slimming the self-attention and fully-connected sub-layers inside a transformer, we are the first to identify structured winning tickets in the early stage of BERT training. We apply those tickets towards efficient BERT training, and conduct comprehensive pre-training and fine-tuning experiments on GLUE and SQuAD downstream tasks. Our results show that EarlyBERT achieves comparable performance to standard BERT, with 35 45% less training time. Code is available at https://github.com/VITA-Group/EarlyBERT.
(DeepL翻訳)
BERT、XLNet、T5などのオーバーパラメータ化された言語モデルは、多くの自然言語処理タスクにおいて素晴らしい成果を上げています。しかし、これらのモデルは複雑であるため、膨大な計算資源を必要とし、事前学習と微調整の両方に非常に長い学習時間がかかる。多くの研究者が大規模自然言語処理モデルのモデル圧縮を研究していますが、高価な学習プロセスを必要とする一方で、推論時間の短縮にのみ焦点が当てられています。他の研究では、事前学習時間を短縮するために非常に大きなバッチサイズを使用していますが、その代償として高い計算機資源が要求されます。本論文では、最近コンピュータビジョンタスクのために研究されたEarlyBird Lottery Ticketsに触発されて、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率の良い学習アルゴリズムであるEarlyBERTを提案する。自己アテンションと完全に接続されたサブレイヤーをトランスフォーマー内部でスリム化することにより、我々はBERTトレーニングの初期段階で構造化された当たり券を識別することに初めて成功した。これらのチケットを効率的なBERT訓練に適用し、GLUEとSQuADの下流タスクで包括的な事前訓練と微調整の実験を実施する。その結果、EarlyBERTは標準的なBERTと同等の性能を達成し、35〜45%少ない訓練時間で済むことがわかった。コードは、https://github.com/VITA-Group/EarlyBERT で入手可能です。
コード
https://github.com/VITA-Group/EarlyBERT
解決した課題/先行研究との比較
- BERTやT5など、大規模な言語モデルが自然言語処理の分野を圧巻している。
- そうした方向での発展に伴い大きな課題となってきたのが計算量。
- モデルの「圧縮 (compression)」が一つの解決策として着目されてきたが、抜本的な解決には至っておらず。
- 圧縮のために量子化 (quantization)、蒸留 (distillation)、layer drop (dynamic routing)、プルーニングといったアプローチが取られてきた。
- しかし、多くは推論時間の短縮のみにとどまっており、訓練時間の短縮にフォーカスしていない。
- 本論文は「宝くじ仮説」(Frankle and Carbin, 2019) とその派生形 (Early Bird Lottery Tickets: You et al., 2020) から着想を得た手法でモデルを圧縮し、大規模言語モデルの訓練時間の削減を達成。
宝くじ仮説
- Frankle and Carbin, 2019 にて、「ニューラルネットワークの内部には『初期化くじに当選した』サブネットワークが存在し、そのサブネットワークのみの学習でもフルモデルと同等の性能が達成できる」という仮説が提案、検証された。
- You et al., 2020 では、学習プロセスの初期段階で出現する (Early Birdな)「当たりくじ」の特定が進められ、このサブネットワークのみのトレーニングのみに集中することで深層学習モデルの学習が効率化された。
- 言語モデルに対しての適用も先行研究がある。
- Chen et al., 2020ではBERTにて上記のような「当たりくじ」サブネットワークが存在することを示していた。
- Prasannaet al., 2020ではネットワークの刈り込みによるBERTのための当たり券特定法を提案。
- しかし、これらの仕事は事前学習済みBERTを対象に行われたものであり、事前学習段階における宝くじ仮説を調査した研究はなかった。
- 本論文はBERTの Pre-training と Fine-tuningの いずれにおいても、宝くじ仮説を適用すれば効率的に学習できることを示した。
技術・手法のポイント
- 具体的には、学習を3ステージに分割。
- Searching Stage: BERTとスパース性誘導係数 (sparsity-inducing coefficients) を合わせて学習し、「当たりくじ」に相当するニューロンを見つける。
- 当たりくじの探索は Network Slimming (Liu et al., 2017) を言語モデルに適用できる形式に改変したものを使用。
- Ticket-drawing Stage: 「当たりニューロン」をマークしネットワークを刈り込んだ、EarlyBERTを構築。
- ネットワークの刈り込みにはGlobalな刈り込みとLayer-wiseな刈り込みの2つのアプローチがあるが、本論文ではLayer-wiseな刈り込みを使用。
- Ramsauer et al., 2020と、筆者らの経験に則り選択。しかし微々たる差 (Table 3)。
- ネットワークの刈り込みにはGlobalな刈り込みとLayer-wiseな刈り込みの2つのアプローチがあるが、本論文ではLayer-wiseな刈り込みを使用。
- Efficient-training Stage: EarlyBERTの学習。
- このステージでも通常のBERTより学習回数を減らせることが経験的に知られている (Frankle and Carbin, 2019; You et al., 2020)。
- Searching Stage: BERTとスパース性誘導係数 (sparsity-inducing coefficients) を合わせて学習し、「当たりくじ」に相当するニューロンを見つける。
- Pre-trainingにもFine-tuningにも適用でき、共に効果が出ることを定量的に示した。
評価指標
- GLUEとSQuADベンチマークで評価
- EarlyBERTはベースとなったBERTと同程度の性能で35〜45%の訓練時間の短縮に成功
重要な引用
- BERT
- Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1810.04805.
- 宝くじ仮説の提案
- Frankle, Jonathan, and Michael Carbin. 2019. “The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks.” International Conference on Learning Representations, 2019. https://openreview.net/forum?id=rJl-b3RcF7
- 宝くじ仮説のComputer Vision分野での応用
- You, Haoran, Chaojian Li, Pengfei Xu, Yonggan Fu, Yue Wang, Xiaohan Chen, Richard G. Baraniuk, Zhangyang Wang, and Yingyan Lin. 2020. “Drawing Early-Bird Tickets: Toward More Efficient Training of Deep Networks.” International Conference on Learning Representations, 2019, May. https://par.nsf.gov/servlets/purl/10167873.
- Network Slimming
- Liu, Zhuang, Jianguo Li, Zhiqiang Shen, Gao Huang, Shoumeng Yan, and Changshui Zhang. 2017. “Learning Efficient Convolutional Networks through Network Slimming.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1708.06519.