반응형
Preliminaries
- PEFT (Parameter Efficient Fine-Tuning)
- 성능은 그대로 유지하고, 파라미터 수를 줄여서 training time이나 memory efficiency 측면에서 장점을 갖게 됨
- Adapter, Prompt Tuning, LoRA 등의 방법론 제기.
- Adapter
- (추후 추가예정)
Introduction
- 최근 175B의 Parameter를 가진 GPT-3 모델을 fine tuning하는 것이 expensive하다는 문제가 제기되면서, 이를 경량화하려는 노력에 대한 시도가 많이 진행되고 있다.
- Low-Rank Adaptation (LoRA) 기법은, 기존에 pre-trained model을 freeze시키고 rank decomposition matrix를 기반으로 학습시키는 방법론이다.
- 해당 방법론은 기존의 성능을 유지하면서도, 파라미터 연산량을 약 10,000배 줄일 수 있으며, GPU 메모리 소요도 3배 줄일 수 있다.
Reparametrization figure
- 이미 learned된 over-parametrized model은 low intrinsic dimension에 정착하게 된다.
- 즉, 굳이 모든 parameter를 학습할 필요는 없고, matrix A를 통해 차원을 줄이고, B를 통해 다시 reparametrization하는 절차를 가지면 계산 효율을 얻어갈 수 있다.
Fine Tuning Formula
- 기존의 Full fine-tuning과, LoRA 학습기법은 수식에서도 약간의 차이를 갖는다.
- Full fine-tuning
- LoRA fine-tuning
- maximum likelihood를 계산한다는 점에서는 큰 차이가 없지만, Full fine-tuning 에서는 Φ (full weights)를 연산하고, LoRA에서는 Θ (smaller sized set of parameters)를 연산한 후, 그에 대한 증가량을 계산한다 .
Experiments
1.
- RoBERT 베이스라인, GLUE 벤치마크를 기반으로 Accuacy를 측정한 Evaluation table이다.
- LoRA기법을 사용하더라도 Accuracy가 이전의 Adapter기법이나 Full fine-tuning 기법 못지않게 좋은 결과(심지어는 더 좋은 결과)를 보여준다.
2.
- GPT-2와 3를 Fine-Tuning을 진행한 경우에도, LoRA기법이 아주 적은 parameter를 연산하였음에도 괄목할 만한 성능을 보여줌을 확인할 수 있다.
반응형
'AI Paper Review > NLP' 카테고리의 다른 글
머신러닝과 딥러닝 비교 : 그 차이는 무엇일까 (0) | 2023.08.05 |
---|