AI Paper Review/NLP

[ICLR 2022] LoRA: Low-Rank Adaptation of Large Languate Models 리뷰

jiminai 2024. 8. 12. 22:46
반응형

Preliminaries

  • PEFT (Parameter Efficient Fine-Tuning)
    • 성능은 그대로 유지하고, 파라미터 수를 줄여서 training time이나 memory efficiency 측면에서 장점을 갖게 됨
    • Adapter, Prompt Tuning, LoRA 등의 방법론 제기.
  • Adapter
    • (추후 추가예정)

Introduction

  • 최근 175B의 Parameter를 가진 GPT-3 모델을 fine tuning하는 것이 expensive하다는 문제가 제기되면서, 이를 경량화하려는 노력에 대한 시도가 많이 진행되고 있다.
  • Low-Rank Adaptation (LoRA) 기법은, 기존에 pre-trained model을 freeze시키고 rank decomposition matrix를 기반으로 학습시키는 방법론이다.
  • 해당 방법론은 기존의 성능을 유지하면서도, 파라미터 연산량을 약 10,000배 줄일 수 있으며, GPU 메모리 소요도 3배 줄일 수 있다.

Reparametrization figure

 

  • 이미 learned된 over-parametrized model은 low intrinsic dimension에 정착하게 된다.
  • 즉, 굳이 모든 parameter를 학습할 필요는 없고, matrix A를 통해 차원을 줄이고, B를 통해 다시 reparametrization하는 절차를 가지면 계산 효율을 얻어갈 수 있다.

Fine Tuning Formula

  • 기존의 Full fine-tuning과, LoRA 학습기법은 수식에서도 약간의 차이를 갖는다. 
  • Full fine-tuning

  • LoRA fine-tuning

 

  • maximum likelihood를 계산한다는 점에서는 큰 차이가 없지만, Full fine-tuning 에서는 Φ (full weights)를 연산하고, LoRA에서는 Θ (smaller sized set of parameters)를 연산한 후, 그에 대한 증가량을 계산한다 .

Experiments

1. 

  • RoBERT 베이스라인, GLUE 벤치마크를 기반으로 Accuacy를 측정한 Evaluation table이다.
  • LoRA기법을 사용하더라도 Accuracy가 이전의 Adapter기법이나 Full fine-tuning 기법 못지않게 좋은 결과(심지어는 더 좋은 결과)를 보여준다.

2.

  • GPT-2와 3를 Fine-Tuning을 진행한 경우에도, LoRA기법이 아주 적은 parameter를 연산하였음에도 괄목할 만한 성능을 보여줌을 확인할 수 있다.
반응형