Greedy, Top-K, Nucleus sampling에 대하여
·
AI Paper Review/NLP
NLP에서는 token generation을 진행할 때 model scaling만으로 성능을 올리는 데에는 한계가 있다.  그 다음 token을 에측할 때 가장 확률이 높은 token들만 출력한다면(=Greedy Decoding) , 종종 불필요하게 반복되는 문장들이 생길 수 있다.  예를 들어, Q: What did you do today? A: I had a hamburger for lunch. I had a hamburger for lunch. I had a hamburger for lunch. I had a hamburger for lunch.. ..인간처럼 다방면적으로 답변을 하는 것이 아니라, 앵무새처럼 반복적으로 답변을 해버릴 수도 있다는 것이다.  따라서, 이러한 기존의 sampling 방..
DPO vs. RLHF vs. Reinforcement Learning (RL) 비교분석
·
AI Paper Review/Reinforcement Learning
RL stepagent 가 정책을 학습하는 과정으로써, reward signal을 최대화하는 방식으로 “유도”해서 학습하는 방식임SFT와 엄연히 구분을 해야 한다!RLHF step첫 번째로, 높은 퀄리티의 human labeled data를 통해 기존의 pretrained model의 supervised fine tuning 진행이후 개별적인 reward model을 학습 (pairwise human preference data 이용)Policy Optimization: RL 알고리즘 사용을 통해, reward model을 통해 reward를 측정하고, policy를 지키면서 model은 human preference에 상응하는 reward를 최대화하는 결과를 위해 계속적으로 학습해 나간다.DPO ste..
Distributed Data Parallel
·
AI 개념 정리/Pytorch 공부
Distributed Data Parallel (DDP)Parallel의 종류model을 쪼개서 여러 개의 GPU로 뿌려주는 경우model이 너무 클 때 사용특정 layer는 part_1이 하고, 또 다른 특정 layer는 part_2가 하는 식임Model Parallel예시 코드class ModelParallel(nn.Module): def __init__(self, *args, **kwargs): super(ModelParallel, self).__init__() self.part_1 = nn.Sequential(...) self.part_2 = nn.Sequential(...) # put each part on a different device..
KV cache란?
·
AI 개념 정리
GPT는 이전 token 생성 시 발생된 중간값인 activation (KV cache)를 캐싱하여, 이전 token값을 재계산하기 위한 GPU의 FLOPs를 절감하는 대신, KV cache를 위한 추가적인 메모리 공간이 필요함또한 LLM의 context window size가 증가할수록 KV cache의 크기 또한 linear하게 증가하므로 context window size는 메모리 용량에 제한을 받음KV caching 은 multiple token generation step 시 decoder에서만 발생scaled dot-product attention 과정에서 우리는 결국 “새로운 token”만을 생성하기를 원하기 때문에, 이전 정보에 대해서는 caching을 진행한다. caching을 적용해서 ..
[ICLR 2024] Interpreting CLIP's Image Representation via Text-Based Decomposition 리뷰
·
AI Paper Review/MLLMs
CLIP-ViT Image encoder에서, text기반으로 decomposition을 하여 각 요소마다 영향력을 분석하는 논문임.Image representation을 Image Patches + Model layers + Attention Heads의 sum으로 decomposition한 후, CLIP의 text representation을 사용하여 각 부분이 image representation에 미치는 효과를 자세히 분석하였음.각 요소들을 상세히 분석하여, CLIP에서 그닥 필요하지 않은 부분(=feature)을 제거하여 robust한 zero-shot image segmenter를 만들어 냄.CLIP-ViT Architecture$M_{img}$는 img encoder$(I_i, t_i)$는 ..
[CVPR 2024] MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
·
AI Paper Review/MLLMs
Abstract비디오를 온라인 방식으로 처리하고 과거 비디오 정보를 Memory Bank에 저장하여 long term video 분석LLM의 context length limit 이나 GPU memory limitation을 초과하지 않으면서도 과거 비디오 내용을 reference가능ContributionsLong term memory bank과거 비디오 프레임을 저장하고 참조할 수 있는 memory bank 도입.GPU 메모리 사용을 줄이고 LLM의 컨텍스트 길이 제한 문제 해결. (이는 memory bank compression method로 해결)모델 아키텍처:visual encoder: 비디오 프레임에서 특징 추출.쿼리 트랜스포머(Q-Former): 비주얼 및 텍스트 임베딩 정렬.대형 언어 모델(..
[CVPR 2024] CLOVA: A Closed-LOop Visual Assistant with Tool Usage and Update 리뷰
·
AI Paper Review/MLLMs
Abstract기존의 training 기법들은, 활용되는 tool에 대해 freeze를 하여 학습을 진행했지만, 이는 continual learning을 간과하였다고 봄.이에 따라, Inference, Reflection, Learning phase 총 세 단계를 거쳐 새로운 지식을 습득하는 환경을 조성할 수 있는 closed-loop learning framework인 CLOVA를 고안해 냄3단계의 phaseInference phase : LLM이 할당된 task에 맞게 그에 맞는 tool들을 실행한다Reflection phase : Multimodal이 전체적으로 human feedback을 하면서, tool들을 update한다Learning phase : 자동적으로 training data를 모으고..
[ICLR 2022] LoRA: Low-Rank Adaptation of Large Languate Models 리뷰
·
AI Paper Review/NLP
PreliminariesPEFT (Parameter Efficient Fine-Tuning)성능은 그대로 유지하고, 파라미터 수를 줄여서 training time이나 memory efficiency 측면에서 장점을 갖게 됨Adapter, Prompt Tuning, LoRA 등의 방법론 제기.Adapter(추후 추가예정)Introduction최근 175B의 Parameter를 가진 GPT-3 모델을 fine tuning하는 것이 expensive하다는 문제가 제기되면서, 이를 경량화하려는 노력에 대한 시도가 많이 진행되고 있다.Low-Rank Adaptation (LoRA) 기법은, 기존에 pre-trained model을 freeze시키고 rank decomposition matrix를 기반으로 학습시키..
SlowFast-LLaVA: A Strong Training-Free Baseline For Video Large Language Models 리뷰
·
AI Paper Review/MLLMs
Paper Link : https://arxiv.org/pdf/2407.158412024-07-22 introducedAbstract학습 없이도 세부적인 공간 의미와 장기적인 시간적 문맥을 효과적으로 caputre 가능→ computation resource, model training time 줄일 수 있다!Slow와 Fast 두 개의 stream design을 사용하여 비디오 프레임의 feature을 aggregateSlow pathway는 낮은 프레임 속도로 공간 세부 사항을 유지하며 feature을 추출Fast pathway는 높은 프레임 속도로 움직임 단서를 capture기존 challenge :input video 넣을 때 frame 수 제한 (e.g., 6 for IG-VLM (Kim et ..
[CVPR 2024] RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback 리뷰
·
AI Paper Review/Reinforcement Learning
AbstractMultimodal Large Language Models(MLLMs)는 understanding, reasoning, interaction에 대해 인상적인 성능을 보여주고 있음하지만 현재의 MLLMs 는 관련된 이미지에 대한 Text를 제대로 생성해내지 못하는 hallucination 문제가 있음예시를 보면 GPT4-V와 LLaVA RLHF심지어 Quantitatively하게도 SoTA MLLM인 GPT-4V에도 hallucination이 약 45.9% 발생한다고 알려짐.이는 MLLM이 untrustworthy하고 impractical하다는 것을 의미함. Challenges현재의 MLLM에서, 일반적인 RLHF의 경우 ranking label의 형태로 human preference Y를 ..