'AI Paper Review' 카테고리의 글 목록

NLP에서는 token generation을 진행할 때 model scaling만으로 성능을 올리는 데에는 한계가 있다. 그 다음 token을 에측할 때 가장 확률이 높은 token들만 출력한다면(=Greedy Decoding) , 종종 불필요하게 반복되는 문장들이 생길 수 있다. 예를 들어, Q: What did you do today? A: I had a hamburger for lunch. I had a hamburger for lunch. I had a hamburger for lunch. I had a hamburger for lunch.. ..인간처럼 다방면적으로 답변을 하는 것이 아니라, 앵무새처럼 반복적으로 답변을 해버릴 수도 있다는 것이다. 따라서, 이러한 기존의 sampling 방..

RL stepagent 가 정책을 학습하는 과정으로써, reward signal을 최대화하는 방식으로 “유도”해서 학습하는 방식임SFT와 엄연히 구분을 해야 한다!RLHF step첫 번째로, 높은 퀄리티의 human labeled data를 통해 기존의 pretrained model의 supervised fine tuning 진행이후 개별적인 reward model을 학습 (pairwise human preference data 이용)Policy Optimization: RL 알고리즘 사용을 통해, reward model을 통해 reward를 측정하고, policy를 지키면서 model은 human preference에 상응하는 reward를 최대화하는 결과를 위해 계속적으로 학습해 나간다.DPO ste..

CLIP-ViT Image encoder에서, text기반으로 decomposition을 하여 각 요소마다 영향력을 분석하는 논문임.Image representation을 Image Patches + Model layers + Attention Heads의 sum으로 decomposition한 후, CLIP의 text representation을 사용하여 각 부분이 image representation에 미치는 효과를 자세히 분석하였음.각 요소들을 상세히 분석하여, CLIP에서 그닥 필요하지 않은 부분(=feature)을 제거하여 robust한 zero-shot image segmenter를 만들어 냄.CLIP-ViT Architecture$M_{img}$는 img encoder$(I_i, t_i)$는 ..

Abstract비디오를 온라인 방식으로 처리하고 과거 비디오 정보를 Memory Bank에 저장하여 long term video 분석LLM의 context length limit 이나 GPU memory limitation을 초과하지 않으면서도 과거 비디오 내용을 reference가능ContributionsLong term memory bank과거 비디오 프레임을 저장하고 참조할 수 있는 memory bank 도입.GPU 메모리 사용을 줄이고 LLM의 컨텍스트 길이 제한 문제 해결. (이는 memory bank compression method로 해결)모델 아키텍처:visual encoder: 비디오 프레임에서 특징 추출.쿼리 트랜스포머(Q-Former): 비주얼 및 텍스트 임베딩 정렬.대형 언어 모델(..

Abstract기존의 training 기법들은, 활용되는 tool에 대해 freeze를 하여 학습을 진행했지만, 이는 continual learning을 간과하였다고 봄.이에 따라, Inference, Reflection, Learning phase 총 세 단계를 거쳐 새로운 지식을 습득하는 환경을 조성할 수 있는 closed-loop learning framework인 CLOVA를 고안해 냄3단계의 phaseInference phase : LLM이 할당된 task에 맞게 그에 맞는 tool들을 실행한다Reflection phase : Multimodal이 전체적으로 human feedback을 하면서, tool들을 update한다Learning phase : 자동적으로 training data를 모으고..

PreliminariesPEFT (Parameter Efficient Fine-Tuning)성능은 그대로 유지하고, 파라미터 수를 줄여서 training time이나 memory efficiency 측면에서 장점을 갖게 됨Adapter, Prompt Tuning, LoRA 등의 방법론 제기.Adapter(추후 추가예정)Introduction최근 175B의 Parameter를 가진 GPT-3 모델을 fine tuning하는 것이 expensive하다는 문제가 제기되면서, 이를 경량화하려는 노력에 대한 시도가 많이 진행되고 있다.Low-Rank Adaptation (LoRA) 기법은, 기존에 pre-trained model을 freeze시키고 rank decomposition matrix를 기반으로 학습시키..

Paper Link : https://arxiv.org/pdf/2407.158412024-07-22 introducedAbstract학습 없이도 세부적인 공간 의미와 장기적인 시간적 문맥을 효과적으로 caputre 가능→ computation resource, model training time 줄일 수 있다!Slow와 Fast 두 개의 stream design을 사용하여 비디오 프레임의 feature을 aggregateSlow pathway는 낮은 프레임 속도로 공간 세부 사항을 유지하며 feature을 추출Fast pathway는 높은 프레임 속도로 움직임 단서를 capture기존 challenge :input video 넣을 때 frame 수 제한 (e.g., 6 for IG-VLM (Kim et ..

AbstractMultimodal Large Language Models(MLLMs)는 understanding, reasoning, interaction에 대해 인상적인 성능을 보여주고 있음하지만 현재의 MLLMs 는 관련된 이미지에 대한 Text를 제대로 생성해내지 못하는 hallucination 문제가 있음예시를 보면 GPT4-V와 LLaVA RLHF심지어 Quantitatively하게도 SoTA MLLM인 GPT-4V에도 hallucination이 약 45.9% 발생한다고 알려짐.이는 MLLM이 untrustworthy하고 impractical하다는 것을 의미함. Challenges현재의 MLLM에서, 일반적인 RLHF의 경우 ranking label의 형태로 human preference Y를 ..

세계적으로 IT분야에 대한 관심이 뜨겁습니다. 인공지능(AI)의 등장은 많은 사람들에게 더 나은 편의를 제공할 수 있다는 기대감을 제공했고, 이에 힘입어 발전 속도가 가속화되고 있스빈다. 이러한 인공지능(AI)은 그 범위가 아주 광범위한데, 우선적으로 단순하게 두 가지, 머신 러닝(Machine Learning)과 딥 러닝(Deep Learning)으로 나눠볼 수 있습니다. 머신러닝이란? 머신러닝(ML)은 데이터를 기반으로 학습 또는 성능 향상을 지원하는 시스템을 구축하는 데 초점을 맞추는 인공 지능(AI)의 하위 집합입니다. 인공지능은 인간 지능을 모방하는 시스템 또는 머신을 나타내는 광범위한 용어입니다. 머신러닝과 AI에 대해 함께 논의되는 경우가 많고 서로 바꿔서 사용되기도 하지만 동일한 것을 의미..

티스토리툴바