CLIP-ViT Image encoder에서, text기반으로 decomposition을 하여 각 요소마다 영향력을 분석하는 논문임.Image representation을 Image Patches + Model layers + Attention Heads의 sum으로 decomposition한 후, CLIP의 text representation을 사용하여 각 부분이 image representation에 미치는 효과를 자세히 분석하였음.각 요소들을 상세히 분석하여, CLIP에서 그닥 필요하지 않은 부분(=feature)을 제거하여 robust한 zero-shot image segmenter를 만들어 냄.CLIP-ViT Architecture$M_{img}$는 img encoder$(I_i, t_i)$는 ..
AI Paper Review
Abstract비디오를 온라인 방식으로 처리하고 과거 비디오 정보를 Memory Bank에 저장하여 long term video 분석LLM의 context length limit 이나 GPU memory limitation을 초과하지 않으면서도 과거 비디오 내용을 reference가능ContributionsLong term memory bank과거 비디오 프레임을 저장하고 참조할 수 있는 memory bank 도입.GPU 메모리 사용을 줄이고 LLM의 컨텍스트 길이 제한 문제 해결. (이는 memory bank compression method로 해결)모델 아키텍처:visual encoder: 비디오 프레임에서 특징 추출.쿼리 트랜스포머(Q-Former): 비주얼 및 텍스트 임베딩 정렬.대형 언어 모델(..
Abstract기존의 training 기법들은, 활용되는 tool에 대해 freeze를 하여 학습을 진행했지만, 이는 continual learning을 간과하였다고 봄.이에 따라, Inference, Reflection, Learning phase 총 세 단계를 거쳐 새로운 지식을 습득하는 환경을 조성할 수 있는 closed-loop learning framework인 CLOVA를 고안해 냄3단계의 phaseInference phase : LLM이 할당된 task에 맞게 그에 맞는 tool들을 실행한다Reflection phase : Multimodal이 전체적으로 human feedback을 하면서, tool들을 update한다Learning phase : 자동적으로 training data를 모으고..
PreliminariesPEFT (Parameter Efficient Fine-Tuning)성능은 그대로 유지하고, 파라미터 수를 줄여서 training time이나 memory efficiency 측면에서 장점을 갖게 됨Adapter, Prompt Tuning, LoRA 등의 방법론 제기.Adapter(추후 추가예정)Introduction최근 175B의 Parameter를 가진 GPT-3 모델을 fine tuning하는 것이 expensive하다는 문제가 제기되면서, 이를 경량화하려는 노력에 대한 시도가 많이 진행되고 있다.Low-Rank Adaptation (LoRA) 기법은, 기존에 pre-trained model을 freeze시키고 rank decomposition matrix를 기반으로 학습시키..
Paper Link : https://arxiv.org/pdf/2407.158412024-07-22 introducedAbstract학습 없이도 세부적인 공간 의미와 장기적인 시간적 문맥을 효과적으로 caputre 가능→ computation resource, model training time 줄일 수 있다!Slow와 Fast 두 개의 stream design을 사용하여 비디오 프레임의 feature을 aggregateSlow pathway는 낮은 프레임 속도로 공간 세부 사항을 유지하며 feature을 추출Fast pathway는 높은 프레임 속도로 움직임 단서를 capture기존 challenge :input video 넣을 때 frame 수 제한 (e.g., 6 for IG-VLM (Kim et ..
세계적으로 IT분야에 대한 관심이 뜨겁습니다. 인공지능(AI)의 등장은 많은 사람들에게 더 나은 편의를 제공할 수 있다는 기대감을 제공했고, 이에 힘입어 발전 속도가 가속화되고 있스빈다. 이러한 인공지능(AI)은 그 범위가 아주 광범위한데, 우선적으로 단순하게 두 가지, 머신 러닝(Machine Learning)과 딥 러닝(Deep Learning)으로 나눠볼 수 있습니다. 머신러닝이란? 머신러닝(ML)은 데이터를 기반으로 학습 또는 성능 향상을 지원하는 시스템을 구축하는 데 초점을 맞추는 인공 지능(AI)의 하위 집합입니다. 인공지능은 인간 지능을 모방하는 시스템 또는 머신을 나타내는 광범위한 용어입니다. 머신러닝과 AI에 대해 함께 논의되는 경우가 많고 서로 바꿔서 사용되기도 하지만 동일한 것을 의미..