AI Paper Review/MLLMs

CLIP-ViT Image encoder에서, text기반으로 decomposition을 하여 각 요소마다 영향력을 분석하는 논문임.Image representation을 Image Patches + Model layers + Attention Heads의 sum으로 decomposition한 후, CLIP의 text representation을 사용하여 각 부분이 image representation에 미치는 효과를 자세히 분석하였음.각 요소들을 상세히 분석하여, CLIP에서 그닥 필요하지 않은 부분(=feature)을 제거하여 robust한 zero-shot image segmenter를 만들어 냄.CLIP-ViT Architecture$M_{img}$는 img encoder$(I_i, t_i)$는 ..
Abstract비디오를 온라인 방식으로 처리하고 과거 비디오 정보를 Memory Bank에 저장하여 long term video 분석LLM의 context length limit 이나 GPU memory limitation을 초과하지 않으면서도 과거 비디오 내용을 reference가능ContributionsLong term memory bank과거 비디오 프레임을 저장하고 참조할 수 있는 memory bank 도입.GPU 메모리 사용을 줄이고 LLM의 컨텍스트 길이 제한 문제 해결. (이는 memory bank compression method로 해결)모델 아키텍처:visual encoder: 비디오 프레임에서 특징 추출.쿼리 트랜스포머(Q-Former): 비주얼 및 텍스트 임베딩 정렬.대형 언어 모델(..
Abstract기존의 training 기법들은, 활용되는 tool에 대해 freeze를 하여 학습을 진행했지만, 이는 continual learning을 간과하였다고 봄.이에 따라, Inference, Reflection, Learning phase 총 세 단계를 거쳐 새로운 지식을 습득하는 환경을 조성할 수 있는 closed-loop learning framework인 CLOVA를 고안해 냄3단계의 phaseInference phase : LLM이 할당된 task에 맞게 그에 맞는 tool들을 실행한다Reflection phase : Multimodal이 전체적으로 human feedback을 하면서, tool들을 update한다Learning phase : 자동적으로 training data를 모으고..
Paper Link : https://arxiv.org/pdf/2407.158412024-07-22 introducedAbstract학습 없이도 세부적인 공간 의미와 장기적인 시간적 문맥을 효과적으로 caputre 가능→ computation resource, model training time 줄일 수 있다!Slow와 Fast 두 개의 stream design을 사용하여 비디오 프레임의 feature을 aggregateSlow pathway는 낮은 프레임 속도로 공간 세부 사항을 유지하며 feature을 추출Fast pathway는 높은 프레임 속도로 움직임 단서를 capture기존 challenge :input video 넣을 때 frame 수 제한 (e.g., 6 for IG-VLM (Kim et ..
지민몬
'AI Paper Review/MLLMs' 카테고리의 글 목록