[CVPR 2024] MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

비디오를 온라인 방식으로 처리하고 과거 비디오 정보를 Memory Bank에 저장하여 long term video 분석
LLM의 context length limit 이나 GPU memory limitation을 초과하지 않으면서도 과거 비디오 내용을 reference가능

Long term memory bank
- 과거 비디오 프레임을 저장하고 참조할 수 있는 memory bank 도입.
- GPU 메모리 사용을 줄이고 LLM의 컨텍스트 길이 제한 문제 해결. (이는 memory bank compression method로 해결)
모델 아키텍처:
- visual encoder: 비디오 프레임에서 특징 추출.
- 쿼리 트랜스포머(Q-Former): 비주얼 및 텍스트 임베딩 정렬.
- 대형 언어 모델(LLM): 다양한 작업을 위한 텍스트 디코딩.
- 메모리 뱅크 압축: 유사한 인접 프레임을 평균하여 메모리 뱅크 길이를 일정하게 유지, 시간 정보를 보존하면서 중복성 감소.
성능:
- LVU, Breakfast, COIN 등의 데이터셋에서 최첨단 성능 달성.
- 기존 모델에 비해 장기 비디오 작업에서 효율성과 효과성 크게 향상.

Visual Feature Extraction :
- frozen visual encoder(ViT-G/14 from EVA-CLIP)를 사용하여 프레임 레벨 특징 추출.
- 위치 임베딩 레이어를 통해 시간 순서 정보 주입.
- 시간 t에 따른 visual feature $v_t$에 , $PE(t)$ positional embedding Layer 정보 추가. (temporal ordering infromation)
- $P$ : patches , $C$ : channels
Q-Former를 통한 long term temporal modeling:
- Q-Former는 비주얼 임베딩을 텍스트 임베딩 공간에 맞춤.
- 각 이미지당 32token 추출 (LLaVA는 256개 token추출) ⇒ more efficient
- 2개의 long term memory bank(visual memory bank & query memory bank)를 통합하여 과거 비디오 정보를 저장 및 augment.
  1. Cross attention layer : frozen visual encoder에서 나온 visual embedding
  2. Self attention layer : input queries 와 interact
  3. (이는 BLIP-2의 Q-Former가 현재 frame embedding에 관여한 것과는 사뭇 다름)
Text decoding :
- 최종 Q-Former 출력은 LLM에 전달되어 텍스트 생성 작업 수행.
- CE loss 로 trained
- → $w_i$는 i번째 GT token, $V$는 input video

Long-term Video Understanding:
- 데이터셋: LVU, Breakfast, COIN
- 평가 지표: Top-1 Accuracy
- MA-LMM이 기존 방법들보다 높은 정확도 달성.
- LVU : Long-Form Video Understanding

Video Question Answering:
- Dataset : MSRVTT-QA, MSVD-QA, ActivityNet-QA
- 성능: MSRVTT 및 MSVD 데이터셋에서 새로운 최첨단 성능 달성, ActivityNet-QA에서도 경쟁력 있는 성능 보임.

Video Captioning:
- Dataset : MSRVTT, MSVD, YouCook2
- Eval method: METEOR 및 CIDEr score
- MA-LMM은 세부적이고 정확한 설명을 생성하여 우수한 캡셔닝 결과를 제공.

Online Action Prediction:
- Dataset : EpicKitchens-100
- Eval method: Top-5 accuracy & recall
- MA-LMM은 실시간 분석 기능이 필요한 응용 프로그램에서 더 나은 성능을 보여줌

Q. latency issue?

Q. memory bank limitation?

Q. 3분짜리 video 에서 16개 frame만 뽑아서 분석하는 것은 너무 근 discrepency가 있지 않 은지.

[ICLR 2024] Interpreting CLIP's Image Representation via Text-Based Decomposition 리뷰 (0)	2024.09.29
[CVPR 2024] CLOVA: A Closed-LOop Visual Assistant with Tool Usage and Update 리뷰 (0)	2024.08.15
SlowFast-LLaVA: A Strong Training-Free Baseline For Video Large Language Models 리뷰 (0)	2024.08.03

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바