반응형
Abstract
- 비디오를 온라인 방식으로 처리하고 과거 비디오 정보를 Memory Bank에 저장하여 long term video 분석
- LLM의 context length limit 이나 GPU memory limitation을 초과하지 않으면서도 과거 비디오 내용을 reference가능
Contributions
- Long term memory bank
- 과거 비디오 프레임을 저장하고 참조할 수 있는 memory bank 도입.
- GPU 메모리 사용을 줄이고 LLM의 컨텍스트 길이 제한 문제 해결. (이는 memory bank compression method로 해결)
- 모델 아키텍처:
- visual encoder: 비디오 프레임에서 특징 추출.
- 쿼리 트랜스포머(Q-Former): 비주얼 및 텍스트 임베딩 정렬.
- 대형 언어 모델(LLM): 다양한 작업을 위한 텍스트 디코딩.
- 메모리 뱅크 압축: 유사한 인접 프레임을 평균하여 메모리 뱅크 길이를 일정하게 유지, 시간 정보를 보존하면서 중복성 감소.
- 성능:
- LVU, Breakfast, COIN 등의 데이터셋에서 최첨단 성능 달성.
- 기존 모델에 비해 장기 비디오 작업에서 효율성과 효과성 크게 향상.
Method
- Visual Feature Extraction :
- frozen visual encoder(ViT-G/14 from EVA-CLIP)를 사용하여 프레임 레벨 특징 추출.
- 위치 임베딩 레이어를 통해 시간 순서 정보 주입.
- 시간 t에 따른 visual feature $v_t$에 , $PE(t)$ positional embedding Layer 정보 추가. (temporal ordering infromation)
- $P$ : patches , $C$ : channels
- Q-Former를 통한 long term temporal modeling:
- Q-Former는 비주얼 임베딩을 텍스트 임베딩 공간에 맞춤.
- 각 이미지당 32token 추출 (LLaVA는 256개 token추출) ⇒ more efficient
- 2개의 long term memory bank(visual memory bank & query memory bank)를 통합하여 과거 비디오 정보를 저장 및 augment.
- Cross attention layer : frozen visual encoder에서 나온 visual embedding
- Self attention layer : input queries 와 interact
- (이는 BLIP-2의 Q-Former가 현재 frame embedding에 관여한 것과는 사뭇 다름)
- Text decoding :
- 최종 Q-Former 출력은 LLM에 전달되어 텍스트 생성 작업 수행.
- CE loss 로 trained
- → $w_i$는 i번째 GT token, $V$는 input video
Experiments
- Long-term Video Understanding:
- 데이터셋: LVU, Breakfast, COIN
- 평가 지표: Top-1 Accuracy
- MA-LMM이 기존 방법들보다 높은 정확도 달성.
- LVU : Long-Form Video Understanding
- Video Question Answering:
- Dataset : MSRVTT-QA, MSVD-QA, ActivityNet-QA
- 성능: MSRVTT 및 MSVD 데이터셋에서 새로운 최첨단 성능 달성, ActivityNet-QA에서도 경쟁력 있는 성능 보임.
- Video Captioning:
- Dataset : MSRVTT, MSVD, YouCook2
- Eval method: METEOR 및 CIDEr score
- MA-LMM은 세부적이고 정확한 설명을 생성하여 우수한 캡셔닝 결과를 제공.
- Online Action Prediction:
- Dataset : EpicKitchens-100
- Eval method: Top-5 accuracy & recall
- MA-LMM은 실시간 분석 기능이 필요한 응용 프로그램에서 더 나은 성능을 보여줌
Visualization
Q. latency issue?
- Preprocessing video 단계 때 computation cost가 들어감.
Q. memory bank limitation?
Q. 3분짜리 video 에서 16개 frame만 뽑아서 분석하는 것은 너무 근 discrepency가 있지 않 은지.
??
반응형