
[ICLR 2024] Interpreting CLIP's Image Representation via Text-Based Decomposition 리뷰
·
AI Paper Review/MLLMs
CLIP-ViT Image encoder에서, text기반으로 decomposition을 하여 각 요소마다 영향력을 분석하는 논문임.Image representation을 Image Patches + Model layers + Attention Heads의 sum으로 decomposition한 후, CLIP의 text representation을 사용하여 각 부분이 image representation에 미치는 효과를 자세히 분석하였음.각 요소들을 상세히 분석하여, CLIP에서 그닥 필요하지 않은 부분(=feature)을 제거하여 robust한 zero-shot image segmenter를 만들어 냄.CLIP-ViT Architecture$M_{img}$는 img encoder$(I_i, t_i)$는 ..