ImageBind learns a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data. It enables novel emergent applications ‘out-of-the-box’ including cross-modal retrieval, composing modalities with arithmetic, cross-modal detection and generation. 6개의 다른 모달리티를 하나의 embedding space에 투영하는 방법론을 제안했으며 사용한 모델은 ViT로 간단한 것 같음. - image, depth, termal 데이터의 경우 ViT를 그대로..