논문 리뷰/MultiModal

[논문리뷰] LiT : Zero-Shot Transfer with Locked-image text Tuning

리미61 2024. 8. 15. 01:35

Zhai et al., CVPR 2023

LiT는 이미지-텍스트 데이터에서 텍스트 모델만을 학습시키고, 이미 사전 학습된 이미지 모델을 고정(Locked)하여 사용함

  • 이전 방법과 차별성 : 이미지 모델을 고정한 채, 텍스트 모델만을 학습시켜 제로샷 전이 성능을 향상
  • 이미 학습된 이미지 모델 활용
    • 고품질의 (반)수동적으로 라벨링된 데이터셋을 사용해 사전 학습된 이미지 모델을 사용
    • 모델은 이미 최적의 이미지 임베딩을 생성할 수 있도록 잘 학습되어 있기 때문에, 다시 학습시킬 필요가 없음
    • 대신, 이미지를 기반으로 텍스트와의 관계만 새롭게 학습하는 것이 목표
  • 대조 학습의 집중
    • 텍스트 모델이 이미지와 텍스트 간의 대조적 학습에 집중 가능
    • 즉 text encoder는 scratch하게 학습
    • image encoder가 생성한 representation을 text encoder가 읽고 해당하는 embedding을 학습
  • L : 변수는 사전 훈련된 모델에서 초기화, 학습 과정 동안 고정
  • U : 변수는 사전 훈련된 모델에서 초기화, 학습 과정 동안 변경