LiT는 이미지-텍스트 데이터에서 텍스트 모델만을 학습시키고, 이미 사전 학습된 이미지 모델을 고정(Locked)하여 사용함
- 이전 방법과 차별성 : 이미지 모델을 고정한 채, 텍스트 모델만을 학습시켜 제로샷 전이 성능을 향상
- 이미 학습된 이미지 모델 활용
- 고품질의 (반)수동적으로 라벨링된 데이터셋을 사용해 사전 학습된 이미지 모델을 사용
- 모델은 이미 최적의 이미지 임베딩을 생성할 수 있도록 잘 학습되어 있기 때문에, 다시 학습시킬 필요가 없음
- 대신, 이미지를 기반으로 텍스트와의 관계만 새롭게 학습하는 것이 목표
- 대조 학습의 집중
- 텍스트 모델이 이미지와 텍스트 간의 대조적 학습에 집중 가능
- 즉 text encoder는 scratch하게 학습
- image encoder가 생성한 representation을 text encoder가 읽고 해당하는 embedding을 학습
- L : 변수는 사전 훈련된 모델에서 초기화, 학습 과정 동안 고정
- U : 변수는 사전 훈련된 모델에서 초기화, 학습 과정 동안 변경