[논문리뷰] LiT : Zero-Shot Transfer with Locked-image text Tuning

논문 리뷰/MultiModal

[논문리뷰] LiT : Zero-Shot Transfer with Locked-image text Tuning

리미61 2024. 8. 15. 01:35

Zhai et al., CVPR 2023

LiT는 이미지-텍스트 데이터에서 텍스트 모델만을 학습시키고, 이미 사전 학습된 이미지 모델을 고정(Locked)하여 사용함

이전 방법과 차별성 : 이미지 모델을 고정한 채, 텍스트 모델만을 학습시켜 제로샷 전이 성능을 향상
이미 학습된 이미지 모델 활용
- 고품질의 (반)수동적으로 라벨링된 데이터셋을 사용해 사전 학습된 이미지 모델을 사용
- 모델은 이미 최적의 이미지 임베딩을 생성할 수 있도록 잘 학습되어 있기 때문에, 다시 학습시킬 필요가 없음
- 대신, 이미지를 기반으로 텍스트와의 관계만 새롭게 학습하는 것이 목표
대조 학습의 집중
- 텍스트 모델이 이미지와 텍스트 간의 대조적 학습에 집중 가능
- 즉 text encoder는 scratch하게 학습
- image encoder가 생성한 representation을 text encoder가 읽고 해당하는 embedding을 학습
L : 변수는 사전 훈련된 모델에서 초기화, 학습 과정 동안 고정
U : 변수는 사전 훈련된 모델에서 초기화, 학습 과정 동안 변경

'논문 리뷰 > MultiModal' 카테고리의 다른 글

[논문리뷰] A Simple Framework for Contrastive Learning of Visual Representations (0)	2024.09.30
[논문리뷰] Chinese CLIP : Contrastive Vision-Language Pretraining in Chinese (0)	2024.09.04
[논문리뷰] CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation (0)	2024.08.25
[논문리뷰] Sigmoid Loss for Language Image Pre-Training (0)	2024.08.15
[논문리뷰] MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training (2)	2024.08.10

현재글[논문리뷰] LiT : Zero-Shot Transfer with Locked-image text Tuning

리미

trainig-free, 오블완, SKT, 강화학습, uniclip, Mamba, 데보션영, rl, clipseg, LLM, reinforcement learning, Distillation, 티스토리챌린지, blip-2, vlm, LSTM, Clip, srlm, InfoNCE, weicom,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

리미

[논문리뷰] LiT : Zero-Shot Transfer with Locked-image text Tuning

'논문 리뷰 > MultiModal' 카테고리의 다른 글

'논문 리뷰/MultiModal'의 다른글

티스토리툴바

[논문리뷰] LiT : Zero-Shot Transfer with Locked-image text Tuning

'논문 리뷰 > MultiModal' 카테고리의 다른 글

'논문 리뷰/MultiModal'의 다른글

관련글

티스토리툴바