Mamba 4

[논문리뷰] VideoMamba: State Space Model for EfficientVideo Understanding

https://arxiv.org/abs/2403.06977 VideoMamba: State Space Model for Efficient Video UnderstandingAddressing the dual challenges of local redundancy and global dependencies in video understanding, this work innovatively adapts the Mamba to the video domain. The proposed VideoMamba overcomes the limitations of existing 3D convolution neural networks andarxiv.org Abstract본 연구는 Mamba 모델을 비디오 도메인에 적용한..

[논문리뷰] Vision Mamba: Efficient Visual Representation Learning with BidirectionalState Space Model

https://arxiv.org/abs/2401.09417AbstractSSM이 Visual data를 사용하는 것에 문제가 있음position-sensitivity 이해와 전체 맥락에 대한 이해가 필요함기존 mamba의 문제점단방향 모델링 및 위치 인식 부족⇒ 전역 시각적 컨텍스트 모델링을 위한 양방향 SSM과 위치 인식을 위한 position embedding을 통합한 Vision Mamba(Vim) 모델 제안먼저 input image를 patch로 분할하고 Vim에 선형 투영이미지 패치는 Vim 블록에서 시퀀스 데이터로 취급제안된 양방향 선택적 상태 공간을 통해 시각적 표현을 효율적으로 압축position embedding은 공간적인 정보를 제공Vision MambaPreliminariesMamba..

[논문리뷰] Mamba: Linear-Time Sequence Modeling with Selective State Spaces

1. Transformer의 한계점TransformerTransformer는 긴 시퀀스 처리에 있어 효율이 나쁨Transformer의 장점은 이전 토큰을 돌아볼 수 있는 것훈련 시 Multi-head masked self-attention 으로 각 토큰 별 병렬 처리를 함토큰 별로 행렬을 만들어서 계산함⇒ 병렬 처리를 통해 훈련 속도를 크게 높일 수 있음추론 시, 전체 시퀀스에 대한 어텐션을 다시 계산해야 함길이가 $L$인 시퀀스는 총 $L^2$의 계산이 필요함즉, Training은 병렬 처리를 활용하여 빠르지만, Inference는 느림 RNN?RNN은 시간 단계 t의 입력과 이전 시간 단계 t-1의 숨겨진 상태로, 다음 숨겨진 상태를 생성하고 출력을 예측함이전 단계의 정보만을 다음 단계로 전달할 수 ..

논문 리뷰/NLP 2024.09.01

[논문리뷰] CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation

1. 트랜스포머의 한계트랜스포머(Transformer) 모델은 특히 셀프 어텐션(self-attention) 메커니즘으로 인해 매우 강력하지만, 그 계산 복잡도가 제곱형(quadratic)으로 증가하여 연산량이 많고 처리 속도가 느리다는 한계가 있음이로 인해 트랜스포머 모델은 대규모 데이터 처리에 비효율적2. Mamba 모델Mamba 모델을 포함한 선택적 상태 공간 모델(SSM)은 이러한 트랜스포머의 한계를 극복하기 위한 대안으로 등장Mamba 모델은 선형적인 시간 복잡도를 가지며, 트랜스포머에 비해 더 나은 스케일링 성능을 보임3. Mamba 모델의 한계사전 정의된 객체 카테고리에 대해 고정된 방식으로 학습하기 때문에 제로샷 학습(새로운 클래스에 대해 추가 학습 없이 예측하는 능력)에서 트랜스포머에 비..