[2022 CVPR] FLAVA: A Foundational Language And Vision Alignment Model #221
Labels
Language
Related with Natural Language Processing tasks
Optimization
Related with loss, optimization
Vision
Related with Computer Vision tasks
기존의 vision-and-language space에 있는 models를 2가지 category로 분류할 수 있음
contrastive pre-training으로 모델 학습 (ex. CLIP, ALIGN)
장점 : uni-modal & cross-modal task 수행 가능
단점 : multi-modal task 수행 불가능
다양한 pre-training task로 모델 학습 (ex. MLM, prefixLM, ITM, ...)
장점 : multi-modal task 수행 가능
단점 : uni-modal, cross-modal task 성능이 안좋음
즉, 기존의 vision-language 모델들 중 uni-modal, cross-modal, multi-modal을 모두 target하는 모델이 없음
당연하게도, single universal foundation 모델이 all modality task를 수행하는 것이 바람직함
그렇다면 어떻게 학습해야 다양한 modality task를 잘 수행할 수 있을까?
→ uni-modal, cross-modal, multi-modal objective를 모두 이용하여 모델을 학습하는 방식이면 될 것 같음
그렇다면 어떻게 모델을 설계해야 multi-task objective로 학습할 수 있을까?
→ dual encoder와 fusion encoder를 결합한 구조를 이용하자
opensource dataset + multi-task objective로 학습한 foundation model인 FLAVA는 다양한 modality task를 수행할 수 있음
중요하다고 생각되는 부분만 간단히 요약
1. FLAVA: A Foundational Language And Vision Alignment Model
model architecture
pre-training objectives
uni-modal objective
cross-modal objective
multi-modal objective
2-stage training
2. Experiments
2.1. Setup
data : public multi-modal datasets (PMD)
implementation details
2.2. Ablation
Table 3
Table 4
Table D.1
2.3. Comparison
Table 5
Figure 4
The text was updated successfully, but these errors were encountered: