'2025/01/03 글 목록

2025/01/03 2

[논문 리뷰] Flamingo: a Visual Language Model for Few-Shot Learning

IntroductionVLM의 시초라고도 할 수 있는 모델. 아래와 같은 achievement를 달성하였다pretrained vision-only model과 language-only model을 효과적으로 연결(bridge)했다visual + textual data가 랜덤하게 interleave된 시퀀스도 처리 가능하다 => large scale web data를 긁어올 수 있었음이미지/동영상 모두 원활하게 처리 가능하다in-context few-shot learning capability를 통해 별도의 fine-tune 없이도 여러 vision&language task에서 SOTA를 달성했다기존 computer vision 분야에서의 국룰은 large supervised data로 pretrain →..

AI/vision 2025.01.03

[논문 리뷰] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

IntroductionTransformer는 그 computational efficiency와 scalability 덕분에 NLP 분야에서의 정론이 되었음model과 dataset이 계속 커지고 있음에도 performance saturation이 (아직) 없음이 논문에서는 CNN이 지배중인 computer vision 분야에 Transformer를 도입하고자 함 (기존 아키텍쳐 최소한으로 변경하면서)이미지를 patch로 split하고 linear embedding의 시퀀스를 Transformer의 input으로 주었다Transformer는 CNN과 달리 translation equivariance/locality 같은 inductive biases가 부족하다이 때문에 mid-sized dataset에서는..

AI/vision 2025.01.03

(2023.02 ~ ) 해킹 공부 기록용으로 시작했다가 잡다한 거 다올리는 공부 메모장 느낌으로 봐주세요😺

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

대충공부한거적어두는블로그

2025/01/03 2

티스토리툴바