[논문 리뷰] Attention Is All You Need !

민사민서 2024. 11. 1. 01:58

(25.03.30 추가)

https://www.youtube.com/watch?v=eMlx5fFNoYc

transformer는 자연어처리 같은 autoregressive modeling이 필요한 작업이 쓰인다. 기존에 쓰이던 RNN과 뭐가 다른데?

transformer 학습 과정

- 입력 문장 전체(complete sentence)를 한 번에 처리할 수 있다

- encoder에는 입력 문장을 한 번에 투입되어 병렬로 처리, 전체 문맥 정보를 나타내는 hidden state를 배운다

- decoder는 teacher forcing이라는 방식을 사용하는데, 입력으로는 정답 문장 전체가 shifted right된 상태로 들어간다 (<BOS> 토큰 + 첫번째부터 마지막-1번째 토큰), 출력 라벨로는 첫번째부터 마지막 토큰이 된다.

- 물론 미래 토큰 정보를 보지 못하게 masking 적용하여 self-attention 수행한다.

- 쨌든 self-attention에서 시퀀스 내 모든 관계를 한꺼번에 계산하기에 병렬 처리가 용이하다 (**)

RNN 학습 과정

- 이전 토큰의 hidden state가 다음 토큰 계산에 영향을 주므로 각 시퀀스 내에서 시간 순서를 유지해 계산해야 한다

- 시퀀스 내 병렬화가 힘들고, BPTT를 이용해 시간 축을 따라 gradient 전파해야 하므로 계산 효율이 떨어진다

transformer 추론 과정

- 초반 프롬프트(input query)는 시퀀스 전체를 한 번에 (인코더에) 입력하여 디코더 모듈의 모든 layer의 (multi-head cross attention, multi-head self-attention의) KV cache를 초기화한다

- <BOS> 토큰 (혹은 맨 마지막 토큰?) 부터 decoder에 넣으며 한 토큰씩 autoregressive하게 생성한다.

- 새로운 토큰은 각 layer의 (multi-head self-attention) 기존 KV cache에 append 된다

- 여러 sequence를 batch로 처리 가능하다, 대신 한 output sequence 내에서 token 생성은 순차적이다

- 매 스텝마다 이미 계산된 KV cache를 재사용하여 dot product 연산만 수행하므로 부담이 적다

RNN 추론 과정

- 마찬가지로 한 번에 한 토큰씩 생성하며, 각 step에서 이전 hidden state를 사용해 다음 출력을 계산한다

- 이전 단계의 hidden state를 다음 단계의 input으로 사용하는 순환 구조 => 입력 시퀀스 전체를 한 번에 처리하는 transformer와 다르게 순차적 처리가 필수이다

- 단순 KV cache를 확장하는 transformer와 달리 매 step마다 직전 hidden state를 업데이트해야 함(gemm)

other points about transformer

Q. 그러면 초기 KV cache initialize 작업 이후 autoregressive하게 토큰 생성할 때 Query input은 어떻게 주어짐?

- query input은 직전에 생성된 토큰 한 개에 대한 embedding으로 주어진다

- 생성된 토큰들에 대한 KV cache와의 self attention 후 그 결과가 cross attention의 Q로 들어간다, cross attention는 encoder에서 온 KV cache를 활용해 연산한다

- 새로운 토큰이 생성될 때마다 (첫번째) self attention의 KV cache에 append를 한다

- 즉 decoder가 생성한 것들끼리 self attention을 하고 -> input prompt와의 cross attention을 해서 -> 결과를 구하는 식

- inference에서는 causal mask가 필요없어보인다..?

Q. RNN하고만 비교하던데 CNN/DNN이 하던 일을 대체하진 못했냐?

- transformer는 self-attention을 이용해 전체 문맥을 한 번에 처리하면서도 학습 시에는 전체 sequence를 병렬 처리할 수 있어 매우 효율적이다 => 이전 상태를 다음 계산에 반영하는 RNN과 관련이 있다

- CNN은 주로 이미지나 지역적 패턴을 잡아내는 데 강점을 가진 구조

=> ViT

- DNN은 시퀀스 간 관계(순차적)나 위치 정보(공간적)를 내재적으로 고려하지 않는 구조

https://arxiv.org/abs/1706.03762

Attention Is All You Need

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new

arxiv.org

https://github.com/hyunwoongko/transformer?tab=readme-ov-file

GitHub - hyunwoongko/transformer: Transformer: PyTorch Implementation of "Attention Is All You Need"

Transformer: PyTorch Implementation of "Attention Is All You Need" - hyunwoongko/transformer

github.com

transformer를 처음 제시한 아주 대단한 논문... 이제야 읽어봅니다

기존까지의 dominant한 시퀀스 변환 모델은 복잡한 RNN이나 CNN 기반이었음

- RNN 계열 모델은 긴 시퀀스에서의 장기 의존성(long-term dependency)을 학습하기가 까다로움, 병렬화 힘듦

- CNN 기반 모델은 병렬 처리는 가능하지만, 먼 위치에 있는 단어/토큰끼리의 상호작용을 학습하기 위해서는 커널 크기를 확장하거나 다단계 계층이 필요, 효율이 떨어짐

=> recurrence와 convolution을 완전히 배제한 새로운 simple network architecture인 Transformer 등장

=> attention mechanism만을 이용해 시퀀스를 처리함

=> 병렬 처리가 가능해지고, 훈련 속도와 성능에서 큰 이점을 얻게 됨

=> 입력 시퀀스의 모든 위치를 한 번에 참조하면서, “어떤 단어(토큰)에 집중할지” 가중치를 학습

Model Architecture

encoder는 x=(x1, ... xn)을 동일한 dimension의 z=(z1, ... zn)으로 변환한다

z가 주어지면 (N=6 block 단위의 sublayer를 거친 output이 건네짐) decoder는 일련의 과정을 거쳐 y=(y1, ... , yn) 시퀀스 생성

each step은 auto-regressive하게 진행된다 = residual connection = previously generated symbol들이 다음 generation에 input으로 추가로 더해짐

1. encoder

- stack of N=6 identical layers로 구성된다

- each layer는 multi-head self-attention mechanism + position-wise fully connected FFN으로 구성

- residual connection (add) + layer normalization (norm)

- residual addition을 위해서 모든 sub-layer + embedding layer는 동일한 dimension을 output으로 내보냄

2. decoder

- masked multi-head attention: 앞의 토큰과의 관계만 고려 (뒤의 토큰은 masking함, ensures that the predictions for position i can depend only on the known outputs at positions less than i)

- encoder의 two sublayer외에 세 번째 sub-layer가 도입됨 => encoder stack의 output을 활용한 multi-head attention

- 마찬가지로 masked multi-head attention + cross attention + FFW Network (+ Layer Normalization)

so, what is attention function?

Q(query) + K(key) + V(value) 를 매핑하는 함수

Q, K, V는 일단 어떤 input(일단 쉽게 여러 word(token)으로 구성된 문장)을 layer등을 거쳐 조금씩 변형한 value라고 생각

Q, K의 차원은 무조건 같아야 함, V는 별개의 차원을 가질 수 있음 (cross attention에서는 encoder의 출력[Q, K]과 decoder의 입력[V]의 차원이 서로 다를 수 있음)

=> Self-Attention에서는 같은 문장(시퀀스)의 모든 위치를 서로 Key-Value 쌍으로 참조 가능하다

single attention operation

- Q(dimention d_k*1)와 K(dimension d_k*1)의 dot product => d_k * d_k dimension의 matrix 형성되 ㄹ것

- scale (divide by sqrt(d_k)) = 내적 결과의 안정화

- softmax function 적용 => 각 토큰이 다른 토큰과 얼마나 관련있는지 probability 형태 (row 합 1) = weights on values

- 여기다 V(dimension d_k * 1) 곱하면 output vector의 dimension d_k*1 나옴 (유지)

multihead attention

- linearly project (queries, keys, values) h times

* 입력 벡터를 서로 다른 feature subspace에 매핑하기 위해

- 그리고 attention function parallel하게 수행 => 각각은 d_v dimensional output value return

- concatenate된 후 한 번 더 linearly projected => final vector has same dimension with input

* h*d_v 차원의 벡터를 d_model 로 차원을 감소시키기 위해

=> 여러 개의 attention을 병렬로 계산해 서로 다른 표현학습을 가능케 하고, 최종적으로 이를 결합함

about position-wise feed-forward networks

consists of two linear transformations with a ReLU activation in between

positional encoding?

no recurrence and no convolution => model이 order of sequence를 인지하게 하기 위해 position info 제공 필요

=> 시퀀스의 순서를 인식하게 함 (각 단어의 위치 정보 제공)

기존 아키텍쳐와의 비교

RNN과 달리 연산 병렬화가 가능하고 => 시퀀스 길이 길어져도 학습 속도 빠름

CNN과 달리 O(1) 경로 길이로 시퀀스 내 임의 위치 정보를 서로 연결함

그래서 transformer가 왜 중요한데?

엄청난 혁신

- 계산 효율성(efficiency) + 확장성(scalability)

- self-attention을 통해 시퀀스 전체를 한번에 본다, 시퀀스 내 위치별 연산을 병렬로 수행할 수 있다

- <multihead attention + FFN> 블록이 쌓인 형태 => 블록 수를 늘리거나 차원을 늘리는 식으로 모델 규모를 쉽게 키울 수 있다

- 대규모 데이터셋에 대해 파라미터 수를 늘려 표현력을 늘리기 용이하다

encoder 기반의 Bert

BERT는 Transformer의 encoder 구조만을 사용

다수의 encoder block으로 구성, 각 블록은 multihead self-attention + FFN로 이루어짐 (layer norm + residual connection)

학습 방식?

- Masked Language Model (MLM): 입력 문장에서 일부 단어를 무작위로 마스킹(숨김)하고, 모델이 문맥을 기반으로 마스킹된 단어를 예측

- Next Sentence Prediction (NSP): 두 문장이 주어졌을 때, 두 번째 문장이 첫 번째 문장의 다음 문장인지 여부를 예측하는 작업

decoder 기반의 GPT (Generative Pre-trained Transformer)

GPT는 Transformer의 decoder 구조만을 사용하는 언어 모델

다수의 decoder 블록으로 구성, 각 블록은 masked multihead self-attention + FFN으로 이루어짐 (encoder의 output 가지고 cross attention 하는 부분 빠짐)

입력 단어의 순서 보존 위해 positional encoding 적용

학습 방식?

Masked Self-Attention: GPT는 미래의 토큰을 마스킹하여 학습, 이를 통해 모델이 직전의 토큰들만 참조해 다음 단어를 예측

뿐만 아니라 cv에서도 널리 쓰이기 시작!

Vision Transformer (ViT)

이미지를 다루기 위해 Transformer 구조를 사용

이미지를 고정 크기의 패치로 나누고, 각 패치를 벡터로 변환해 입력 토큰으로 사용

패치들은 Transformer의 입력으로 들어가 Self-Attention 메커니즘을 통해 처리 => global context 파악

=> 추후 관련 글 작성하며 공부해볼 예정

Flamingo: Visual Language Model for Few-Shot Learning

멀티모달 학습 모델로, 텍스트와 이미지 데이터를 결합하여 학습 (VLM의 시초 느낌)

이미지 인코더는 이미지 피처를 추출하고, 이 피처는 cross attention을 통해 텍스트 데이터와 결합

frozen llm = LLM을 frozen 상태로 유지하며, 학습된 언어 지식을 이미지 정보와 연결하는 데 사용 (using cross attention)

=> 추후 관련 글 작성하며 공부해볼 예정

BLIP의 Q-Former

이미지 인코더와 텍스트 디코더(예: LLM) 사이의 modular difference 간극을 줄이기 위해 cross attention 사용

learnable한 Query 토큰을 생성하고, 이를 이미지 피처와 결합하여 Cross-Attention을 수행

image feature의 dimension이 어떻든간에 query token과의 cross attention 수행 시 query의 dimension이 output, 각 쿼리 토큰에 이미지 정보가 할당됨

이미지 정보가 적절하게 llm에 입력될 수 있도록 함

=> 추후 관련 글 작성하며 공부해볼 예정

Diffusion model에서의 attention

Backward Processing: Attention 메커니즘은 이미지의 특정 픽셀이나 피처 간의 관계를 학습하는 데 사용

Diffusion 모델은 노이즈를 점진적으로 제거하며 고화질 이미지를 생성하는데, 이 과정에서 attention을 통해 픽셀 간 상호작용을 효율적으로 캡쳐하여 생성 과정을 안정화

+ 요즘은 여러 연구들에서 normalization을 attention 전에 하는 게 더 안정적이라는 분석이 나와 FFW나 Multi-Head attention 전에 normalization 해버린다고 함

+ 또 요즘은 layer norm이 말고도 다른 normalize 방식도 많이 쓴다고 함

알찬 가르침을 주신 태백님께 압도적 감사를,,

KoLLAVA KOVA 레츠고~

'AI' 카테고리의 다른 글

[논문리뷰] Deep Residual Learning for Image Recognition (0)	2024.11.23
ClearML 이모저모 (0)	2024.08.29
서버 ClearML agent 설정 + 도커에서 돌아가게 세팅하기 (0)	2024.08.29
효율적인 MLOps를 가능케 하는 ClearML (0)	2024.08.29
lightning-hydra-template CIFAR-10 데이터셋 학습해보기 (1)	2024.08.29

현재글[논문 리뷰] Attention Is All You Need !

(2023.02 ~ ) 해킹 공부 기록용으로 시작했다가 잡다한 거 다올리는 공부 메모장 느낌으로 봐주세요😺

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

대충공부한거적어두는블로그