
LLM inference은 compute-bound가 아니라 memory-bound이다즉 파라미터를 메모리에 load하고 store하는 속도가 핵심 bottleneck이다 = memory bandwidth가 latency에 직결됨"Memory Wall" 이라고 부르기도 함 (https://arxiv.org/pdf/2403.14123) cf) why memory-bound?- LLM inference는 대부분 matrix-vector operation이다- data reuse가 제한적이고, 서로 다른 토큰에 해당하는 벡터를 amortize하기도 힘들다Quantization?이를 해결하기 위한 하나의 approach가 quantization이다어차피 dequantization 및 FP16 computatio..