2025/05 3

[논문 리뷰] SQUEEZED ATTENTION: Accelerating Long Context Length LLM Inference

Problem Definition- long context length 어플리케이션에서 inference cost는 seqlen에 비례하여 선형적으로 증가한다- LLM 추론이 상당한 computational resource 요구 / memory capacity, bandwidth 요구 => 거대한 사이즈의 KV cache 때문- in-context learning, document QA, code generation 등의 어플리케이션에서는 입력 컨텍스트의 상당 부분이 고정되어있다- 모델에 들어가는 것: "fixed context" => 연속된 프롬프트들에서 재사용 가능 + "user input" => online으로 들어오는 유저 요청들- 이 논문에서는 fixed context(코드, 문서 등등)가 추론..

AI/ML System 2025.05.26

[논문 리뷰] I-LLM: Efficient Integer-Only Inference for Fully-Quantized Low-Bit Large Language Models

Problem definition* 대부분의 Post Training Quantization 방법들은 simulated quantization을 활용한다, 연산은 dequantize 후 fp* integer-only inference 한다면 효율적인 efficient integer arithmetic unit을 극한으로 활용 가능할 것 + edge processor* 기존 Integer-only method는 CNN, ViT나 Bert 같은 작은 트랜스포머 모델에 제한됨, SwiGLU나 RMSNorm 같은 복잡한 비선형 연산을 다루기는 부족 => 요즘 나오는 트랜스포머 기반 거대 LLM ?* per-channel, per-token 으로 보면 값이 많이 튄다, 특히 non-linear 직후의 activa..

AI/ML System 2025.05.23

[논문 리뷰] I-BERT: Integer-only BERT Quantization

Integer-only Quantization의 필요성* 모델의 사이즈(파라미터 수)가 계속해서 커지는 중* 지금까지의 integer quantization method는 simulated quantization (=fake quantization), 모든(혹은 대부분의) 연산은 실질적으로 floating point arithmetic으로 이루어짐* Neural Accelarator 혹은 부동소수점 연산 지원하지 않는 edge processor에서 돌릴 수 없다 (ex. ARM Cortex-M)* 또한 low-precision integer의 효율적인 연산을 지원하는 Tensor Core를 fully leverage 하지 못함* 따라서 floating point arithmetic을 추론 과정에서 완벽히..

AI/ML System 2025.05.21
반응형