Problem Definition- long context length 어플리케이션에서 inference cost는 seqlen에 비례하여 선형적으로 증가한다- LLM 추론이 상당한 computational resource 요구 / memory capacity, bandwidth 요구 => 거대한 사이즈의 KV cache 때문- in-context learning, document QA, code generation 등의 어플리케이션에서는 입력 컨텍스트의 상당 부분이 고정되어있다- 모델에 들어가는 것: "fixed context" => 연속된 프롬프트들에서 재사용 가능 + "user input" => online으로 들어오는 유저 요청들- 이 논문에서는 fixed context(코드, 문서 등등)가 추론..