
이전 attention approximation 관련 논문들은 compute complexity를 줄이는데 집중했다.더보기ex) block-sparse attentionhttps://velog.io/@nawnoes/sparse-attentionhttps://huggingface.co/blog/big-bird사전에 정해진 sparse pattern에 따라 어떤 블록을 계산 => 전체 연산량 및 메모리 사용량 줄이면서 로컬 및 글로벌 정보를 적절히 캡쳐할 수 있도록 디자인ex) low-rank approximation이래서는 wall-clock speedup은 없다. 단순히 FLOP 수만 줄일 뿐이다. runtime은 메모리 접근 시간(IO)에 더 관련이 있다 FlashAttention은 tiling이라는 ..