
Integer-only Quantization의 필요성* 모델의 사이즈(파라미터 수)가 계속해서 커지는 중* 지금까지의 integer quantization method는 simulated quantization (=fake quantization), 모든(혹은 대부분의) 연산은 실질적으로 floating point arithmetic으로 이루어짐* Neural Accelarator 혹은 부동소수점 연산 지원하지 않는 edge processor에서 돌릴 수 없다 (ex. ARM Cortex-M)* 또한 low-precision integer의 효율적인 연산을 지원하는 Tensor Core를 fully leverage 하지 못함* 따라서 floating point arithmetic을 추론 과정에서 완벽히..