Quantization: PTQ and QAT
양자화(Quantization)는 딥러닝 모델의 weights와 activations 값 표현 정밀도를 낮추는 기법입니다. 일반적으로는 부동소수점(예: 32-bit float, FP32)에서 더 낮은 비트의 정수(예: 8-bit integer, INT8)로 변환하는 과정을 말합니다. 이를 통해 모델 크기를 줄이고, 추론 속도를 높이며, 전력 소모를 감소시킬 수 있어 특히 엣지 디바이스나 모바일 환경에 모델을 배포할 때 유용합니다. 또한 inference에는 고 정밀도가 필요하지 않은 경우가 많아 모델 정확도를 유지할 수 있습니다. PTQ (Post-Training Quantization, 학습 후 양자화) PTQ는 이미 학습된 부동소수점 모델을 가져와 양자화하는 방식입니다. 학습 과정은 건드리지 않고, 학습이 완료된 모델에 대해 양자화 변환만 수행합니다. 기존 학습된 모델을 그대로 사용하므로 적용이 추가적인 학습이나 학습 파이프라인 수정이 필요 없습니다. 하지만 양자화 과정에서 정보 손실이 발생하여 모델의 정확도가 떨어질 수 있고, 레이어의 오차 전파로 오차 누적 현상이 심해질 수 있습니다. ...