量化

https://zhuanlan.zhihu.com/p/362033017
英伟达的ppt: 8-bit-inference-with-tensorrt
https://zhuanlan.zhihu.com/p/58182172

量化是数学运算与数字信号处理里广为使用的一种方法,它将一个大的集合种的输入数字映射到一个小的集合中的数字,这个小的集合一般是有限集。这样做可以带来两个好处:

训练后量化PTQ

post-training quantization,模型训练好之后再进行量化,这种方法一般对大模型效果不错,对小模型则效果比较差。

量化感知训练QAT

Quantization-aware training,在训练过程中对模型参数,inference与training使用的是量化过后的weights和activation,如下图所示。由于训练的loss能够反应了模型部署时的实际计算方式,所以效果一般会好过训练后量化,但训练方式变得更复杂。
Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference
训练时量化.png
问题:对数据库灵敏,泛化性差[IntraQ]

ZSQ

Zero-shot quantization
合成假图像,不需要训练数据