蒸馏
https://zhuanlan.zhihu.com/p/362032604
在深度学习中,知识可以理解为神经网络中的参数,然而在训练神经网络时,为了获得较好的效果,模型往往是过参数化的(over parameterized),所以我们有理由相信用一个参数更少的模型也可以达到类似的效果。
知识蒸馏就是为了实现这个目的的一种解决方案,可以理解为将一个大模型(Teacher Model)里面我们需要的那部分知识“蒸馏”出来,放进一个小模型(Student Model)里面,这个小模型具有更少的参数与更快的推理速度。从这个角度来看,也可以将知识蒸馏理解为一种模型压缩方法或者迁移学习方法。