【推理引擎】模型压缩系列第06篇(上):知识蒸馏原理介绍!知识从哪里来怎么蒸馏?
Knowledge Distillation(KD)最初是 Hinton 在 “Distilling the Knowledge in a Neural Network”提出,与 Label smoothing 动机类似,但是 KD 生成 soft label 方式通过教师网络得到。KD 可以视为将教师网络学到的知识压缩到学生网络中,另外一些工作 “Circumventing outlier of auto augment with knowledge distillation”则将 KD 视为数据增强方法的一种。