知识蒸馏动物园PyTorch中的多样化实践

2020-08-05

知识蒸馏动物园：PyTorch中的多样化实践

欢迎来到“知识蒸馏动物园”——一个专注于PyTorch实现的知识蒸馏技术集合。本仓库致力于简化和展示知识蒸馏的核心概念，适合那些希望深入了解或应用这一模型压缩与性能提升策略的研究人员和开发者。

知识蒸馏简介
知识蒸馏（Knowledge Distillation），是由Hinton等人提出的一种模型压缩技术，它通过让复杂、大型的“教师模型”教授相对简单、小型的“学生模型”来传递其学到的知识。这种方法不仅能够减小学生模型的规模，还能在某些情况下提高其性能。

基线方法：基于softmax损失的基本模型实现。
Logits模拟：学习如何通过回归logits来模仿教师的行为。
软目标教学（Soft Target）：利用教师模型的软标签指导学生。
注意力转移（Attention Transfer）：强调模仿教师模型的注意力分布。
FitNet：通过引导层结构减少深度差距。
NST：神经风格迁移的灵感应用于知识蒸馏。
PKT：概率知识的转移，关注预测的概率分布。
更有FSP、FT（因子转移）、RKD（关系知识蒸馏）、AB（激活边界）、SP（相似性保存）、以及基于Sobolev/jacobian的匹配等多个进阶领域。

如果你发现有遗漏的基础方法或者有新的KD创新思路，非常欢迎提出建议或通过提交PR的方式增加相关内容。共同构建更加完善的知识蒸馏社区！

请注意，这个仓库聚焦基础，因此未涉及的一些复杂技巧如无数据蒸馏、自蒸馏、模型量化等，在未来可能会根据社区反馈进行拓展。

通过深入探索这些实现，希望每位使用者都能在知识蒸馏的旅途中找到自己的宝藏，无论是在高效部署模型还是在提升模型性能方面取得突破。快乐学习，码出精彩！