DeepSeek有很多的版本,现在很多平台部署的都对外宣称是满血版,与满血版相对应的就是整流版,何为整流版呢?模型蒸馏(Model Distillation)是一种知识迁移技术,旨在将一个复杂、性能较高的“教师模型”所学到的知识迁移到一个相对简单、规模较小的“学生模型”中。
首先的区别是deepseek满血版为原版,而蒸馏版则是压缩版。
其次是模型规模,满血版的参数更多,蒸馏版则相对较少。
满血版的推理速度会比蒸馏版的慢一些,不过它的精度和成本都非常高。
最后就是适用场景不同,满血版适用于非常复杂的推理类任务,蒸馏版相当于聊天助手,更适用于手机设备。
声明:本篇内容来自互联网公开分享,仅供个人学习交流使用,请勿用作商业途径!有问题请点击标题下方的“反馈按钮”!