当前位置: 首页 » 学习资料教程 » 正文

DeepSeek模型命名规则释义和模型用途

AI   2周前 (03-01)   714℃      反馈

DeepSeek 是由深度求索(DeepSeek)自主研发的高性能大语言模型,以其开源、轻量化和强大的多场景能力受到广泛关注。为用户提供智能对话、逻辑推理、AI搜索、文件处理、翻译、解题、创意、写作、编程等等多种服务。

截至2024年7月,DeepSeek(深度求索)已推出多个大语言模型,涵盖通用对话、代码生成、多模态交互及垂直领域专用场景,想要用好deepseek就要先去了解它的基础知识。

以下是其核心模型列表及详细说明,同时解析其命名规则:

模型命名规则解析

DeepSeek模型名称遵循结构化编码,包含技术架构、参数量级和功能定位三类信息:

1、基础标识

  • 数字后缀(如7B/67B):表示模型参数量级(7B=70亿参数,67B=670亿参数)。参考模型:DeepSeek-7B

  • MoE:采用混合专家架构(Mixture of Experts),通过动态激活部分参数提升效率。

  • V2/V3:代表模型迭代版本,通常伴随架构优化或多模态扩展。


2、功能扩展标识

  • Coder:专为代码任务优化的模型,支持编程语言理解和生成。

  • Math:强化数学推理能力的专用模型。

  • R1:面向终端用户的对话式AI产品线(如R1-Finance为金融垂类版本)。


3、领域定制标识

  • Finance/-Legal/-Medical:针对特定行业微调的模型,集成领域知识库和专用工作流。

2025年1月20日DeepSeek公司发布DeepSeek-R1大语言推理模型:

需要注意的是DeepSeek R1属于DeepSeek-V2模型的应用产品,可能结合了V2的多模态和API能力,而特定领域版本如R1-Finance则基于67B微调。特别指出R1是产品线名称,其技术基础可能因版本和功能需求不同而变化,但主要依托于企业级模型如V2。

"R1" 的含义:

R 代表 "Real-time Interaction"(实时交互),强调产品的低延迟与多轮对话能力。

1 表示第一代产品线,未来可能迭代为 R2、R3 等版本。

R1 的定位与功能

1、产品定位:

R1 是面向终端用户(个人/企业)的对话式AI助手,而非单一开源模型,其功能整合了以下技术模块:

  • 模型层:DeepSeek-V2(通用任务) + 领域微调模型(如67B)。

  • 扩展层:搜索增强、多模态工具链(如DALL·E 3图像生成)。

  • 交互层:Web/API接口,支持文件上传、实时联网、个性化配置。


2、核心功能:

  1. 复杂问答:学术研究、数据分析、代码调试。

  2. 多模态交互:图文生成、文档解析(PDF/Word/Excel)、语音转写。

  3. 企业级服务:私有化部署、数据隔离、定制化工作流。

模型拓展介绍

  • DeepSeek LLM:基础大型语言模型系列,包含7B和67B规格。其中,DeepSeek LLM 7B Chat 为7B规格的聊天交互模型,DeepSeek LLM 67B Chat 为67B规格的聊天交互模型,并推出了性能超过其他开源模型的16B参数版本混合专家模型。

  • DeepSeek-Coder:专为代码生成打造的模型,专注于代码生成、补全、修复及数学推理任务。升级版本DeepSeek-Coder V2在代码智能领域取得显著突破。

  • DeepSeek-Coder V2:在 DeepSeek-V2 中间检查点基础上,额外预训练了 6 万亿 tokens 的代码和自然语言数据,显著增强了编码与数学推理能力,同时保持通用语言任务的优异表现。支持的编程语言从 86 种扩展至 338 种,覆盖主流及小众语言,适应多样化开发需求。凭借MoE架构、大规模预训练和多语言支持,DeepSeek-Coder V2 成为代码智能领域的标杆开源模型,其在编码、数学推理和通用任务中的表现挑战了闭源模型的垄断地位。

  • DeepSeek-V2:发布于2024年上半年,DeepSeekMoE的改进版,采用更多数据,提升数据质量并优化了训练流程,专注于文本生成、代码生成和低成本训练。

  • DeepSeek-V2.5:是 V2 系列的升级版本,发布于2024年9月,介于 V2 和 V3 之间。

  • DeepSeek-V3:发布于2024年12月,第三代模型,性能强劲。通过FP8混合精度训练、无辅助损失负载均衡等技术创新,V3实现了高效训练与推理,并支持128K长上下文处理。生成速度从V2的20 TPS提升至60 TPS,速度提升3倍。V3在知识问答、长文本处理、代码生成等领域表现超越其他开源模型,并在数学竞赛中超越闭源模型如GPT-4。该模型推出后,成为开放源代码模型中的领跑者。

  • DeepSeek-R1:专注于推理能力的模型,通过强化学习与多阶段训练流程深度优化。包括DeepSeek-R1-Zero,完全基于强化学习训练的早期版本;DeepSeek-R1-32B,有320亿参数,可在24GB显存显卡上流畅运行;DeepSeek-R1-8B,有80亿参数,适用于8GB显存显卡。

  • DeepSeek-VL:视觉语言模型,能够处理图像与文本信息融合。DeepSeek-VL2是其升级版,多模态理解能力更强。

  • DeepSeekMath:专注于数学推理的模型。

  • DeepSeek-Prover:用于定理证明的模型,通过大规模合成数据进行训练,DeepSeek-Prover V1.5结合强化学习与蒙特卡洛树搜索技术进行了优化。

  • Janus-Pro-7B:基于视觉的模型,于2025年1月27日推出。

结语

以后如果deepseek推出新的模型,命名规则参考以上介绍去理解就行啦!



声明:本篇内容来自互联网公开分享,仅供个人学习交流使用,请勿用作商业途径!有问题请点击标题下方的“反馈按钮”!


顶
有用+0