专题:DeepSeek为何能震动全球AI圈
来源:玩亦可及
2025年1月20日,杭州深度求索人工智能基础技术研究有限公司正式发布了其最新研发的高性能AI推理模型——DeepSeek R1。该模型在数学、代码和自然语言推理等任务上表现卓越,性能直接对标OpenAI的o1正式版,同时以开源形式向全球开发者开放,并使用MIT协议开源,支持免费商用,无需申请授权,为LLM大模型开源世界又补给了满满一仓库弹药。
好巧不巧,以文本处理和输出见长的另一家国内大模型公司——月之暗面,也发布了Kimi k1.5推理模型,同样号称比肩OpenAI o1。一个开源,一个闭源,国产大模型技术,似乎和世界顶级水平正在拉近。
扩展阅读:
DeepSeek R1的核心优势
DeepSeek R1的最大亮点在于其通过强化学习(RL)技术显著提升了模型的推理能力,且仅需极少量标注数据即可实现高效训练。与OpenAI的o1相比,R1在多个基准测试中表现优异,同时价格仅为o1的几十分之一,具有极高的性价比。
强化学习驱动的推理能力
R1在后训练阶段大规模应用了强化学习技术,无需依赖大量监督微调(SFT)数据,即可显著提升模型的推理能力。这一创新方法不仅降低了训练成本,还使模型在复杂任务中表现出色。
长链推理与模型蒸馏
R1采用了长链推理(Chain-of-Thought, CoT)技术,能够逐步分解复杂问题,并通过多步骤逻辑推理解决问题。此外,R1支持模型蒸馏,开发者可以将其推理能力迁移到更小型的模型中,满足特定场景需求。
开源与灵活的许可证
R1遵循MIT License开源协议,允许用户自由使用、修改和商用。同时,DeepSeek还开源了R1-Zero和多个蒸馏后的小模型,进一步推动了AI技术的普及与创新。
性能评测对比
以下是DeepSeek R1与其他主流模型在多个基准测试中的表现对比:
模型 | AIME 2024 (%) | MATH-500 (%) | Codeforces Elo | MMLU (%) | GPQA Diamond (%) |
---|---|---|---|---|---|
DeepSeek R1 | 79.8 | 97.3 | 2029 | 90.8 | 71.5 |
OpenAI o1-1217 | 78.5 | 96.8 | 2015 | 91.2 | 70.8 |
DeepSeek-V3 | 68.7 | 89.4 | 1950 | 85.6 | 65.3 |
Qwen2.5-32B | 55.5 | 72.6 | 1800 | 78.4 | 60.2 |
Llama3-70B | 58.3 | 75.1 | 1825 | 79.8 | 61.5 |
数据来源:
R1系列模型及其蒸馏版本的性能表现
DeepSeek此次发布了R1-Zero、R1以及多个蒸馏后的小模型,以下是它们的性能对比:
模型 |
AIME 2024 (%) | MATH-500 (%) | LiveCodeBench (%) |
---|---|---|---|
DeepSeek R1-Zero | 71.0 | 89.7 | 55.2 |
DeepSeek R1 | 79.8 | 97.3 | 57.2 |
R1-Distill-Qwen-1.5B | 65.4 | 85.2 | 52.8 |
R1-Distill-Qwen-7B | 68.9 | 88.6 | 54.3 |
R1-Distill-Qwen-8B | 70.2 | 89.1 | 55.0 |
R1-Distill-Qwen-14B | 72.6 | 90.5 | 56.1 |
R1-Distill-Qwen-32B | 72.6 | 94.3 | 57.2 |
R1-Distill-Llama-70B | 70.8 | 93.5 | 56.8 |
Qwen2.5-32B (原始) | 55.5 | 72.6 | 45.0 |
Llama3-70B (原始) | 58.3 | 75.1 | 47.5 |
数据来源:
从表中可以看出,R1蒸馏后的小模型在推理能力上显著超越了原始的Qwen2.5和Llama模型,展现了R1推理模式的高效迁移性。
应用开发者的视角:DeepSeek R1与V3的本地部署与使用
1. DeepSeek R1蒸馏模型的本地部署
DeepSeek R1蒸馏出的1.5B、7B、8B、14B等小模型非常适合在本地部署,尤其适合资源有限的中小企业和开发者。以下是常用的部署工具和方法:
目前DeepSeek R1蒸馏出来的这6个小体积模型,已经上线到Ollama官网。已经在本机安装Ollama的朋友,可以直接通过命令行工具,用ollama pull或ollama run命令下载和运行这些模型。我个人刚把原始版的Qwen2.5 7B删除,安装经过DeepSeek R1蒸馏过的Qwen 7B模型。我的7800XT显卡有16GB显存,FP8或INT8量化后,跑14B参数的模型应该也不是问题。
2. FP8与INT8量化方式
量化是降低模型显存占用和计算开销的有效方法,以下是FP8和INT8量化的实现方式:
3. DeepSeek R1与V3的应用场景对比
DeepSeek R1与月之暗面Kimi k1.5的对比
1. 设计与功能
2. 参数与性能
3. 优缺点与应用场景
总结
DeepSeek R1的发布标志着国产AI技术的又一次重大突破。其强大的推理能力、开源生态以及高性价比的API服务,为全球开发者和企业提供了全新的选择。随着R1及其蒸馏版本的广泛应用,AI技术的普及与创新将迎来新的高潮。
责任编辑:何俊熹
免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。