最强开源模型,DeepSeek V3,它来了!

324 阅读3分钟

2024年12月26日,DeepSeek正式发布了其最新一代大型语言模型:DeepSeek-V3

这一模型的发布不仅标志着DeepSeek在 AGI(人工通用智能) 探索道路上的又一里程碑,也再次证明了其在开源AI领域的领先地位。

从V2.5到V3,DeepSeek仅用了短短几个月的时间,便完成了从通用与代码能力融合到全面性能突破的跨越。

DeepSeek里程碑

DeepSeek的初心:探索AGI的本质

DeepSeek始终秉持"投身于探索AGI的本质,不做中庸的事,带着好奇心,用最长期的眼光去回答最大的问题"的理念。这种长期主义的追求,使得DeepSeek在技术研发上不断突破,从V2.5的通用与代码能力融合,到V3的全面性能提升,每一步都彰显了其对技术创新的执着。

从V2.5到V3:性能的全面飞跃

DeepSeek-V3是一款拥有6710亿参数的专家混合(MoE)模型,激活370亿参数,基于14.8T token的预训练数据。

生成速度方面相比V2.5提升了3倍,从 20TPS 提升至惊人的 60TPS。实测回复速度极快

回复速度

在性能上,DeepSeek-V3在多项基准测试中超越了Qwen2.5-72B和Llama-3.1-405B等开源模型,并与GPT-4和Claude-3.5-Sonnet等顶尖闭源模型不相上下。尤其在数学、代码和中文任务上,V3表现尤为突出,成为当前最强的开源模型。

模型基准测试

技术创新:高效训练与推理

DeepSeek-V3采用了多项创新技术,包括多头潜在注意力(MLA)架构无辅助损失的负载均衡策略以及多token预测(MTP)目标。这些技术不仅提升了模型的推理效率,还大幅降低了训练成本。V3的整个训练过程仅耗费了278.8万H800 GPU小时,总成本约为557.6万美元,远低于其他前沿大模型。

API服务:价格调整与优惠

随着V3的发布,DeepSeek调整了API服务价格。优惠期内(即日起至2025年2月8日),API价格为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元。优惠期结束后,价格将恢复至每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。

时期Token类型缓存命中缓存未命中
优惠期内
(至2025年2月8日)
输入tokens(每百万)¥0.1¥1
输出tokens(每百万)¥2¥2
优惠期后输入tokens(每百万)¥0.5¥2
输出tokens(每百万)¥8¥8

开源与社区支持

DeepSeek-V3不仅开源了原生FP8权重,还提供了BF16转换脚本,方便社区适配和应用。SGLang、LMDeploy、TensorRT-LLM等工具已支持V3模型推理,进一步降低了用户的使用门槛。

DeepSeek-V3的实际应用

1. 官方对话平台体验

DeepSeek-V3对话已在官网上线,用户可以通过chat.deepseek.com直接体验。

在线免费使用

2. API能力与开发接入

DeepSeek API 接口,支持以下功能:

  • 多轮对话能力
  • 对话前缀续写(Beta)
  • FIM(Fill In Middle)补全
  • 结构化输出 JSON output
  • 多语言支持

开发者可以通过API文档了解详细的接入方式和示例代码:api-docs.deepseek.com

结语:开源AI的新标杆

DeepSeek-V3的发布不仅是技术的一次飞跃,更是开源精神的体现。

它不仅在性能上与世界顶尖的闭源模型媲美,更以开源的方式推动了人工智能技术的普惠发展,是当之无愧的国产之光!

未来,相信DeepSeek将会继续在AGI探索的道路上砥砺前行,为AI领域带来更多创新与突破。

哦对了,关于使用开源类ChatGPT应用 EsChatPro 接入DeepSeek 大模型的教程,可参考如下文章:

juejin.cn/post/745189…