DeepSeek发布新版本模型：优化推理效率，API降价超50%

adminddos 2025-09-29 22:01:03 1

默认

摘要： ...

DeepSeek发布新版本模型，调用API成本降低超50%。

9月29日，DeepSeek正式发布DeepSeek-V3.2-Exp模型，这是一个实验性（Experimental）的版本。

值得注意的是，此前有不少科技博主发现，DeepSeek-V3.2新模型已上传至其HuggingFace官方页面，随后被删除，此后DeepSeek正式公告新版本的推出。

据DeepSeek介绍，作为迈向新一代架构的中间步骤，V3.2-Exp在V3.1-Terminus的基础上引入DeepSeek Sparse Attention（一种稀疏注意力机制），针对长文本的训练和推理效率进行探索性优化和验证。目前，官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp，同时API大幅度降价。

据了解，DeepSeek Sparse Attention（DSA）首次实现细粒度稀疏注意力机制，在几乎不影响模型输出效果的前提下，实现长文本训练和推理效率的大幅提升。为严谨评估引入稀疏注意力带来的影响，把DeepSeek-V3.2-Exp的训练设置与V3.1-Terminus进行严格的对齐。在各领域的公开评测集上，DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平。

在新模型的研究过程中，需要设计和实现很多新的GPU算子，使用高级语言TileLang进行快速原型开发，以支持更深入的探索。在最后阶段，以TileLang作为精度基线，逐步使用底层语言实现更高效的版本。此次开源的主要算子包含TileLang与 CUDA两种版本。

DeepSeek表示，得益于新模型服务成本的大幅降低，官方API价格也相应下调，开发者调用DeepSeek API的成本将降低50%以上。从价格来看，输入缓存命中从0.5元降至0.2元/百万tokens，缓存未命中从4元降至2元/百万tokens，输出由12元降至3元/百万tokens。