资讯 - 济南通悟人工智能科技有限公司

2月底，当科技圈还在讨论OpenAI这次牙膏挤多少时，深度求索（DeepSeek）突然在X平台甩出一枚“重磅炸弹”——宣布启动为期五天的“开源周”，每天开源一项核心技术。

这场没有预热的活动，在短短几小时内引爆全球开发者社区。

现在，让我们一起回顾本次活动的精彩内容。

发布内容

第一天：FlashMLA

——GPU算力榨取

简介：

针对英伟达Hopper GPU优化的高效MLA解码内核，通过动态分配算力提升显卡利用率，尤其擅长处理可变长度序列（如长/短文本），实测显示可显著降低长上下文推理成本，使翻译、内容生成等任务速度接近硬件极限。

技术：

动态显存资源分配
优化KV Cache管理
支持低精度 BF16/FP16

价值：

在H800显卡上，内存带宽达3000GB/秒，算力接近580万亿次/秒，接近硬件极限。

第二天：DeepEP

——MoE模型通讯的高速公路

简介：

首个面向MoE（混合专家）模型的开源通信库，协调多专家模型间的通信，减少延迟和资源消耗，支持FP8智能压缩传输，适用于分布式GPU环境的多节点训练。

技术：

优化的all-to-all通信
支持NVLink/RDMA的节点内外通信
高吞吐训练/推理预填充内核
低延迟推理解码内核
FP8压缩传输
通信与计算重叠

价值：

训练万亿参数模型时，通信耗时从58%降至19%，中小团队也能低成本训练MoE模型。

第三天：DeepGEMM

——矩阵运算的极简美学

简介：

矩阵乘法优化工具，通过FP8低精度计算提升速度，并利用CUDA技术修正误差，在Hopper GPU上实现1350+ TFLOPs性能，代码简洁（仅300行），适合快速部署。

技术：

无重度依赖，代码简洁（核心逻辑仅300行）
全JIT编译
支持密集矩阵和两种MoE布局

价值：

填补了超低精度矩阵运算库的空白，适用于密集计算和MoE模型训练，显著降低AI核心计算的能耗与成本

第四天：DualPipe 与 EPLB

—— 并行训练与负载均衡的新生

简介：

DualPipe：双向流水线并行算法，消除训练中的“流水线气泡”，通过重叠前向/后向计算与通信提升MoE模型训练效率。
EPLB：专家并行负载均衡器，自动分配GPU任务至空闲显卡，解决“忙闲不均”问题，优化资源利用率。

技术：

DualPipe：双向流水线并行算法（实现计算-通信重叠）
EPLB：专家并行负载均衡器

价值：

通过“并行”和“负载均衡”等传统优化算法，直观地实现大模型训练的效率提升，同时也为后续模型优化开拓了更多思路。

第五天：3FS

——大模型专用的文件系统

简介：

基于SSD和RDMA的高性能并行文件系统，实现高速数据访问和自动化资源调取。

技术：

并行文件系统架构
现代硬件深度优化
解耦架构强一致性设计

价值：

180节点集群6.6TiB/s聚合读取带宽
25节点集群3.66TiB/min排序吞吐
单节点40+GiB/s KVCache查询峰值

开源周的意义

当行业疯狂追逐千亿参数时，DeepSeek为何要开源这些“枯燥”的底层技术？

破解算力困局：通过软件优化高效利用现有GPU，同时兼容国产GPU，用“300行代码”对抗西方芯片封锁。
打造技术生态：通过开源核心工具链（如FlashMLA、DeepEP、DeepGEMM等），重构AI硬件运行逻辑，挑战英伟达CUDA生态的软硬件耦合模式，推动国产AI发展。
推动普惠AI：降低大模型训练门槛，让中小企业也能用上“国家队级”工具链。

当我们在惊叹各类大模型惊艳的表现时，别忘了支撑这些奇迹的，是无数工程师在算力调度、通信优化、存储加速上的死磕。

正如网友所说：“OpenAI画出了火箭图纸，DeepSeek却默默造好了发射架。”

五连击！DeepSeek开源周一文回顾

发布内容

第一天：FlashMLA

第二天：DeepEP

第三天：DeepGEMM

第四天：DualPipe 与 EPLB

第五天：3FS

开源周的意义