2月底,当科技圈还在讨论OpenAI这次牙膏挤多少时,深度求索(DeepSeek)突然在X平台甩出一枚“重磅炸弹”——宣布启动为期五天的“开源周”,每天开源一项核心技术。
这场没有预热的活动,在短短几小时内引爆全球开发者社区。
现在,让我们一起回顾本次活动的精彩内容。
发布内容
第一天:FlashMLA
——GPU算力榨取
简介:
针对英伟达Hopper GPU优化的高效MLA解码内核,通过动态分配算力提升显卡利用率,尤其擅长处理可变长度序列(如长/短文本),实测显示可显著降低长上下文推理成本,使翻译、内容生成等任务速度接近硬件极限。
技术:
动态显存资源分配 优化KV Cache管理 支持低精度 BF16/FP16
价值:
在H800显卡上,内存带宽达3000GB/秒,算力接近580万亿次/秒,接近硬件极限。
第二天:DeepEP
——MoE模型通讯的高速公路
简介:
首个面向MoE(混合专家)模型的开源通信库,协调多专家模型间的通信,减少延迟和资源消耗,支持FP8智能压缩传输,适用于分布式GPU环境的多节点训练。
技术:
优化的all-to-all通信 支持NVLink/RDMA的节点内外通信 高吞吐训练/推理预填充内核 低延迟推理解码内核 FP8压缩传输 通信与计算重叠
价值:
训练万亿参数模型时,通信耗时从58%降至19%,中小团队也能低成本训练MoE模型。
第三天:DeepGEMM
——矩阵运算的极简美学
简介:
矩阵乘法优化工具,通过FP8低精度计算提升速度,并利用CUDA技术修正误差,在Hopper GPU上实现1350+ TFLOPs性能,代码简洁(仅300行),适合快速部署。
技术:
无重度依赖,代码简洁(核心逻辑仅300行) 全JIT编译 支持密集矩阵和两种MoE布局
价值:
填补了超低精度矩阵运算库的空白,适用于密集计算和MoE模型训练,显著降低AI核心计算的能耗与成本
第四天:DualPipe 与 EPLB
—— 并行训练与负载均衡的新生
简介:
DualPipe:双向流水线并行算法,消除训练中的“流水线气泡”,通过重叠前向/后向计算与通信提升MoE模型训练效率。 EPLB:专家并行负载均衡器,自动分配GPU任务至空闲显卡,解决“忙闲不均”问题,优化资源利用率。
技术:
DualPipe:双向流水线并行算法(实现计算-通信重叠) EPLB:专家并行负载均衡器
价值:
通过“并行”和“负载均衡”等传统优化算法,直观地实现大模型训练的效率提升,同时也为后续模型优化开拓了更多思路。
第五天:3FS
——大模型专用的文件系统
简介:
基于SSD和RDMA的高性能并行文件系统,实现高速数据访问和自动化资源调取。
技术:
并行文件系统架构 现代硬件深度优化 解耦架构强一致性设计
价值:
180节点集群6.6TiB/s聚合读取带宽 25节点集群3.66TiB/min排序吞吐 单节点40+GiB/s KVCache查询峰值
开源周的意义
当行业疯狂追逐千亿参数时,DeepSeek为何要开源这些“枯燥”的底层技术?
破解算力困局:通过软件优化高效利用现有GPU,同时兼容国产GPU,用“300行代码”对抗西方芯片封锁。
打造技术生态:通过开源核心工具链(如FlashMLA、DeepEP、DeepGEMM等),重构AI硬件运行逻辑,挑战英伟达CUDA生态的软硬件耦合模式,推动国产AI发展。
推动普惠AI:降低大模型训练门槛,让中小企业也能用上“国家队级”工具链。
当我们在惊叹各类大模型惊艳的表现时,别忘了支撑这些奇迹的,是无数工程师在算力调度、通信优化、存储加速上的死磕。
正如网友所说:“OpenAI画出了火箭图纸,DeepSeek却默默造好了发射架。”