
每经记者:朱成祥 每经编辑:魏官红
2月24日上午,DeepSeek(深度求索)发布首个开源项目FlashMLA。根据DeepSeek在GitHub社区披露的信息,FlashMLA是适用于Hopper GPU(一种英伟达图形处理器架构)的高效MLA(多头潜注意力)解码内核,针对可变长度序列服务进行了优化。在H800(一款英伟达芯片)上可以实现每秒处理3000GB(千兆字节)数据,每秒执行580万亿次浮点运算。
有业内观点认为,目前限制DeepSeek推理的主要瓶颈就是显存,FlashMLA则是“以算代存”,可解决推理过程中显存容量不足的问题。
对此,PPIO派欧云联合创始人兼CTO王闻宇告诉《每日经济新闻》记者:“(该观点)不完全正确,MLA的本质是在基础算法上的创新,通过将KV的权重矩阵转换到潜空间,实现矩阵的大幅压缩并且不造成精度损失。压缩算法会引入微弱的计算量的增加,但是由此带来的数据存储开销大幅下降,训练及推理速度大幅提升,需要计算的数据总量减少了,总计算量反而减少了,相应的训练和推理速度就会大幅提高。”
显存容量成门槛
当下,外界普遍使用显存来测算部署DeepSeek各类模型所需要的推理算力。比如根据民生证券研报,像DeepSeek-R1一个专注于实时推理的优化版本,拥有15B参数,推理时激活全部15B参数,显存需求约为30GB(FP16精度),单张NVIDIA A100(英伟达显卡)或单张RTX 4090(英伟达消费级显卡)等显卡可满足需求。
像DeepSeek 67B是一个拥有67B参数的大型模型,推理时激活全部67B参数,显存需求约为140GB(FP16精度)。推荐使用4张A100-80G GPU进行多卡并行推理。
照此计算,DeepSeek R1“满血版”拥有671B参数,在FP16精度下,需要1.4TB(太字节)显存;在FP8精度下,也需要约700GB显存。如果按照一个服务器8张卡计算,单卡80GB的8卡服务器满足不了“满血版”的推理工作,可能需要多个服务器互连。
关于显存是否为限制DeepSeek推理的主要瓶颈,王闻宇认为:“DeepSeek模型与其他主流模型相比,参数量更大,决定了其需要更大容量显存以加载模型权重,显存容量是门槛,不是瓶颈。”
那么,参数量小得多的蒸馏模型是否满足应用需求?王闻宇表示:“蒸馏版本与满血版本相比,参数量少很多,比如Qwen-7B,只有满血版671B的百分之一,参数量少,导致在模型性能上远弱于满血版,如何选择模型取决于实际的应用场景,要求高的场景可能无法用蒸馏版本来满足。”
一位不愿具名的算力芯片厂商高管对《每日经济新闻》记者表示:“AI行业从业者,不管是哪个环节的,包括模型公司、AI芯片公司等,都是围绕一个三角形来做的,三角形的三个角分别是提高价值,提高或者保持用户体验,维持或者降低使用成本⋯⋯提高价值就是要能解决更多问题,能解决更难的问题;模型规模起来后,一般来说会降低用户体验、提高成本⋯⋯所以大家都在这个三角形中螺旋式地往上爬。”
图片来源:受访对象提供
大模型效率革命?
而FlashMLA,正是在大模型规模变大、能力变强后,在不降低用户体验的基础上降低成本。
根据民生证券研报,传统计算方式存在KV(键值)矩阵重复计算的问题,这不仅浪费了大量的计算资源,还会导致显存消耗过大,影响模型的运行效率。而MLA技术解决了这个难题,它通过独特的算法设计,减少了对KV矩阵的重复计算,大大降低了显存的消耗。
需要注意的是,目前FlashMLA适配的是英伟达Hopper架构的GPU。若FlashMLA在CUDA生态大幅减少对显存的占用,那么未来应用到国内算力芯片领域,是否有助于“推理平价”,降低推理成本,推动国产算力芯片在推理领域的使用?
沐曦工作人员反馈:“这一周大家都忙着DeepSeek开源周的适配。”另据沐曦官方微信号:“沐曦技术团队在FlashMLA开源后迅速响应,仅用2小时即完成与沐曦GPU的适配工作,并于当日将代码提交至开源社区。”
此外,沐曦方面也表示:“FlashMLA通过MLA解码优化与分页KV缓存技术等显著提升硬件利用率,可加速大语言模型解码过程,有效提升响应速度与吞吐量,尤其适用于聊天机器人等实时生成场景。沐曦在适配中应用矩阵吸收算法将低秩投影融入Flash Attention 2核函数,在保证计算效率的同时显著降低显存占用。”
PPIO派欧云王闻宇也表示:“FlashMLA对国内算力芯片具有很大的借鉴价值,通过技术创新,将FlashMLA移植到国内算力芯片上,也可以实现类似CUDA中的减少显存占用和加速效果。”
事实上,除了通过算法领域的进步来减少显存占用,也可以从芯片设计角度出发,通过定制化的芯片来增加显存。
上述算力芯片公司高管称:“核心问题是HBM(高带宽存储)每GB是DDR(双倍速率同步动态随机存储器)的5x(5倍)价钱,用HBM来存所有权重不划算。”
其给出的解决办法是多级存储。他表示:“需要模型来进一步改造,我认为比较理想的软硬件,在未来应该是两级或者多级存储的,比如HBM和DDR都上,HBM更快,DDR更大,所以整个模型都存更大的DDR里面,就像DeepSeek论文里面写的,他们每10分钟刷新一批redundant expert(冗余专家),这批可以放在HBM里面,用户用的时候,大概率从这个redundant expert里面取expert,这样就可以既便宜又快了。”
关于MoE结构对算力硬件需求的变化,中金研报认为,可能带来对处理器架构进一步的定制化需求,如更大的计算单元、和更高效的通信kernel(内核)相匹配的设计单元、近存计算单元等,利好DSA(领域专用架构)架构发展。