梁文锋参与著作！DeepSeek最新论文介绍新机制可使AI模型进一步降本增效

《科创板日报》2月18日讯（编辑宋子乔） 2月18日，DeepSeek团队发布一篇论文介绍了新的注意力机制NSA（Natively Sparse Attention，原生稀疏注意力机制）。

梁文锋参与著作！DeepSeek最新论文介绍新机制可使AI模型进一步降本增效-编程日记

NSA专为长文本训练与推理设计，能利用动态分层稀疏策略等方法，通过针对现代硬件的优化设计，显著优化传统AI模型在训练和推理过程中的表现，特别是提升长上下文的推理能力，在保证性能的同时提升了推理速度，并有效降低了预训练成本。

DeepSeek创始人梁文锋现身论文著作者之中，在作者排名中位列倒数第二。

梁文锋参与著作！DeepSeek最新论文介绍新机制可使AI模型进一步降本增效-编程日记

其他研究人员来自DeepSeek、北大和华盛顿大学，其中第一作者Jingyang Yuan（袁景阳）是在DeepSeek实习期间完成的这项研究。

资料显示，袁景阳目前为北京大学硕士研究生。他的研究领域包括大型语言模型（LLM）、人工智能在科学中的应用（AI for Science）。他是DeepSeek-V3技术报告的主要作者之一，还参与了DeepSeek-R1项目，该项目旨在通过强化学习激励大型语言模型的推理能力。

梁文锋参与著作！DeepSeek最新论文介绍新机制可使AI模型进一步降本增效-编程日记

在论文中，DeepSeek团队表示，随着大型语言模型的发展，长上下文建模变得越来越重要，但传统注意力机制的计算复杂度随着序列长度的增加而呈平方级增长，成为制约模型发展的关键瓶颈。

NSA便是为高效处理长上下文任务而生的一种技术路径，其核心创新在于：

1）动态分层稀疏策略：结合粗粒度的Token压缩和细粒度的Token选择，既保证全局上下文感知，又兼顾局部信息的精确性。

2）硬件对齐与端到端训练：通过算术强度平衡的算法设计和硬件优化，显著提升计算速度，同时支持端到端训练，减少预训练计算量。

实验表明，NSA不仅在通用任务和长上下文任务中表现出色，还在链式推理等复杂任务中展现了强大的潜力，且推理速度加快。在通用基准测试、长文本处理以及基于指令的推理任务中，NSA的表现均能达到甚至超越传统全注意力（Full Attention）模型的水平，其以性价比极高的方式，罕见地在训练阶段应用稀疏性，在训推场景中均实现速度的明显提升，特别是在解码阶段实现了高达11.6倍的提升。

通过高效的长序列处理能力，NSA使模型能够直接处理整本书籍、代码仓库或多轮对话（如千轮客服场景），扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。例如，Gemini 1.5 Pro已展示长上下文潜力，NSA可进一步降低此类模型的训练与推理成本。

梁文锋参与著作！DeepSeek最新论文介绍新机制可使AI模型进一步降本增效

实丰文化：正在加大开发力度，扩大AI玩具适用的年龄层

“地球上最聪明AI”！马斯克旗下xAI大模型Grok3正式发布

最新文章

阿里CEO吴泳铭：未来三年在云和AI的基础设施投入预计将超越过去十年的总和

义乌老板玩转AI跨国带货：DeepSeek生文案，小程序生视频，只用说“12345”就搞定多国外语

京东外卖一周涌入近20万商家刘强东能否拿到市场“第三张门票”？

“充电一小时，工作两小时” 人形机器人续航问题何解？高性能电池正在开发

雷诺CEO：将与雷诺中国研发中心合作，于16个月内完成售价低于13万元人民币的车型研发

B站2024年全面利润转正广告游戏成增长双引擎

阿里巴巴：目前没有出售盒马的计划

“灵智”AI能力平台接入DeepSeek大模型：信息发展迎来市场新机遇

187条“机会清单” 释放一场蓉杭共创的AI机遇

阿里：已获得高鑫零售和银泰两项交易的反垄断审批

标签

关注我们么么哒！

梁文锋参与著作！DeepSeek最新论文介绍新机制 可使AI模型进一步降本增效

实丰文化：正在加大开发力度，扩大AI玩具适用的年龄层

“地球上最聪明AI”！马斯克旗下xAI大模型Grok3正式发布

猜你喜欢

义乌老板玩转AI跨国带货：DeepSeek生文案，小程序生视频，只用说“12345”就搞定多国外语

“灵智”AI能力平台接入DeepSeek大模型：信息发展迎来市场新机遇

曾错过梁文锋投资，又借DeepSeek大火 硅基流动融资背后：给大模型开发者“递铲子”，是好生意吗？

科大讯飞：DeepSeek大模型已上线讯飞开放平台

阿里即将推出基于Qwen2.5-MAX的深度推理模型

算力之后，高质量语料数据集或决定大模型能力上限

腾讯云：率先支持DeepSeek全系模型精调与推理

上海教育智算服务平台全面接入DeepSeek大模型

县委书记提要求：每个人至少要装两个人工智能软件，第一是DeepSeek，第二是豆包

接入DeepSeek 上海试点探索人工智能助力教育变革

腾讯理财通正式接入DeepSeek-R1模型满血版

DeepSeek 被曝首次考虑进行外部融资，巨头阿里巴巴有意参投

最新文章

阿里CEO吴泳铭：未来三年在云和AI的基础设施投入预计将超越过去十年的总和

标签

关注我们 么么哒！

关注我们的公众号

梁文锋参与著作！DeepSeek最新论文介绍新机制可使AI模型进一步降本增效

曾错过梁文锋投资，又借DeepSeek大火硅基流动融资背后：给大模型开发者“递铲子”，是好生意吗？

关注我们么么哒！