界面新闻记者 | 李彪
界面新闻编辑 | 文姝琪

自从ChatGPT、Sora相继问世以来,全球对于AI大模型的用途争论不休,至今仍没有统一清晰的落地应用场景,但“算力是AI时代的能源,未来将像水、电一样即取即用”却早早就变成了一项共识。

特别在去年国内“百模大战”时,几乎每家大模型厂商在接受媒体采访时都要回答“灵魂三问”:公司囤了多少张英伟达显卡?大模型缺不缺算力?如何解决算力紧缺?

天数智芯董事长兼CEO盖鲁江去年也听到了外界各种“缺算力”的声音。

无论是从无到有地“训练”出一个大模型,还是有大模型加持后,聊天机器人靠“推理”每秒回答上百万用户的各种花式提问,背后都离不开大量的算力支持。去年行业内最先进的英伟达A100\H100、A800\H800 又相继遭美国禁售,更是将算力供需的天平重重压在了供给一端,市场上掀起了抢购囤卡的热潮。

“即使到了今天,算力供应仍存在一定缺口,尤其在高性能计算、云计算等领域。”盖鲁江接受界面新闻专访告诉记者。

天数智芯是在2018年前后国内的“GPU创业潮”中进入了算力领域。与这一领域传统的GPU(图形处理器)路线不同,天数智芯选择的是通过GPGPU(通用图形处理器)开启创业。

一块GPU显卡通常需要完成图形处理和通用计算两部分任务,传统GPU早年专为完成图形处理任务设计,例如3D图形渲染和2D图片处理,早期主要应用在游戏领域。后期则被大量用于处理海量数据的加速计算。

GPGPU更侧重于通用计算,包括大规模数据处理、科学计算、机器学习算法等。它通过并行处理大量数据和任务,提供了更快速和高效的计算能力。因此,也成为了发展人工智能不可或缺的关键设备。

AI大模型的爆发使得计算规模急剧膨胀。数据显示,OpenAI此前为ChatGPT研发的GPT3模型有1750亿参数,就已经要用到1万张英伟达显卡来支持模型训练。而GPT4模型的参数量据爆料更是GPT3的10倍,达1.8万亿。参数规模越大,训练所需的计算量就越大,对应GPU需求的也相应翻倍增加。

国内一家排名前三的服务器厂商负责人近期走访客户发现,算力需求的规模眼下仍在成倍增加。去年行业搭建算力集群都以1万张显卡为目标,而到今天5万张都开始变成常态。

而面对不断上涨的需求,英伟达尖端产品的猝然禁售留出了巨大缺口,国内GPU厂商正在努力进入其中补位。

去年6月,天数智芯研发的通用GPU天垓100,已经被用于支持某机构70亿参数大模型的训练。去年11月,天数智芯再次与合作方完成了700亿参数达模型的“异构训练”,这也是国内GPU厂商首次完成与国际主流GPU厂商的异构混合训练。

前述服务器厂商负责人表示,由于种种原因,将国内及国际不同厂商的GPU产品及其他计算资源混合组成一个集群的“异构路线”是当下的主流选择。虽然异构在软硬件上的兼容性仍是困扰行业的一大难题,但天数智芯、昆仑芯都已经积极沿此路线布局。

在盖鲁江看来,未来要实现算力像水、电一样成为基础能源,当下要像过去建自来水厂、发电站一样先完成一场“算力基建”。

上海亦在出台政策,积极推动投建智算中心。

今年3月,上海市通信管理局等11部门联合制定并发布《上海市智能算力基础设施高质量发展“算力浦江”智算行动实施方案(2024-2025年)》,鼓励全市加快建设智算中心。按照规划,到2025年,上海市智能算力规模超过30Eflops(EFLOPS指每秒百亿亿次浮点运算次数,是衡量算力的基本单位),届时将占全市总算力的50%以上,同时新建智算中心国产算力芯片占比要超过50%。

而当更多的智算中心被建成后,届时也将按照不同的参与者形成新的产业生态:上游参与者包括制冷设备供应商、网络设备供应商等,主要为智算中心提供硬件基础设施;中游则包括智算服务供应商、IDC服务供应商和云服务供应商等,主要提供算力服务、数据服务和算法服务,是智算中心运营的关键力量;下游应用开发者主要利用智算中心的算力资源,开发各种智能化应用。

天数智芯旗下的GPU产品已在多个算力项目中落地应用。盖鲁江告诉记者,近两年来,大模型的发展给公司带来很大推动作用。天数智芯从2018年就开始设计GPGPU芯片,前几年重点放在技术攻关和产品性能上,应用场景十分广泛,包括游戏、零售、教育、金融、能源等多个领域。在这轮大模型掀起的AI浪潮中,支持AI大模型训练、推理以及应用已经成为公司战略布局的重点。