大模型觉醒空间意识？李飞飞、谢赛宁再叙空间智能

《科创板日报》12月23日讯（编辑宋子乔） 有着“AI教母”之称的斯坦福大学教授李飞飞又有新发现——尽管空间推理能力依然薄弱，但多模态大模型已经能够记住和回忆空间，甚至内部已经形成了局部世界模型，表现出了空间意识。

来自纽约大学、耶鲁大学、斯坦福大学的研究者引入了VSI-Bench，这是一个用于评估多模态大模型视觉空间智能能力的工具。VSI-Bench包含了超过5000个问答对，这些问答对来源于288个真实视频。这些视频包括居住空间、专业场所（例如，办公室、实验室）和工业场所（例如，工厂）——以及多个地理区域。VSI-Bench的质量很高，经过迭代审查以最小化问题的歧义，并移除了从源数据集中传播的错误注释。

通过5000多个问答对，研究人员发现多模态大模型表现出了有竞争性的视觉空间智能（尽管仍然低于人类）——人类评估者的平均准确率达到79%，比最佳模型高出33%，在配置和时空任务上的表现接近完美（94%-100%）。

哪些模型的空间智能能力更强？

在专有模型中，Gemini-1.5 Pro脱颖而出，尽管只在2D数字数据上进行训练，但它大大超过了机会基线，并在绝对距离和房间大小估计等任务中接近人类表现；表现最佳的开源模型，如LLaVA-NeXT-Video-72B和LLaVA-OneVision-72B，取得了有竞争力的结果，仅落后Gemini-1.5 Pro 4%-5%。然而，大多数开源模型（7/12）都低于机会基线，暴露出视觉空间智能的明显缺陷。

大模型觉醒空间意识？李飞飞、谢赛宁再叙空间智能-编程日记

在最新研究中，研究人员还给出了提升大模型空间智能能力的潜在路径。

这项研究系统评估了多模态大模型的视觉空间智能后发现，思维链、思维树、自洽性等常用的语言提示技术不仅没有提升模型在空间任务上的表现，反而会使性能下降，而问答过程中明确生成认知地图则会增强多模态大模型的空间距离能力——使用认知地图辅助空间推理，可使模型在空间任务上的准确率提升了10个百分点。

相关论文已发布，合著作者中不仅有李飞飞，还有纽约大学计算机科学助理教授、CV大牛谢赛宁。

大模型觉醒空间意识？李飞飞、谢赛宁再叙空间智能-编程日记

谢赛宁表示，视觉空间智能在现实世界中的应用，比以往任何时候都更近了。比如AI眼镜，它可以向我们显示去过的地方，还能定位、导航。

李飞飞也表示，在2025年，空间智能的界限很可能会再次突破，“这项名为“Thinking in Space”的研究，是对大模型在空间推理方面表现的评估，而空间推理对人类智能至关重要。”

大模型觉醒空间意识？李飞飞、谢赛宁再叙空间智能-编程日记

视频理解能力无疑是AI大模型的下一个待攻关高地。当前的多模态大模型在2D空间的推理能力不断增强，可以较好地处理语言对话任务和视频图像任务，但在空间认知和理解方面的能力仍未得到充分研究。

空间智能对于模型理解物理世界而言至关重要。

李飞飞对空间智能的定义是：空间智能是机器在3D空间和时间中感知、推理和行动的能力。

在她看来，空间智能是AI领域的下一个前沿技术方向，是她的下一个“北极星”。

李飞飞此前表示，实现AGI（通用人工智能）的关键一环是“空间智能”，尽管OpenAI的Sora模型可以文生视频，但就本质而言，它仍属平面二维模型，没有三维立体理解能力，只有通过空间智能，才能看到世界、感知世界、理解世界并让机器人做事，从而形成良性闭环。

今年9月份，在成功融资2.3亿美元后，李飞飞创办的空间智能公司World Labs正式启动。据介绍，World Labs的目标是开发一种能够理解实体世界的模型。今年7月，有消息称在完成两轮融资后，World Labs的估值已超过10亿美元，该公司的投资机构可以说是耳熟能详，包括安德森•霍罗威茨(Andreessen Horowitz，又名a16z)、Adobe、AMD、Databricks、英伟达、AI基金Radical Ventures等。

大模型觉醒空间意识？李飞飞、谢赛宁再叙空间智能

FF再获3000万美元新一轮融资第一笔资金已完成预付

科大讯飞旗下星途机器人公司经营异常

最新文章

IDC：2024年全球智能扫地机器人市场出货量同比增长11.2%

世界互联网大会亚太峰会将于4月14日在香港召开

量化私募巨头纷纷宣布布局AI大模型，会有新的DeepSeek诞生吗？

傅利叶开源全尺寸人形机器人数据集，并发布全流程工具链

傅利叶开源全尺寸人形机器人数据集同时发布全流程工具链

浙江：支持汽车置换更新，新能源汽车最高补贴1.5万元/辆

浙江：支持汽车置换更新新能源汽车最高补贴1.5万元/辆、燃油车最高补贴1.3万元/辆

浙江：积极发展直播电商、即时零售、社区团购、兴趣电商等新型消费业态

苹果手机将出超薄新版本？17 Air或是苹果首款无端口手机

国家统计局数据显示，1-2月份，新能源汽车、3D打印设备、工业机器人产品产量同比分别增长47.7%、30.2%、27.0%

标签

关注我们么么哒！

大模型觉醒空间意识？李飞飞、谢赛宁再叙空间智能

FF再获3000万美元新一轮融资 第一笔资金已完成预付

科大讯飞旗下星途机器人公司经营异常

猜你喜欢

量化私募巨头纷纷宣布布局AI大模型，会有新的DeepSeek诞生吗？

傅利叶开源全尺寸人形机器人数据集，并发布全流程工具链

傅利叶正式开源全尺寸人形机器人数据集Fourier ActionNet并发布全球首个全流程工具链

小K播早报|中办、国办：促进“人工智能+消费” 英伟达GTC 2025举办在即

科技早报 | 百度上线文心大模型4.5和X1；Crew10任务飞船成功接驳国际空间站

清华团队开源大模型推理引擎“赤兔Chitu”；福达股份进军机器人｜数智早参

提前免费，百度重大发布！

百度发布文心大模型4.5、文心大模型X1

百度正式发布文心大模型4.5和文心大模型X1，免费向用户开放

拓斯达：公司X5平台可打通具身智能大模型与机器人之间的数据隔阂

马斯克：“星舰”明年底将携带“擎天柱”前往火星

埃隆·马斯克：明年年底，“星舰”将搭载“擎天柱”（机器人）前往火星

最新文章

IDC：2024年全球智能扫地机器人市场出货量同比增长11.2%

标签

关注我们 么么哒！

关注我们的公众号

FF再获3000万美元新一轮融资第一笔资金已完成预付

关注我们么么哒！