财联社9月29日讯(记者 汪斌 罗祎辰)身高一米七、体重60千克的五八智能科技人形机器人,正在展区演示如何进厂“打工”:物料搬运、精密加工、扫码贴纸等样样精通;特斯拉人形机器人既能手握鸡蛋,也能搬运重物,在举重若轻和举轻若重之间游刃有余;宇树科技的人形机器人不但起坐自如,还会敲核桃、开瓶盖以及进行电焊作业……至于端茶送水、按摩、拥抱、清扫垃圾等技能,对人形机器人来说早已不在话下。

近日,第三届全球数字贸易博览会(简称“数贸会”)在杭州举行。值得关注的是,今年数贸会首次设立机器人专区,实现35家以上机器人企业齐聚、60个以上智能机器人齐展、20个以上互动场景落地,涵盖人形、云端、工业等全模式机器人。其中,具身智能新产品凭借亮眼表现,占据人工智能展区的绝对“C位”。

2024年被业界广泛认为是具身智能的元年。财联社记者发现,现场的机器人越来越“类人”,其功能也正从炫技走向服务。多家参展的人形机器人企业告诉记者,人形机器人有望3-5年逐步走进“寻常百姓家”。但科大讯飞(002230.SZ)机器人首席科学家季超对记者预测,“可能近10年内人形机器人都不可能进入到家庭。”

人形机器人是否必须“像人”?

“我们认为具身智能将会是人形机器人最后一块技术拼图,这也是刚刚起步。”数贸会期间,在由杭州市会展集团和蓝色光标集团主办的Transform·2024全球数字生态大会上,人形机器人(上海)有限公司首席科学家江磊如是说。

然而,对于人形机器人外观是否必须像人的问题,与会专家却持有不同观点。现场总体来看,“一脑多形”的看法在此次讨论中被广泛接受。

江磊认为,人类花了几百万年才从四肢行走进化为直立行走,解放了双手和大脑,但人类的大脑只发展了一万年左右,就创造了现在的人类文明。因此,具身智能和进化理论有关,可能是人类形体逼出来的智能。其强调,具身智能是嵌入在物理实体的智能,研究人形可能是这场科技革命所有的出发点;如果不坚持这点,或许后面研究的所有动力都是不足的。

“今天大家在讨论用具身智能来解决未来的问题,而不是用具身智能解决我们过去的问题,这是一个很重要的出发点。” 江磊指出,目前看到的人形机器人也只能是“简单像人”,“逼近像人”根本还不存在。

在银河通用合伙人张直政看来,人形机器人不必在所有的场景、所有的行业都具备拟人形态,但是要有类人甚至超人的能力。“发展和制造机器人是希望拓展人的能力,帮助完成一些人达不到的事情或者取代人去做一些危险的工作。我们会深入地思考每个行业的需求是什么样的,再结合行业需求设计对应的硬件形态,再配合大模型通用泛化的能力给大家提供实际有效的帮助。”

埃斯顿酷卓创始人、总经理李远平表示,在不同的场景下,具身智能的形态需要依据任务、场景来定义优化,即“一脑多形”。他举例,在家庭中,人形的形态还是很重要的;但回到工业领域,确实人形特别是下半身肯定不会成为主流形态。”不过,他认为人形机器人是比较终极的形态。

“我们更愿意称人形机器人为通用机器人。它是否像人我认为并不是关键,关键是要在自由度、硬件上达到和人一样的灵活程度,只要能完成相应的任务,同时又具备一些泛化性,同时在一些场景下投入、产出能够正向测算出来,我们认为其实就可以了。”季超说。

大模型让AGI理想照进现实

具身智能的爆火,离不开这两年大模型及生成式AI的爆发。

具身智能的架构主要包括大脑、小脑和肢体三个重要部分。其中,大脑负责感知和决策,小脑控制肢体生成动作,肢体则通过传感器、执行器等硬件设备与物理世界进行交互。而大模型的出现给机器人装上了“大脑”,使其获得自然语言能力。

更重要的是,大模型还极大降低了机器人的使用门槛,有望推进机器人在各行各业落地。智谱AI COO张帆在会上表示,ChatGPT的现象级增长显示了大模型的潜力,预计未来80%以上的企业将应用大模型。

记者了解到,过去大部分机器人从业者都在关注机器人运动控制,具身智能当时的泛化性并没有因为大模型的出现真正达到可应用的门槛,所以大模型出现无疑是将链条补足了最后一公里。在大模型的加持下,无疑是将具身智能和机器人的运动控制进行了深度耦合。

张直政直言,“有大语言模型之前,大家谈AGI(人工通用智能)只是一个理想。但是大语言模型成功以后,大家对AGI就有了信心。”

“我们认为大模型给具身通用机器人带来了非常大的提升空间,首先大模型的思维链可以显著提升机器人在开放场景、复杂任务下的理解能力,能够真正提供基于常识的推理;第二是感知和行为能力的提升,通过具身智能的技术,包括具身数据集持续有各行各业机器人从业者的共同努力,我们认为具身感知和行为决策模型极大地提升了当前具身通用机器人在真实场景下的多模态感知和理解能力。” 季超表示。

他还提到,科大讯飞的机器人在感知、规划和决策等方面已取得显著进展。

江磊表示,未来机器人将不再依赖复杂的代码编程,而是通过语言大模型实现自然的人机交互。正因如此,现在几乎所有人形机器人公司首选方式就是用大语言模型来驱动,“国内在这方面的研究正逐步走向成熟,未来的发展路径已越来越清晰。”

李远平则多次提醒“大家短期不要太乐观”,“对于工业领域而言,当前大语言模型当前让我们(感到)很兴奋,但是没有解决我们的痛点。可能还需要几年的时间才会看到一些垂直场景的应用。”

浙江大学人工智能研究所副所长郑小林亦表示,目前AI技术还处于初级阶段。虽然OpenAI和ChatGPT取得了重大进展,但AI的天花板还远未触及,Level 3、4、5的能力还有很大提升空间。

预计近10年内人形机器人无法进入家庭

中航证券在9月21日发布的研报中表示,人形机器人是AI技术落地物理世界的优质载体,近两年通用大模型的发展赋予人形机器人强大的泛化能力,产业进入商业化落地的初级阶段。据其测算,至2030年全球人形机器人需求有望达200万台,对应市场空间超5700亿元。

值得关注的是,下一个最有潜力的AGI应用热点将出现在什么领域?

对此,阿里云智能资深专家、通义大模型企业解决方案负责人傅杰的答案是,简单机械性、文本性工作最容易被AI、AGI替换。“下一个AI或者AGI非常容易爆发的点,就是对于生产力的提升。生产力的提升体现在单机械性、文本性工作最容易被AI、AGI替换掉,从这点来看,AGI就可能爆发一些超级应用。”

长远来看,季超认为,“不管是人形机器人还是其他机器人,最终都希望落地到家庭场景,因为 C端才是智能硬件最大的一块市场,这也是未来的一个趋势。但从发展历程来看,我们认为时间还比较长。人形机器人不可能直接越过行业,直接进入到家庭。它会先在一些行业落地和积累数据,然后随着出货量加大、整机的成本降低之后,再进入到家庭去服务。可能近10年内人形机器人都不可能进入到家庭。”

“落地应用方面,我们认为端到端是趋势,但可能在实现过程中依然有中间版本。所以我们倾向‘通专结合’的思路牵引具身智能进一步落地,通过垂直场景,以通用大模型作为基座,带动数据飞轮效应形成以多模态、具身智能为主体一脑多形的标准解决方案,最终走进千家万户、千行百业。” 季超进一步表示。