中科院研究员蒋树强:具身智能要能在真实世界帮人完成复杂多变的任务

adminddos 1 0

“我们需要思考两个问题。一个问题是,现在人工智能的技术是什么?我们怎么样来实现它?另一个事情就是,我们人的智能到底是什么?它是从哪儿来的?机器到底能不能模仿它或者重建它?而具身智能非常值得作为一个参照体来思考这些问题。”日前,中国科学院大学“拔尖计划2.0”计算机科学与技术学科国际暑期学校开班,CAAI(中国人工智能学会)具身智能专委会主任、中国科学院大学特聘教授、中国科学院计算技术研究所研究员蒋树强围绕具身智能的内涵、技术与进展与同学们进行探讨。

中国科学院研究员蒋树强(国科大供图)

具身智能是指通过身体与环境互动来实现的智能,具有主动性、交互性和情境化的特点,是人工智能走向物理世界的核心关键,当前受到学术界和产业界的广泛关注。

关于具身智能,蒋树强认为有三个关键词:第一个是身体,第二个是和环境进行互动,第三个就是智能。

“顾名思义,具身智能要具身化,要有一个身体。它还要情境化,和真实世界相结合。要具有一定的主动性,能够相对自主地去完成一个任务,而不只是被动去接收一个指令然后去完成。在这个指令下面,它需要去完成一个它更想要的、更理想的结果。此外,它还要具有一定的交互性,和环境进行交互,就像人类一样和这个世界有各种各样的交互,不管是和环境还是和人。”蒋树强表示。

2025年7月26日,上海世博展览馆,最具产业想象力的场景藏在“智造车间坊”,身着工装的人形机器人化身“产业工人”,在绿色传送带上有序搬运物料、模拟装配流程。澎湃新闻记者 朱伟辉 图

蒋树强报告中提到,人类在肌肉和骨骼方面并没有什么特别,但人类的大脑把人类与其他所有物种区别开来。人类的智能有一定的独特性,所有认知的形成都是和环境交互有很大关系。

“关于具身智能,现在经常讲的是大脑、小脑和本体。本体的话,现在的机器人发展非常快,为具身智能的研究提供了很好的支撑。而具身智能的大脑、小脑、本体是紧密耦合、互相支撑的。具身智能不是只在大脑中完成的事情,它一定是要和小脑和身体联合在一起去做一些事情,脱离开身体的纯粹的大脑能力不一定能够很好完成具身智能的任务。”蒋树强表示,具身智能一方面要有身体的一些能力,包括运动系统、感觉系统还有控制器等。另一方面,还要有人工智能的算法,包括机器学习、推理、自然语言对话等等。

此外,蒋树强指出,在训练数据的时候,身体非常重要。身体的结构、形态、感知器与行为能力共同构成智能的一部分,对智能的实现具有重要影响。身高、肢体结构、感官分布等决定了智能体如何感知和理解世界。如果要训练一个模型,一米七的机器人和一米八的机器人,数据是不一样的,摄像头图像是不一样的,抓取的姿势不一样,抓取的三维空间位置都是不一样的。

蒋树强指出,具身问答也是当前具身智能一个非常重要的研究内容。

具身智能就像人类一样,可以在环境中走来走去,可以去感知环境,可以和环境进行交互。与具身智能相对的是离身智能。离身智能是有一个输入,有一个输出,实际上是和真实世界脱节的。

“在具身智能之下,有了具身问答。就是在环境中走一走,然后问一下这个房间里到底有没有一把雨伞。可能一开始并不知道有没有雨伞,但是这样逛一逛,找到了答案。或者问这个房间里是穿蓝色衣服的人多还是穿白色衣服的人多,类似这类问题,它可能不一定直接回答,要走一走看一看可能才能回答。”此外,蒋树强表示,具身智能还有非常重要的一件事情,就是它会在环境中不断进行学习来提高能力。机器的学习和人类的学习机制是非常不一样的。人是在试错中去进行学习的,在环境的交互中来进行学习的,在不断尝试过程中进行学习的。

蒋树强

互联网上的数据能不能直接应用在具身智能中?蒋树强认为它肯定是可以借鉴的,可以做支持的,但是还不能直接用在具身智能中,“因为网络空间和真实世界还是有很大的一个区别”。

“有人讲,到了十年之后也就是21世纪30年代的时候,地球上会有几百亿个机器人,比人类的数量还要多,这件事情是可以值得去期待的。但是,它一定是能够在真实世界中帮我们去完成一定的任务的。这些任务是复杂的、多变的,它不像下棋一样,只是在一个有限空间中去做这样一件事情就行了。”蒋树强表示,现在的具身智能看起来很酷很炫,但是还是要反思一件事:它有没有真正使用到我们的生活中?答案是还没有。

蒋树强认为,从技术的demo到它形成产品还有比较长的路要走。现在有很多机器人的演示都是可以通过摇操实现的,一旦让它在真实环境中,就没有那么容易了。所以,需要付出大量的劳动去开展工作。

“人类是生活在一个物理世界中,我们也希望人工智能能够在这个三维的物理世界中真正为我们服务,所以具身智能是非常值得我们去期待的。”蒋树强说。