本文作者:adminddos

张正涛:具身智能的价值在于真实场景中创造可衡量的成果

adminddos 2025-08-10 13:08:51 2
张正涛:具身智能的价值在于真实场景中创造可衡量的成果摘要: ...

  “2025世界大会”于8月8日至12日在北京经济技术开发区开幕,“AI 大模型赋能机器人与具身智能产业新范式交流活动”作为2025世界机器人大会的专题活动于8月8日同期召开。灵宝CASBOT创始人兼董事长张正涛出席并演讲。

  

  以下为演讲实录:

  非常荣幸有这样一个机会和各位优秀的同行进行交流,我来自灵宝CASBOT,报告的题目是《聚焦场景落地-通用人形机器人》。  

  过去两年,人形机器人行业经历了从迷茫到快速发展的过程。2023年工信部发布《人形机器人创新发展指导意见》时,我们还在观望技术路线和商业模式;到了2024年,产业链突然成熟起来,就像被按下加速键一样。

  政策文件里提到的“大脑+小脑+肢体”关键技术突破,我们深有体会。我们在大小脑性能、成本、稳定性上得到了巨大的提升。另外政策里面也提出了,人形机器人在特种、制造、民生得到了示范应用。 

  灵宝CASBOT机器人的核心特点之一是,我们聚焦工业具身。之前的创业经历我走过200多家工厂,在工业领域,中国的人口结构变化和产业链转移,让具身智能成为新型工业化的重要抓手;而在老龄化社会,机器人的需求更是迫在眉睫。  

  刚才大家反复谈到的人形机器人里面面临的最大问题就是数据,我们讲有真实数据、合成数据,这是大家讨论最多的问题,包括在香港学术圈交流最直接的关系数据的问题。

    我最早做手机和半导体的工业检测设备做了近十年,在早期检测大模型没有出来的时候,核心的难点也是数据问题。当时我们用的也是基于扩散模型的数据生成,我们也做了很长时间的异常检测,包括今年在CVPR针对与异常检测的赛题,核心几乎都是数据生成的问题。

    客观来讲,在某些相对容易进行逼真建模和仿真的任务中,仿真数据对平衡模型性能、帮助模型冷启动具有很大价值。但在泛化性上,高质量真实数据的作用不可替代。具身智能从二维到三维,再加上触觉、力觉等多模态信息,可能需要达到B级规模的数据量才能充分支撑模型发展。  

  我将“构建面向真实开放场景的具身智能数据体系”分为几个步骤:

  第一步,通过合成数据让模型尽快上线,缩短从研发到可用的时间;

  第二步,通过在规模化工业场景中应用,实现从高成本的遥操作向低成本无感数据采集的转变,这才是实现L0至L2级商业化的可行路径。但当前的数据采集仍面临一些挑战:仿真场景与实际场景存在差异;高质量数据(触觉、滑觉、力觉)采集困难;动作描述语言单一。这些问题都会导致采集数据的有效率偏低,也是亟需解决的瓶颈。

  海外案例中,一些头部企业的做法值得我们思考借鉴。特斯拉将高质量的遥操作数据与FSD系统深度结合,形成了与国内很大的差异。常有人质疑遥控器操作模式,但关键是能否用端到端的方式在工厂中真正完成任务,而不是依赖传统的“视觉+四自由度机械臂”模式。特斯拉利用大量高强度的数据采集,即便是看似简单的动作,也能处理例如极小间隙的装配,并在出错时进行自主恢复。如果用端到端模型实现,这种能力极具突破意义。

  波士顿动力在现代工厂的自主性表现同样出色,特别是在低层任务中,例如保持下肢平衡搬运现代汽车部件,这些自主化作业亮点值得关注。但必须承认,在非结构化环境下,机器人整体效果仍有差距,这也是全球具身智能产业期待突破的里程碑。

  FigureAI提出的快慢Helix模型在行业中产生了积极影响,将云端“慢思考”和VLA本地快速作业结合,形成了一种值得参考的模式。

  接下来为大家介绍下我们公司的情况。灵宝CASBOT成立于2023年8月30日,核心团队来自中国科学院自动化研究所。我们的目标是将科研成果集中承载在一个人形机器人系统中,推动科研成果的应用转化落地。目前,我们有三条核心产品线:全尺寸双足人形机器人、轮臂式人形机器人及灵巧手,主要应用在工业质检、矿山作业、文旅教育、商业服务以及家庭场景。

  产品形态方面,全尺寸双足人形主要应用于文旅、展厅、商场等交互场景;轮臂式人形更适合工业作业;灵巧手则具备精细化操作能力。CASBOT SE在今年的人形机器人半程马拉松比赛中上完成了8公里无失误行进。我们于2024年11月发布的首款全尺寸人形机器CASBOT 01身高1.79米,重量80多公斤,春节期间在五棵松的机器人庙会上与公众做“剪刀石头布”游戏互动,也在今年论坛上接连承担迎宾、主持等任务,全方位展现了其深度感知、人机交互和全身运动控制的稳定内核。

  今年6月,我们发布了第二代全尺寸双足人形机器人产品CASBOT 02,定位为双足轻量化机型。其身高约163cm,体重约55kg,搭载275tops大算力芯片;同时,硬件端配备有RGBD相机、IMU传感器及麦克风阵列,通过视觉与听觉的双重感知,令机器人具备人脸追踪与声纹识别技术,可实现“专属跟随”与“听声辨人”,即使是嘈杂环境下也能稳定识别用户指令,提升交互沉浸感,适用于多种人机交互场景,覆盖用户群体更广泛。在场景应用方面,面向科技馆、展厅、商场、4S店等场景交互娱乐、教育科研及个人技术爱好者打造,CASBOT 02可担任导览讲解、迎宾接待、互动展示等角色,并支持未来多场景多模态的应用场景拓展。

  核心技术能力上,我们将具身智能能力拆解为六个核心环节:高质量的多模态数据集、轻量化VLA模型、VLA+强化学习后训练、多模态大模型后训练、生成对抗模仿学习+强化学习运动控制模型、导航大模型。目前已结合多种采集策略,采集约50万条真机数据、800万条人类视频数据及1亿条仿真数据,构建了高质量多模态基础数据集。我们的数据集致力于解决以下三方面问题:

  1)实现生产与数据采集同步,降低人工采集筛选的成本与效率损失。

  2)实现沉浸式数据采集,具备主动视觉、目标搜索与人眼注视点捕捉能力,支持语言与视觉多模态标注,提升标注效率(二维曲线数据已实现语言交互标注与自标注)。

  3)开发轻量化本地可运行的VLA模型。当前采用的模态分离多阶段轻量化VLA模型在测试集榜单排名第一。

  针对精细操作(如穿针引线)的挑战,我们在硬件极限基础上,率先实现了VLA模型结合强化学习后训练的技术路线。通过优化强化学习策略与奖励函数,结合人类初始引导与在线微调,真机强化训练40-90分钟后,在八项精细任务中成功率接近100%。在长程复杂任务仿真中,大模型结合强化学习后训练的解决方案同样位居前列。运动控制上,我们结合模仿学习与强化学习,实现了拟人直膝行走与户外行走能力。自主导航方面,我们集成了自2013年以来的关键技术,包括自主式场景数据获取、完整化三维几何重建等,并应用在CASBOT 02上。

  在人形机器人的应用落地上,我们主要聚焦三个方向:

  第一,具身质检。依托十年的仿生视觉技术积累,结合亿级高质量数据和VLA操作方法,实现对曲线与微小缺陷的精准识别,显著提升检测效率和一致性。

  第二,矿山安全。针对地下两千米的高危环境,我们提出了“井下具身机器人+智能装备+智能开采平台”的无人化总体架构,为200多万矿工的生命安全提供保障。

  第三,商业及家庭服务。我们的最终愿景致力于让每台人形机器人走进每个家,服务于人。

  我始终相信,具身智能的价值,不在于舞台上炫技,而在于真实场景中创造可衡量的成果。灵宝CASBOT会持续在具身质检、具身矿工、商业及家庭服务三大方向深化布局,推动产业化进程,并以科技向善为理念,服务社会发展与产业升级。

  谢谢大家!

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

阅读
分享