“下一波人工智能浪潮,具身智能会是一个非常核心的方向,相当于是连接了虚拟空间和真实空间的桥梁。”在刚刚结束不久的世界人工智能大会(WAIC 2024)上,谈及“具身智能”和“人形机器人”的关联,来自科大讯飞股份有限公司的机器人首席科学家季超说。
过往一年,大模型技术的出现让机器人拥有了“大脑”,实现了知行合一,在物理世界里感知、理解物理世界。如何理解具身智能?人形机器人与具身智能两者之间的关联在哪里?人形机器人落地商业化场景中有哪些难点?
2024WAIC大会期间,澎湃邀请北京大学助理教授、北大-银河通用具身智能联合实验室主任王鹤、科大讯飞股份有限公司机器人首席科学家季超和蓝驰创投合伙人曹巍,做客“元宇宙聊天室”,畅谈当下具身智能和人形机器人的关联,以及人形机器人未来发展的技术路径和当前面临的难点。
以下为直播摘要
具身智能是未来技术发展的趋势
澎湃科技:此次2024WAIC,具身智能的概念非常火,各位是如何理解具身智能这一概念的?具身智能和人形机器人之间的关系该如何厘清?
王鹤:具身智能强调的是机器人的智力能力,人形机器人强调的是机器人的本体即身体。这两点结合,与现有的专用机器人相比,具备革命性的下一代机器人就是通用机器人,即具有人形的本体,有极高的灵活度、和人最相似、通用性最好。
具身智能则是在人形机器人的身体之上发展能够根据人们的需求去执行泛化的通用的操作和移动的能力。当具身智能和人形结合在一起,未来会有极大的市场规模。
季超:人形机器人的概念其实在几十年前就已经提出来。具身智能最大的两个特点,一是知行合一,二是让机器人用通用的方式来执行不同的任务、场景。在这个过程中,具身智能和人形机器人结合,我们更愿意称为未来的具身通用机器人,来执行较为复杂的任务。
不过,我们需要区分两个概念,工业机器人或专用机器人和通用机器人是两个概念。专用集成逻辑效率高,但不够泛化;而通用机器人带来泛化性,但效率较低,没有专用机器人那么高。
曹巍:具身智能,是人工智能在物理世界的进一步延伸。具身智能的价值体现在机器人在物理世界里感知、理解物理世界,以及实现了与物理世界高频交互;具身智能作为非常具有特色的技术栈,这几年有很大的变化。
2016年,当时蓝驰创投在投资理想汽车、高端机器人时,看到的变化是机器人在空间定位、导航等技术上的能力在提升,以及激光雷达感知成本的下降;现在机器人有新的技术栈出现,在技术变化带领下,让机器人去理解物理世界、实现高频复杂的交互,这将会是巨大的力量。
澎湃科技:具身智能是不是下一波的浪潮?上一代机器人的技术路径又是怎样的?
王鹤:工业机器人比如机械臂,永远沿着既定的轨迹去操作,是一成不变的,即“专为一件事而生”。效率显然很高,成功率也很高,但除了拧螺丝、移动车门等,它干不了任何其他事情,复杂程度不够。
从专用机器人到具身智能,核心是通过一个身体干很多事情,在这个过程中,对机器人的感知、决策和执行,三个环节都能够泛化、随机应变地去处理。
从感知的角度,多模态大模型是唯一能够应付各种开放环境和开放任务感知需求的。留给我们的问题是如何将大模型技术很好地与具身智能融合在一起。
季超:从本质上讲,具身一定跟本体相关。我们认为,下一波人工智能浪潮,具身智能会是一个非常核心的方向,相当于是连接了虚拟空间和真实空间的桥梁。在这个过程中,特别是以人形机器人为代表的通用机器人能实现具身智能和大模型的结合。
我们认为,未来在一些多品种、少批量通用泛化的场景下,人形机器人有巨大的商业价值。
算账的逻辑也很清楚。过去工业机器人非常核心的效能体现在成本里。未来,一个机器人可以在开放的场景里执行多任务,成本可以得到极大的分摊。从技术的发展演进路线来看,这毫无疑问是未来发展的趋势。
曹巍:工业机器人非常强调围绕现场作业的能力,当通用具身智能机器人真正实现时,机器人将不再局限于原始的精度维度,从而走向更智能的程度,对任务的理解能力和实现闭环的能力都将有巨大的提升。
落地难点:数据、成本、场景
澎湃科技:具身智能的浪潮会持续多久?在这个过程中,面临的技术难点又会有哪些?
曹巍:从具体的落地视角来看,第一点要突破数据。王鹤老师也在最近的分享中强调,数据是人工智能的前提,没有数据,人工智能无从谈起。如何训练数据达到理想的效果,来解决关键场景中的问题,这是目前需要突破的核心问题。
第二点,从项目的角度来看,当前的营销存在许多问题。首先,机器人的结构非常复杂,导致耗电量很高,成本非常昂贵。在落地层面上,机器人的价格昂贵,也过于娇贵,容易损坏。因此,在机器人末端执行上,能在市场竞争力和耐用性两方面都做好非常重要。
第三即对场景的深度理解。
王鹤:对于具身智能快速发展的前沿技术,要考虑技术能否支撑产品。通用机器人和专用机器人不一样,成功率、耐用度都需要技术进一步的发展,才能在专用场景里和专用机器人匹敌。在技术满足产品标准之后,还需要考虑定价问题。比如,现在国际知名英国公司生产的单只灵巧手售价高昂,应用领域也较为单一。我们认为,未来在灵巧手上,要真正实现PMF(Product-Market Fit:产品市场契合度)。
季超:GPT模型的底层逻辑是通过大量数据、算力的堆叠,最后呈现出惊艳的效果。但对于具身智能机器人来说,面临的问题更复杂。
一是数据稀缺,尽管语音和图像数据可以通过互联网获取进行标注训练,但机器人需要的特定场景数据极为稀缺。譬如以谷歌的机器人学习项目为例,通过大量工程师和资源投入,构建了有限的数据集,花了大概一千多万美元,最后才实现了比较好的效果。
另外,算力也是一个不可忽视的因素。现在大家都在讲云端算力,其实端侧算力的压力更大。未来,计算机能力将基于强大的视觉和多模态感知,而不仅仅依赖云端算力。
所以,高端算力芯片的研发是一个亟待突破的点。在此,需要思考如何从应用角度来针对具体的任务构建合适的具身小模型。
我们认为,当前人工智能对数据、算力的要求极大,短期内投入产出的走向可能不会那么正向。
澎湃科技:关于现阶段机器人投入、产出方面,三位能否展开讨论。
王鹤:现阶段我们在思考有没有比双腿落地更成熟、成本更可控的方案。银河通用提出了360°万向轮盘底,它能跪下,抓取地面的东西,当实现大规模量产后,成本可能更会逐步降低。
机器人落地商店、工厂,还涉及到一定的落地部署费用。我认为应该要实现自动部署、开箱即用,把这项成本也省掉。
至于算力成本,未来人形机器人端侧算力芯片是否会继续用英伟达新推出的芯片,还是会出现更好的国产芯片,我们拭目以待。
曹巍:我给大家一点信心,在2016年、2017年时,蓝驰创投投资的一款商业清洁机器人“高仙机器人”,最初售价在五十万元左右,现在,这款机器人的平均售价已经比那时下降了90%。所以,机器人的价格一定会随着传感器成本的下降而下降,中国的制造业非常强大。
季超:研发机器人的目的是替代人,或者帮助人类做事情。机器人可以帮助降低商业运营的成本、提升效能,比如机器人可以7*24小时无休。未来,机器人在工业场景里有大的战略意义。中国有非常雄厚的工业基础和健全的产业链,国内的企业也非常善于把成本降下来。
但我们也要清楚地认识到技术发展的局限性。比如,在六十分的技术基础上,如何通过产品的场景去设计出八十五分甚至水平更高的产品,这才能真正意义上推动人形机器人实现正向循环。
人形机器人当前正处于萌芽期
澎湃科技:李开复此前曾在公开场合提到,他一家人形机器人都没投,他认为没有必要做人形机器人,你们怎么看这种观点?人形机器人的必要性到底在哪里?
曹巍:现在有一派观点较为激进,认为人形机器人万能;另有一派声音比较理性,站在中间,即追求实现通用人形机器人;还有一派比较保守,认为人形机器人没用。我自己保持客观中间的状态。
垂直场景的机器人有些可以成为爆款产品,它们也将参与到市场竞争中。但我们不能因为人形机器人在某些场景中难以应用,就认为它们没有竞争力。王鹤老师提到,人形机器人以其超强的通用能力和场景适应性,满足了人类生活场景的需求。未来,我们可能会看到人形机器人操作工程器械或使用尚未智能化的工具,这将是一个令人兴奋的发展。
同时,我们也必须认识到,人形机器人的发展速度可能并不像我们期望的那样快。因此,希望大家能够客观地、基于需求特点和机器人技术发展的路径与节奏来看待这个问题,不应过于保守,也不应过于激进。
王鹤:我的看法是永远不要对短期科技的爆炸产生过高的期待,但也不要忽略远期科技的成长将会带来的巨变。人形机器人在今天还处于萌芽期,在未来三到五年时间内,可能会在一系列需要柔性操作的场景里看到它。
季超:不要对当前的技术爆炸的现象产生过高的期望,这样会产生泡沫,但泡沫也有好有坏。
技术的发展是一个螺旋式往上发展的过程,近期,我也正在参与关于人形机器人和具身智能结合关于标准的界定。从另外一个视角来看,首先大家对于人形机器人的通用技术规范概念的界定还不够清晰。还有,具身智能的概念到底是什么?在这方面,大家的认知还没有统一。
从产业的视角来看,我们比较明确的衡量标准,是能否以客户为中心的目标场景下,能够完成当下技术颠覆。
另外,我们一直崇尚的是,从研究中实时追踪最先进的技术,去产业中探索颠覆式的技术。
现在机器人的硬件成本售价在不断降低,前几年大家看到先进技术愿意为其买单,这种买的其实是“智商税”,买的是价值认知。现在,真正的技术应用落地正在发生,产业界对此也非常兴奋。长期来看,一定会有更加颠覆性的技术产生,也会出现颠覆性的产品。