最近,人形机器人变得非常火热。2023 世界机器人大会近日在北京开幕,人潮涌动。同时,宇树科技、智元机器人等创业公司,相继发布了自己的人形机器人,当这些站立行走,能跑能跳的机器人真真切切地出现在人们面前时,把人们的期待推向了最高潮。
(资料图片仅供参考)
智元机器人的首款产品:远征 A1。图片来源:智元机器人一直是说起来容易,很科幻,但做起来非常难。哪怕是在不少工厂的流水线里,机器人还是很难适应很多复杂场景。不过自去年底,特斯拉发布了人形机器人 Optimus(擎天柱)以来,人形机器人赛道就在逐渐升温。
那么,为什么人形机器人火了?现在到技术爆发的临界点了吗?相比于工业机器人(是一个比较成熟的赛道,更像传统机械设备),这一波大家对机器人的想象,与工业机器人有什么底层不同?
首先,我们总结说结论,人形机器人赛道之所以变热,核心是智能泛化能力大幅加强,让通用机器人成为可能。以前机器人行业之所以迭代得很慢,是因为每学一套新动作,就需要重新编程一次,只是 " 机械的自动化 "。而现在有了智能泛化能力的突破,甚至只需要语音控制,机器人就能实现新功能,这是从自动化到智能化的底层转变,机器人的通用性被大大增强。
英国机器人公司 Engineered Arts 的人形机器人 Ameca,在接入 Stable Diffusion 之后,可以完成一些简笔画,比如画一只猫。图片来源:Engineered Arts基于这个认知,我们还可以延展出很多新问题:
当机器人触达技术爆发临界点,更智能的机器人能用在哪里?
机器人是否要做成 " 人形 "?
训练数据是瓶颈,数据还能从哪里来?
今天这篇文章,我们就来探讨以上这些问题,不过人形机器人是一个高速发展中的新赛道,很多问题还没有准确答案,对于一些有争议的部分,欢迎在评论区聊聊,Enjoy:
人形机器人是一个大赛道,能带动众多细分赛道。以特斯拉机器人 Optimus 为代表的人形机器人硬件全景图。图片来源:中信证券1
当机器人触达技术爆发临界点,
更智能的机器人能用在哪里?
曾经,机器人是一个迭代速度不算太快的领域,现在的汽车工厂里已有很多工业机器人,并且有着几十年的应用历史,但基本都是非通用智能机器人。
其中的瓶颈在于,像工业机器人这样的非通用智能机器人(往往只是一个机械臂),是在特定场景里做特定任务,各种动作和反应的算法都是写定的,一旦遇到新的情况或环境,如果没有预先写好算法,就会立即变成 " 智障 "。
如今有可能出现真正的通用机器人,这也极大扩展了机器人潜在的应用场景。以往工业机器人只能在流水线的单点上,比如拧好某个螺丝,或是组装好某个部件,但如今有了通用机器人之后,只需要让机器人学会安装逻辑和评估标准就可以了,并且它不仅可以拧好螺丝,当螺丝用完了还可以自己从仓库里取来,或是给机器人装上灵巧手,它就可以使用一些工具,来处理螺丝之外更复杂的事情。
此外,结合 LLM 我们还可以实现语音控制,只需要说出 " 请给我拿杯水 ",先把语音转换成代码,再把代码转换成机器人的动作。这不是影视剧里很遥远的事情,而是正在发生的。今年谷歌发布了 Robotics Transformer-2(RT-2),微软发布了 " ChatGPT for Robotics " 论文,给整个机器人行业带来了轰动。
今年的这些新进展,与以前 " 每做一套新动作,就需要重新编程一次 " 的机器人,有着天壤之别。未来无论是在工厂车间,还是商场、家庭,都很有可能出现一个通用机器人,它能适应不同的环节,不需要重新编程就能在不同任务之间切换自如。
目前,对于大多数通用机器人创业公司来说,第一目标还不是 ToC,而是 ToB,比如工业或是商业场景。先在 B 端场景中打磨好能力,再最终应用到 C 端,是不少机器人公司的计划。
很多公司都把汽车生产作为首要场景。汽车工厂规模很大,较早实现自动化,其中很多环节已经形成流水线用工业机器人替代,但仍有不少环节需要人工操作。比如在汽车工厂的总装车间,仍然需要大量人力,人形机器人可以替代这些环节,并非替代已经通过工业机器人实现自动化的环节。
智元的人形机器人应用在汽车工厂如果按照马斯克的计划,特斯拉的第一批机器人主要在 B 端应用,替代那些危险、无聊、重复的工作,或是人们不想做的工作。第二批大规模使用的机器人,会拥有在现实世界中的导航能力,也是复用特斯拉电动车的视觉导航技术,无需特定指令也能做有用的事;第三批则是 10 年左右,人们可以在家里使用机器人。
除了汽车工厂,还有 3C 的组装、检测等环节;以及在商业场景中,比如零售业的货架管理、清洁等,也仍有需要大量人工的场景。随着社会老龄化及人力成本的攀升,将有不小的劳动力缺口需要填补。
当然,有些场景也并非一定需要人形机器人,而是根据需求来选择。比如宇树科技创始人兼 CEO 王兴兴曾说,四足机器人与双足机器人相比,具备更高的载荷能力和极强的平衡能力,也更易于控制、设计和维护,在工业端和消费端等都有广泛的应用场景,尤其能在一些危险场景代替人类进行作业。
宇树科技的机器狗可用于消防。图片来源:宇树科技鸿海、软银投资的日本机器人初创公司 Telexistence,可作为商超货架的补货机器人。不过,今天的通用机器人,离真正商业化落地还有诸多障碍。最明显的就是成功率、执行速度和精度都还不太够。比如谷歌的 RT-2 比起 RT-1,执行成功率提高到了 80%,但在实机演示中,还是错误地识别了一罐柠檬味苏打水,说成了 " 橘子味 ";以及被问到桌子上有什么水果时,机器人回答成 " 白色 ",但实际是香蕉。谷歌解释说,因为 WiFi 临时中断,机器人使用了缓存的答案来回答。虽然 80% 的准确率在一些场景够用,但在另一些需要精度的场景仍然不够,比如一些精密仪器的操作等等。
当然,我们说了这么多具身智能、通用机器人,也并不是说原来的工业机器人领域就没有机会了,只是逻辑不同。在传统机械设备领域,仍有大量机器人零部件创新,和国产替代的机会。比如工业机器人的核心零部件减速器,就长期被日本和德国公司垄断;工业机器人整体的国产化率也仅有 35%,特别是在大六轴、汽车 3C、焊接等工业机器人细分赛道,国产化率都是偏低的,结合智能化仍然有成长空间与创新潜力。
2
机器人是否要做成 " 人形 "?
在无数科幻影视作品中,人形机器人一直才是人们对机器人的终极想象,比起工业机器人,人形机器人是一种更高维的存在。但由于实现难度太大,一直不是机器人行业的主要形态,直到最近 1 年特斯拉的人形机器人发布,才成为市场焦点。
市场也存在很多质疑声:到底我们需不需要人形机器人?既然难度这么大,到底需要多少年才能在现实生活中落地?是否应该先从机械狗、多轮底盘 + 机械臂等形态入手,而不是一上来就做人形?
当然这个问题还没有答案,我们看到谷歌搭载 RT-2 的机器人,就是四个轮子作为底盘 + 一个机械臂,已经能实现很多功能,比如捡起小东西、开窗户或是垃圾筛选。这种单臂、轮式服务机器人不需要灵巧手(利用空心杯电机实现的仿人手设计)、不需要仿人腿的运动控制系统,也能实现很多家庭、工厂场景的功能。当然它也会有限制,比如不能上下楼梯。
Google 的机器人就是轮式底盘 + 单臂 + 摄像头的形态。图片来源:Google Deepmind当然,我们的观点是人形肯定是终极形态,因为我们相信最终机器人是会进入千家万户的。但根据不同场景需求,其他形态的机器人也会共存,比如不一定是双足双臂,更早到来的可能是轮式单臂。
人形的好处是:首先是应用范围。如果用终局思维来思考,人形机器人的应用范围肯定是最广的,因为人形才是最适合社会中所有场景的形态,我们所有的建筑、工具等等,都是基于人类的身形而设计的,所以无需改变场景来适应机器人,就能直接使用人类社会中所有工具。这也符合马斯克所提出的愿景,他希望今后人类不想干的事全都可以交给机器人来干,甚至发掘出目前我们还预料不到的用途。
比如最典型的,就是人类的腿和手,在仿生步态下,机器人的运动能力比传统履带、四轮、双轮机器人都有大幅提升,机器人可以上下楼,可以跳跃过障碍物等等。对于手来说,基于空心杯电机的灵巧手,可以实现双手配合和工具替换,这比起传统的工业机器人,能用更广泛的人类工具,技能更广。
特斯拉使用空心杯电机设计的灵巧手。图片来源:东吴证券其次如果考虑交互," 人形 " 才能传递出的肢体语言、面部表情等等信息。比如在梅拉宾法则中,心理学家就在强调肢体语言的作用。肢体语言也最符合人类的认知,人类无需重新学习任何新东西,就能轻松理解机器人的动作。在结合大语言模型之后,能够更好的与人类交互。
例如英国 Engineered Arts 公司的人形机器人 Ameca,输入了大量真人表情数据,通过立体 3D 打印机制作出精确的模具,实现了生动的面部表情和肢体语言。
英国机器人公司 Engineered Arts 的人形机器人 Ameca,能够在橡胶皮肤上表现出超过 62 种面部表情,这是 Ameca 著名的 " 苏醒时刻 "。我们都知道人形有这么多好处,但对人形机器人最大的制约,还是软硬件技术的高难度,小到每一个关节的设计,再到运动控制、对环境的感知等等,每一个环节都存在技术难题,综合在一起更是对系统的集成度、鲁棒性要求很高。
比如运动控制的标杆波士顿动力,已经成立了 31 年,历经被谷歌收购、被软银收购、被韩国现代集团收购,一直都在不断投入,虽然实现了 " 跑酷 " 等炫酷的功能,但背后是不计成本的投入、功耗极高、噪音很大,离量产落地还差很远。
不过,如果一家公司把最终目标定位成人形机器人,不代表它的产品只有一款人形机器人。在高难度的技术研发中,无论是移动、抓取还是视觉感知等等,都可以在这个过程中迭代出新的产品,而最终把各项技术组合在一起,简单来说就是:人形机器人是最难的机器人形态,谁能做好人形,谁就也能做好其他形态的机器人。
总之,机器人的通用性和智能化是接下来的重点,但不一定非要是人形,当下还需要看场景需求。
3
训练数据是瓶颈
数据还能从哪里来?
能否获得高质量且足够便宜的数据,是当下制约智能机器人发展的瓶颈,也是拉开公司之间竞争的重要手段。
前车之鉴是 Everday Robots,它曾是谷歌的明星独立项目,但在今年 2 月被谷歌因成本控制而解散,并入谷歌其他部门。造成 Everday Robots 成本高昂的一个重要原因,就是数据采集成本过于昂贵。OpenAI 曾经也有一个机器人部门,但后来放弃了,问题也出在数据收集上。
为什么采集成本这么高?主要是因为 Everday Robots 基于真实环境来收集数据。谷歌为了训练 PaLM-E,用了 13 台机器人,收集了 17 个月,才拿到足够的数据量,如果是在更复杂的工业场景,数据采集成本会更高。
目前对于人形机器人来说,主流的数据获取手段有四种:
遥操作数据:这是目前最主流的方式,特斯拉等很多机器人公司都在使用。这种方式基于人工遥操作,先学习和分解人是怎么做到的,然后对应机器人要怎么做到。由于是真实世界的数据,所以数据质量最高,但数据采集成本也是最高的。
机器人的遥操作模拟器数据:由于遥操作成本过高,更低成本的基于模拟器,来生产仿真数据也有越来越多人使用。一方面通过合成仿真数据可以大幅扩展数据集,此外仿真场景还可以去补充日常现实中比较少出现的任务。在一些任务中,比如导航或是抓取物品等,仿真表现不错,但在另一些对真实物理数据要求比较高的场景,比如在流体中的运动、或是物体破裂等等,还比较难在仿真里做到。但模拟器不是万能的,如何构建丰富的 3D 内容、如何设置合适的奖励机制等,也是这种方式所面临的问题,当然还有算力成本。
视频数据:鉴于线上视频网站中,有大量第一人称视角的视频,这些视频完全可以让机器人或者 AI 来学习,这些都是很好的人类真实活动的视频,通过这些图像来训练机器人的行为决策,可以快速且低成本的实现数据积累和泛化能力。目前学界和谷歌等大厂,都在尝试这种方式来加快训练。
模仿学习:这种方式还在研究中,就是让人直接在机器人面前演示一遍,机器人就学会了。比如在家庭场景中的一些动作,扫地或是把脏衣服放进洗衣机,可能只需要教几遍,不需要额外采集数据,也不需要动作捕捉。有不少相关的论文已经发表。
总之,具身大数据对于机器人来说是一个重要瓶颈,在缺乏具身数据的情况下,很难训练出真正好用的具身基础模型。
目前在每条数据获取的技术路径上,都有很多公司或高校在尝试,很多公司也是几种方式混合在一起使用,以最快的速度和尽量低的成本来获取高质量数据。
今年,机器人在真实环境中的规划、感知、决策、执行等能力大幅提升,通过语音直接控制成为可行,人机交互也大大增强。在这种智能化、通用性的发展趋势下,通用机器人的应用领域被大大拓宽,人形机器人的商业化也成为了可能。
Ameca 已经可以与人类互动,比如讨论音乐。2017 年 10 月,Ameca 成为沙特阿拉伯公民,这是世界上第一个获得国籍的机器人。图片来源:Engineered Arts通用机器人还将带来工业制造能力的腾飞,从以前只能机械完成代码指令的工业机器人,变成能使用大量人类工具、载具的通用机器人。而在工业制造领域,无论是在机器人零件端,还是工业制造的应用场景、训练所需要的数据成本等方面,中国都更具优势。
在 ITF World 2023 大会上,英伟达创始人黄仁勋说,人工智能的下一个浪潮将是具身智能,即能理解、推理、并与物理世界互动的智能系统。而通用机器人,无疑是最理想的载体。