人形机器人突进与阻力的较量
导语:“人形机器人”,如今在外界眼中,简直是“冬天里的一把火”。暴雪加寒潮,是这几天的天气特色,而人形机器人概念股,却火热得很。 寒潮天气来临前,人形机器人的专属新政出炉了。11月2日,工信部印发了《人形机器人创新发展指导意见》(下称“意见”)。 意见描绘出人形机器人的可期前景,甚至给出了确切的时间表。意见提出,到2025年,人形机器人创新体系初步建立,并实现批量生产;到2027年,综合实力达到世界先进水平。 人形机器人的赛道,如今热闹喧嚣了很多。但在外界眼中,那群长期探索中的知名从业者们,他们浸淫多年的感知和逻辑,却依然影影绰绰,犹如迷雾一般。 源于此,笔者将两个多月前的世界机器会期间,智创未来人形机器人技术与产业发展论坛上,专家、学者以及企业家等的演讲以及对话等内容进行编辑,梳理出赛道内权威人士的所做所思所想,以供参考。 01 未来最大变量? 黄晓庆缔造达闼科技已有8年之久,他有一个深切感知——“机器人为什么必须是人形”,是机器人行业一直争论的问题。 黄晓庆是达闼科技创始人兼CEO、中国云计算专委会副主任。他喜欢从过往找答案。 一百多年前,福特梦想造一辆“不用马的马车”,从model A一直制造到model T,世界汽车工业也由此开始。 人形机器人诞生至今,也已走过上百年的漫长岁月。演变期间,有潮涨潮落,但从未止息。 黄晓庆看到,日本自1973年造出第一台人形机器人后,研究从未中断,即使在“福岛事件”后进入低潮期,也并未停止;另一个“工业强国”德国,也同样对人形机器人的研究孜孜以求。 “人形机器人,将是未来人机共存的第一选择。”黄晓庆判断。他认为,机器人的发展演进,与AI发展从专用小模型到通用大模型的转变类似,路径是从专用机器人到通用机器人。这一前提下,人形机器人同时具备:自动适应人类环境、使用人类工具、进行自然语言交互三个特点。 姚期智是2000年图灵奖获得者、中国科学院院士、清华大学交叉信息研究院院长。他最近在思考:人工智能的下一步是什么? “未来的AGI(通用人工智能),需要有具身的实体。”姚期智思考过后得出结论。 姚期智说,人类本身,是世界上相当理想的一个具身智能体,其基本具备三个成分,即身体、小脑和大脑。其中身体的部分,应该就是人形机器人。 丹尼斯·洪(Dennis Hong)是美国加州大学洛杉矶分校教授、RoMeLa实验室创始人,他从小就痴迷机器人,长大后延续了小时候的梦想。 丹尼斯·洪还是小孩时,就梦想和机器人一起生活。他发现,家庭环境是为人设计的,比如楼梯、门把手等都是由人来使用,因此他认为,机器人最好是人形的。“过去二十年当中,我们都专注于人形机器人的研究。”丹尼斯·洪说。 马克·雷伯特(Marc Raibert)是美国波士顿动力公司创始人兼首席执行官,他是有名的长期主义者。他认为,机器人人工智能,由运动智能和认知智能两部分组成。认知智能是人类头脑思考中的意象。运动智能涉及如何使用自己的身体。 马克·雷伯特发现,人类拥有非常高超的运动智能,哪怕仅仅几岁的孩童,也具备这一智能。于是,他试图赋予机器人运动智能。 宇树科技创始人兼首席执行官王兴兴坦言,“前几年,我个人有点悲观,我甚至觉得世界科技已经停滞,红利殆尽”,然而从去年底开始,他重新燃起了斗志。 这源自于通用性AI进展,远超他个人预期,他感受到,目前通用人形机器人需要的AI,已经慢慢趋于成熟。去年底,他们立项做通用人形机器人。 “未来五到十年间,新工业、新经济增长,都会诞生,”王兴兴说。 王兴兴认为,人形机器人与通用AI结合,是未来整个人类科技和经济增长最大的变量。 02 坚守者的野望 周剑称,很多年前他就提及,人类需要人形机器人来赋能生活。 周剑是优必选科技创始人、董事长兼首席执行官,优必选则是他缔造的一家人形机器人公司,在该领域沉浸已有11个年头。 在周剑看来,人形机器人并不缺应用场景。 在工业场景当中,他看到,如今几乎所有的汽车生产线,ABB、库卡用工业机械手臂到最后汽车组装线,集体上阵的情况下,现场依然有大量工人。很多头部企业拥有几十万规模的生产线工人。这个未来可以由人形机器人去替代。 “人形机器人和传统智能化的设备去协作作业,用来解决复杂场景的柔性无人化的工厂,这才是未来机器人或者汽车智慧的超级无人工厂。”周剑说。 未来市场空间到底有多大?周剑预估称,目前一个拥有50万工人的汽车工厂,如果能节省10%的工人数量,就是5万人,按每人节省6、7万美金来算,这意味着,一个To B的工厂可能有几十亿美金的市场。 在生活场景当中,这里到处都要符合工程学,人形机器人尤其适合,在这一环境里陪伴人类,一起工作、学习、生活。 尤其是AI大模型的不断发展之下,不同的大学、科研机构、公司,都用AI大模型,让梦想不断照进现实。 王兴兴认为,去年开始,人形机器人越来越火热,这与马斯克的身体力行脱不开关系,国内资本层面也与国外进行了对标。过去该领域与低谷,已循环了很多个周期。“很难想象,十年前,AI是个冷门行业,如果不是去年生成式AI出现爆发性增长,可能AI又进入一个新低谷时期,但是,现在整个AI迭代速度已越来越快。” 马克·雷伯特和其团队的研究,可以追溯到15年前,他们开发了各种各样的机器人,比如大狗机器人、野猫机器人、spot机器人、物流机器人stretch、人形机器人Atlas等等。 马克·雷伯特将三个机器人,代表了波士顿动力公司的今天、明天和未来。其中正在开发的人形机器人Atlas代表未来。spot机器人和物流机器人stretch则分别代表今天、明天。 “人形机器人Atlas,我们管它叫未来机器人,因为目前它还算不上真正意义的机器人,”马克·雷伯特说。 Atlas机器人有一个机载的计算机,还附有电池,四肢上大概有28个不同的传感器或者一个视觉系统,可以帮助它看到前方的地形。马克·雷伯特透露,最近他们正在研究Atlas的移动操控能力。 马克·雷伯特认为,硬件工程,对于未来的机器人技术非常重要,它和软件同等重要。“有人认为,软件可以克服硬件上的所有问题和限制,但我个人并不赞同。我认为,只有最好的硬件设计师和软件设计师倾力合作,才能够设计出世界上最好的机器人。” 除了运动智能,认知智能也同等重要。马克·雷伯特表示,他们创立了一个新的机构叫人工智能研究院,在现代集团的支持下,该院致力于具有运动智能和认知智能的智慧机器人。 丹尼斯·洪则讲述了“ARTEMIS”人形机器人研发过程的波折。它花了团队6年时间研发出来。2018年,它仅仅是停留在纸面上的一个简单草图。2019年,众筹到12万美金开始启动。2020年疫情来袭,项目刚起步,实验室却关闭。“但是我们没有就此止步,在家里继续研究,在寝室、卧室里,开着线上会议……”丹尼斯·洪回忆称。 丹尼斯·洪进一步回忆说,“2021年1月,动态评估期;2月,第一次让它站起来,好像不太成功;3月,第一次开始让它做平衡工作,做推、拉,让它地面开始震颤,进行站稳、平衡等各种实验……2022年10月,它第一次稳定地走路,这是一个非常重大的成功;12月,第一次出现严重的故障,这对于通过力控制的机器人,如果有问题就会失去平衡,几乎是自我摧毁,当时给我们很大的打击,后续给样机修理,花了很长时间。” 今年3月,“ARTEMIS”人形机器人正式发布,其特点就是,在极度的踢打测试中仍能保持平稳,奔跑速度达到2.1米/秒。它可以踢足球,还参加了2023年机器人世界杯足球赛。丹尼斯·洪说,比赛结束后,他发现比尔·盖茨关注了他。 03 突进与阻力的较量 近年来,出现众多知名厂商放弃,或暂停多年研发成果的现象。比如,去年3月,本田Asimo正式宣布退役,其经历14年的技术攻关后才诞生,之后的命运却是,诞生12年、经历七次迭代,最终结束生命周期。那之前,软银Pepper机器人于2021年已经停产,只存活了6年。 究其原因,“先烈们”折在了两点上,一个是功能未达客户可以买单的要求,二则是成本过高。 早年间,最基本的一体化关节,都要成立专门的公司,但近年来,智能制造以及工业机器人的长足发展,使得上下游产业链极大拉通,用产量来降低成本,正在照进现实。 除此之外,ChatGPT引发的生成式AI热潮,也为其打开了一扇新大门。 王兴兴是新进者,他看到,现有大模型技术可以直接拿来用,或移植,或裁剪,对于人形机器人来说,只要一个小模型或中等模型,就足够了。 日本大阪大学教授Hiroshi Ishiguro,对未来的一个畅想是,人类会使用各种不同的机器人以及替身,帮助展开各种活动。这意味着,人类想要发展人类与机器人共生的社会,而不是发展仅仅由机器人支持的社会。 启动交互式机器人项目20多年来,Hiroshi Ishiguro制造了许多的机器人、类人机器人、替身以及计算机图形替身。 Hiroshi Ishiguro的感受是,得益于大语言模型的问世,他们可以重点研究机器人更高层次的语言认知的功能。 他进一步称,通过融合大型语言模型与面部表情、手势等机器人的技术,他们可以研究许多模态的集成和多模态的表达,然后可以将意图或者,赋予机器人或类人机器人。 “我认为,意识是未来10年当中,最重要的问题之一,”Hiroshi Ishiguro说。 黄晓庆认为,机器人是人类的第三台计算机,未来机器人的编程和安卓手机、windows PC的编程没有本质区别。“ChatGPT的出现、5G的发展,开启了一个用人工智能和云端机器人技术,来解放生产力的时代,这是一次非常重要的工业。” 突进之下,阻力也显而易见。 黄晓庆看到,目前大模型缺乏机器人数据,没有足够多的行为数据,就没办法支持机器人的控制。需要把更多行为数据融进去,进行二次训练,等机器人有了行为能力、空间能力,就可以进一步加快多模态大模型,可以叫它robot GPT。 “robot GPT是机器人的大脑。”黄晓庆说。 英国曼彻斯特大学终身教授、吉林大学唐敖庆讲席教授任雷,二十多年来,他同时在做两件事,一是仿生机器人,二是科学。 任雷的深切感受是,目前仿人机器人跟人类相比,在运动性上相差太远,包括它的运动经济性、运动机敏性、运动多样性、环境适应性和运动的可塑性等等。 “现在我们把目光又转向到了,是怎么设计的,能带来哪些启示,能不能有一条新的仿生的技术,带来新型的仿人机器人,这是我们团队目前在探索的。”任雷说。 德国慕尼黑工业大学教授Alois C. Knoll认为,人形机器人目前主要的障碍,在形态上。现在做一个数据中心的计算机比较容易,但做一个机械臂,让其能完全模仿人的手臂,就比较困难,所以让机器人像人一样行走,也比较困难。 另外,Alois C. Knoll说,能源供应等问题,也需要新技术突破。还有一个较为遥远的难题,即如何让系统开发出一个自己的智慧,比如有自己的感知或灵魂,这涉及伦理问题。 王兴兴说,通用大模型本身,不是给通用机器人用的,其目前已把文本或文字逻辑处理好了,但它是静态的,它对环境认知和感知基本是零。没办法认知物理环境,就没法抓取,做一些操作。 王兴兴看到,谷歌对此事非常用心。十年来一直在做机器人AI相关的事情。“大家现在非常希望,给人形机器人或通用机器人,做一个专用的大模型出来。” 清华大学交叉信息研究院助理教授、星动创始人陈建宇认为,当前机器人技术在硬件和软件等方面都取得了长足的发展,但是仍然存在许多技术瓶颈。比如在硬件方面,机器人需要兼顾力量、速度、精度和成本等因素,但目前没有一种技术能够同时满足这些要求。例如,液压技术力量和速度强,但成本高,而高减速比谐波电机技术虽然精度高但灵活性有限。因此,目前的解决方案是平衡各种技术,根据不同的应用场景选择不同的技术路线。未来,人们希望出现一种新技术,能够像人一样兼顾所有因素。 陈建宇发现,软件也存在很大问题,目前还无法很好兼顾其泛化性和控制的任务操作的精巧性,比如谷歌Robotic Transformer系列,可以做到很泛化,但是控制的精度比较低,控制频率就很低,做任务基本在操作控制层面,做相对简单一些的任务。 陈建宇还看到,安全性的问题。实验过程中出现的各种问题,具备一定的可解释性,但如果用大模型、神经网络,很难解释它会不会出现一个非常危险的动作。“用ChatGPT对话时,它说错一些字词,关系不大。但是作为一个机器人,进入我们生活中时,这个就至关重要,这些都亟待新技术去改进。” Alois C. Knoll也“泼出一瓢冷水”称,人形机器人演变至今,已有百年之久,期间进展非常缓慢,如今不能把标准设得太高,或把市场胃口吊得太高,创造出一个类似于投机的氛围来,甚至变成一个泡沫。“这是一个难而又难的高端研究,或许比通用性AI要慢,可能不会快速见到巨变。” “人形机器人,还有许多山峰需要翻越,”Alois C. Knoll强调。