云栖大会4位CEO激辩:人形机器人何时来敲门?

来源:米乐app官网下载    发布时间:2024-09-24 16:13:08

  在圆桌讨论的一开始,逐际动力创始人张巍就火药味十足地定义了他眼中的人形机器人理想形态。自称“先看腿”的张巍认为:人形机器人不是传统机械臂公司的延续,它的本质就是要长出两条腿来。通用的移动能力其实是不太需要双臂的,只要弄成一个单臂就可以了。

  而北大-银河通用具身智能联合实验室主任王鹤则持有不同观点,王鹤认为:相比双足形态,将两条腿并成一条的轮式能以最便宜的价格稳定落地。这是因为平地上,轮子是够用的。而在零售商超和工厂场景的诸多动作都要使用到双臂。

  在9月19日,云栖大会主题为《人形机器人的“图灵时刻”》的圆桌对话现场,星动纪元创始人陈建宇、北大-银河通用具身智能联合实验室主任王鹤、宇树科技创始人王兴兴、逐际动力创始人张巍以及至顶科技CEO高飞,一同探讨了人形机器人当下最受关注的几个问题。

  与路线高度统一的大模型行业不同,这些人形机器人公司的路线各不相同,他们旗帜鲜明地表明不同观点,也让我充分感受到人形机器人行业最有趣的地方:永远不缺乏颠覆传统的“暴论”和鲜活的非共识。

  张巍举了ChatGPT2.0的例子——在ChatGPT初期做一个超级应用,要打一堆补丁增加了部署和售后的很多成本,最终商业逻辑还是挺难跑通。关键点还是要看技术的开关何时打开。

  而在衡量人形机器人技术水平的话题上,大家的想法终于收敛到了一个关键节点:

  “把一个机器人拉到它以前没有见到的场景,只要简单演示一下怎么操作,它就可以很自然地做好了。”宇树科技创始人王兴兴认为这种泛化的性质非常有价值。

  “在演示的过程中,你就给它捣乱,走的时候突然去踹一脚,突然给它下面摆很多不平的东西。它做操作抓取的时候,突然把这样的一个东西给拿开。再看它还能不能很稳定的、很智能的去适应完成。”星动纪元创始人陈建宇给出了方法论。

  和许多机器人公司相同,2022年表现惊艳的大语言模型,让曾经迟疑的王兴兴看到了人形机器人的更多可能,于是很快发布了两款人形机器人。

  这次大模型浪潮,也给具身智能带来了新的机遇——“行业开始思考,怎么样去做机器人的Scaling Law。”陈建宇这样总结大模型带来的启发。

  受到大模型技术的影响,机器人领域的发展经历了从“规则驱动”到“算法驱动”再到“数据驱动”的跳变。

  王鹤预测,从明年开始将会是商用的元年,银河通用5年的目标则是在零售和工厂场景中达到1万台。银河通用向虎嗅展示了他们在展馆现场布置的零售场景,前来体验的观众排出了10米的长队,观众在iPad端下单后,银河通用的GALBOT的通用机器人从货架上拿到对应物品递给观众。而这项技术已达到了产业化的边界。

  王兴兴认为,三年内相对通用性的人形机器人大概率会出现。5年后,可能会发生天翻地覆的变化。

  在圆桌讨论的最后环节,大家对一个问题却一反常态地达成了共识,或许这能解释这些人早早潜入人形机器人行业的原因。

  ——当被问道“人形机器人的图灵时刻是否会到来”时,所有嘉宾都坚定地相信,这一时刻终会来临。

  主持人:AI已经让我们的信息有点真假难辨了,但目前AI还是基于文本,它不是物理世界的,所以我们需要讨论一下人形机器人这样的物理智能载体,它在大模型带动下会发生什么样的变化,或者某一天我们也会迎来它的图灵时刻?令我们难分真假,敲门的不知道是机器还是人,这一天是否会到来?我们围绕这个线位嘉宾交流。

  我们第一轮问题讨论的是初心,因为大家都是创业者,创业者初心是很重要的,你们初心就是产业的创新。第一个问题想问王兴兴,我知道宇树已经创立很多年了,曾经一度你还反对过做人形机器人。但前两年宇树很快把人形机器人做出来了,所以我想问的是:什么使你改变了态度,还是一开始你隐藏了意图?

  王兴兴:对,三四年前有投资人问我,做不做人形机器人,我坚决反对做人形机器人。

  原因也比较简单,2009、2010年我大一时,就做过小的人形机器人。我发现,当前人类技术其实没有办法驾驭这么复杂的机器人系统。一个机器人系统复杂到一定程度以后,就变成非人力可维护,做一些简单事情可以,想要复杂或者泛用性,人类的技术没办法驾驭,所以就没有做人形机器人。

  但后来大家也知道,最近一波差不多从2016年开始,新的AI技术诞生了,并且2018年、2019年,在机器人AI上已经看到一些苗头。在2022年时,大语言模型发展非常惊艳,我们就在2023年初开始正式做人形机器人。大家可以看到,虽然我们做人形机器人起步相对比较晚的,但到现在差不多一年半多时间,我们已经发布过两款人形机器人,而且目前取得的效果也非常惊艳。所以,在某种程度上,无论是硬件还是软件的发展节奏,都超过我自己的预计。

  主持人:第二个问题我想问一下张巍,我看到我们的定位写的是我们是一个通用机器人公司,通用机器人一定要做成人形吗?因为这个很有争议,你怎么看?

  张巍:我觉得一定要做成人形,而且是有两条腿的人形机器人。可能这个见仁见智,每个人观点不一样。

  我简单说一下我对通用机器人的理解,我首先觉得,机器人和AI,它的使命是不同的,AI是代替人来思考决策的,机器人本质上要代替人来运动的,所以它必须能动。大家看到的各式各样的机器人非常多,它们本质上就在做两件事情,一件事情就是要移动,另外一件事情就是操作。所谓的通用机器人,就是在这两个能力上都能达到跟人一样的环境适应能力和任务的泛化性。

  值得一提的是,通用的移动能力其实是不太需要双臂的,只要弄成一个单臂就可以了。但是通用的操作能力反而是需要双腿的,不然你可能都没法到人能够到的地方去干活。我觉得这一代AGI的发展,相比上一代最大的区别,是从专用到通用的一个变化。可是在大模型出来之前,我感觉通用这个词是个贬义词,感觉一说什么通用就证明它是没什么用。

  但是大模型出来以后,大家发现像以前我们这种在专业领域里搜数据、做专项任务的训练方式是有很大局限性的,反而我们要忽略一下专项的能力,要先构建一个通用的基础模型的能力,然后再在上面长出专用的能力,这才是系统化解决泛化性的一个关键。我觉得软件算法的通用性靠大模型技术;机器人跟物理世界交互的这个通用性,靠人形机器人。这也是我们公司关注的赛道。

  主持人:但是您刚才说的是有腿的,我不是挑事,我看到王鹤老师的官网上有机器人没有腿的。我想问一下王鹤您对人形机器人怎么理解,有什么形态算人形?

  王鹤:我们公司叫银河通用,所以从建立的第一天,我们的目标就是要达成通用机器人。但是通用机器人有一个过程,它要先做到单一场景、多任务、可移动,然后再做到多场景、多任务,最后做到全场景,几乎是全任务。在这个过程中,不同阶段的形态,也有它最适合、最经济、最稳定的载体。所以通用机器人这个万亿市场刚刚开局的时候,我们选择了先从几个场景里头的多任务做起:比如说在零售商超场景去上货、下货,在工厂里去抱箱子。

  在这些场合,我们发现平地上,轮子是够用的。并不能说我们没有腿,我们是把两只腿并在了一起,这样它能够手碰到地,捡地面的东西。那为什么要双手呢?因为我们发现,抱箱子需要两只手,在超市里头一只手拿篮子、一只手拿货,也是需要两只手。

  所以,我们的形态目前是360度轮,双腿并成一条腿,站直1.73米,最高可以够到2.4米,蹲下来可以摸地,能以最便宜的价格、最稳定的机器人技术率先实现可以落地的场景。

  主持人:我听明白了,王鹤老师说也要有腿,但是对腿的定义不一样。我问一下陈建宇,我们的定位当中也一个词叫“具身智能和人形机器人”,大家讨论的时候总是把两个词放到一块儿,你怎么看?

  陈建宇:我觉得这是大家比较容易混淆的概念,虽然这两个词非常的相近,但是它们的侧重点还是不太相同的。对于具身智能来说,我们主要的是关注智能性所谓软的这个层面。但它对形态其实是要求不高的,可以是人形的、四足的、轮式的、机械臂的,甚至就是一个桌子、椅子,只要它能动,都可以给它赋予具身智能,它是在这一层面更广泛的概念。

  当然,人形机器人顾名思义,形态一定是人形的。当然它不仅仅是要研究人形机器人所对应的具身智能怎么去做?同时我们也需要去研究它的本体怎么去做?这里面有很多的挑战性,包括我们讲人形机器人还会讨论它的核心零部件、它的产业链、它的工程量产。

  星动纪元同时非常重视具身智能和人形机器人这两个层面,其实也是代表我们非常重视软件和硬件的协同一体的发展。因为对我们人类来说,我们人脑和身体本身就是不可分割的,本身就是从小到大我们同时去发育起来的,所以我们也是秉承这个观点,我们认为机器人的软件和硬件也需要协同发展。

  主持人:不只是腿的变化,其他的物件,能动的桌子、椅子也是一种具身智能。接下来我问第二轮问题,人形机器人现在很热,很多人关心,有这种表演等等,大家都去看。但是不同的人看人形机器人他的角度不一样。请各位聊聊,人形机器人怎么看门道,它的技术含量到底体现在哪儿?如果我们去一个展会看到人形机器人你到底看哪个位置,会说这个东西有技术含量很大?

  陈建宇:如果我们非常粗略的把人形机器人技术分成三大块,就是大脑、小脑和本体。相对来说,这里面最关键的,我个人认为是小脑的层面,因为它是最基础的一个部分。如果只有一个本体和一个大脑,缺了小脑的话,只能成为会思考的一堆烂铁。所以,它是承接大脑的你的思考、你的规划,并调用我们这个硬件本体,真正能帮助我们到这个世界里面干活的。

  而同时我个人认为,相比于其他几个部分,现在人形机器人的小脑部分,反而是最薄弱的,同时也是技术的不确定性最高的,最没有收敛的。虽然本体核心硬件的做法也非常难,但是我们可以借鉴很多产业,包括工业机器人、电动车的产业。受益于大语言模型,大脑的技术相对来说还挺强大的。但是对于小脑来说,我们发现大部分的机器人现在还是用的十几年前、甚至几十年前的工业机器人或者扫地机这一类的技术来去做。所以,这是局限的一个关键。

  我们希望人形机器人的小脑,使它的双腿能够像人一样的又稳又快又灵活,能够帮助我们到达任何地方,我们希望它的双手能够帮助我们上的厅堂、下的厨房、进得工厂,什么都能够去干,做非常灵巧的事情,这是我们希望的,但是现在其实没达到。

  回答刚才的问题,怎么去鉴别?我们会看到各种各样的一些demo存在。我觉得鉴别的点是,不管是行走还是操作有没有达到一个真正的泛化性?比如说在演示的过程中,你就给它捣乱,走的时候突然去踹一脚,突然给它下面摆很多不平的东西。然后它做操作抓取的时候,突然把这个东西给拿开,或者给它捣一些乱。你看它还能不能很稳定的、很智能的去适应、去完成。

  王鹤:银河通用目前最关心的是机器人上半身的“手眼脑”协调,这里有大脑、有小脑、有对本体的控制。首先是我们的泛化抓取技术,这项技术可以明了地展示何谓具身智能。泛化的意思是不管给我透明的、高光的、吸光的,各种材质,任意摆放的物体,机器人都能抓。此外,像抱箱子、拿药盒,是完全靠视觉引导的泛化,货架、地面等等都没有任何二维码或者标记,跟我们人类一样,都是看图去理解。谈到跟大脑耦合,那就是我们说一句话,机器人直接零代码部署。第一次见过这个任务,机器人就能够操作,包括我们现在最前沿的技术,端到端的大模型。(屏幕上展示的)是我们在用宇树的四足机器人去训练和测试导航能力,我们说一句话,在完全没见过的环境中,机器人就能够沿着我们的命令不见图的、只用视频作为输入按照指令行走。

  所以,我认为人形机器人的技术含金量可以从这两个地方总结:一是它的泛化性到底有多强,是不是通向未来真正的通用;二是它能不能跟人之间能够用自然语言来沟通,然后实现零代码的部署。

  王兴兴:对人形机器人,大家还是希望有一个AI模型,无论是运动、操作都能做。当下,基本上大家分开的会多一些。比如说对于全身运动的话,我个人希望到明年,机器人能做非常复杂的全身运动表演之类的事情。当然,我们现在也做了一部分,但目前大部分动作还是单个做训练的,不是全连在一起,而且每次训练还是挺花时间和花人力的。如果能有一套全面的,比如说能做全身运动,只要给它看个视频,或者做一个简单的演示,它完全能学会一个动作,这样对于表演这个事情,就会有天翻地覆的变化。

  另外,希望有更好的操作能力。比如操作一些简单桌面的整理,或者做一些复杂的生产装备,或者相对来说设计更复杂的推理事情,操作能力有更强的提升,或者真正解决生活中手臂操作相关的事情,都是非常有价值的。目前这两部分,大家都已经取得了一定的进步,但离真正比较泛用性的还有一些距离。举个例子,你把一个机器人拉到它以前没有见到的场景,你只要简单演示一下怎么操作,它就可以很自然地,或者自我强化地做好了,我觉得这是非常有价值的。

  张巍:看机器人门道,和几位嘉宾一样,就看两个关键词:泛化、通用,这是本次变革最关键的两个词。具体看哪儿,看脑还是手,我提供一个角度,咱们先看腿。因为人形机器人之所以是一个新的物种,它不是一个传统机械臂公司的延续,它的本质就是要长出两条腿来,我觉得腿是机器人有通用能力的基础。看腿看什么呢?主要看两点:一个是腿有没有完成本职的工作,地形的泛化能力;二是看它能否支撑双臂完成全身协同通用的操作,这也是腿存在的重要价值。

  我们的视频大家看到这个小的双足机器人,它是没有脚掌的,相当于人踩着高跷,其实是很难平衡的,是我们用来测试AI算法能力的。大家可以看到机器人地形上适应能力和泛化能力基本达到了类人的能力,我个人踩着高跷在山里,你推我一把,我估计也会摔倒,这方面算是一个比较重要的进展。

  另外,它在一定负载4公斤前提下全身协同的操作,这样的展示,尤其有负载的情况下相对比较少的。主要是双腿既要保持自身的平衡,同时要四肢协同发力来完成这样大负载的操作。过程中还要动态通过腿,全身协调来调整重心,有一定的挑战性。但这样全身协同的操作任务,我觉得是区分人形机器人和固定双臂机器人最重要的区别,也是我们比较关注的技术点。

  一,它不能认生,它去别的地方就认生,“社恐”这个事就不行,它必须是E型人格。

  二,双手和双脚,四肢的作用很重要,移动和操作的控制是非常重要的两个观察切入点。

  接下来,我们已经讨论完技术的点,大家肯定很关心干活问题,因为之前两轮讨论时也提及到了,机器人到底什么时候能干活?干活指的是进工厂,或者在商业场景,我们进家门了。我想请几位专家聊一聊,从你们眼中看,人形机器人干活的时间线是怎样的?马斯克很乐观,马斯克说大概2-3代以后100万台出货量,可能很多人会购买,你们有没有一个时间点?因为这是一个公众场合,我希望大家说的具体一点,无论对和错,以后我们做媒体都有稿子写了。

  陈建宇:我觉得这个应用,包括落地也需要准确的定义,如果不是特别严苛的定义,不管是工业还是商用,甚至是家用,可能在一两年时间就能初步简单工作。根据罗杰斯创新扩散的模型,任何产业都有早期的使用者,他愿意去尝试、试错,在产品还没有特别完善的时候。我相信这两年你们会看到各个行业会有早期的试用者。

  如果真的大规模应用的话,进入家庭,它一定相对来说需要比较长的时间。因为对家庭来说,它是一个没有边界的泛化要求。从大规模应用发展一定是工业这种场景会更先进一些,因为它是有边界的,可以人为制定一些规则,包括一些标准场景是怎么样的,你可以人为去控制它。在最终的机器人ChatGPT,或者它的“图灵时刻”还没有到来之前,我们能逐步应用起来。

  同时第二个难点,对工业场景的话,你可以把它和人隔开,并且它做的事情相对比较固定一些,小脑取得一定进展之后,它就可以用起来了。在工厂里干活不需要工人必须会做数学题,他能干这道工序就可以了,但对人来说,它的要求就会高很多,同时也会引来安全性的问题。

  王鹤:今天在云栖大会的现场,我们银河通用的机器人也展示了在零售场景的亿应用,我刚刚看到同事给我们发来的图片,有10米的长队,观众在我们ipad端下单,银河通用的GALBOT的通用机器人就给大家从货架上拿你想要的东西递给观众。像这样的零售场景,主要是抓取和放置的东西,现在的技术已达到了产业化的边界。我们预测,从明年开始将会是商用的元年。5年,我们的目标是在零售和车厂的抱箱子达到1万台;10年,我认为安全性可以达到家庭标准;15年,我预计可能会产生千万乃至大千万级别的市场。

  王兴兴:我个人其实还是相对来说还是比较乐观的,我觉得到明年,在一些公益场景,或者在固定场景做一些有商业价值的落地应用,像银河通用这边,基本上问题不大。我个人还是相对乐观,我觉得3年左右,至少全球范围内大概率会出现通用型的机器人AI。因为跟过去10年不一样,现在整个机器人AI的人才、资金都是几百倍甚至上千倍的巨量投入,所以整个时间进展会比较快。5年左右,可能会发生天翻地覆的变化。

  张巍:我觉得几位嘉宾都预测得非常好,我就不预测准确的时间点,我谈谈落地过程中的一些思考,我补充一下。

  首先这个赛道,我认为用时间衡量它是比较难的一件事情,我管这个赛道的产业发展叫“事件驱动”,它更关键看AI技术的关键开关什么时候能找到,而不是用具体时间衡量它。

  我也是相对乐观,只不过我们要避免过早做商业化。比如在大模型ChatGPT2.0、3.0的时候你要做一个超级应用,肯定要打一堆补丁。因为上一代人工智能和机器人落地过程中也遇到了很多挑战,大家都调侃“人工智能等于智能不够靠人工”,所以增加了部署和售后的很多成本,最终商业逻辑还是挺难跑通。所以我觉得不用太用时间衡量,关键是看技术的开关。

  主持人:说到这儿,我再补充最后一轮问题,就是关于大模型和机器人之间的关系。大模型这个技术和背后的体系对于人形机器人的发展起到了什么样的影响?

  张巍:非常大。因为我觉得机器人这一波的发展不是它自我革命,就是Agent发展所带来的,所以发展是靠大模型技术和大模型技术背后的技术。

  我说一个背后的思考,不说具体的应用。我觉得这几年由于受到大模型技术的启发,机器人领域的发展也经历了从“规则驱动”到“算法驱动”再到“数据驱动”的跳变。以前可能看你有什么算法,然后根据算法的需求来收数据、来解决问题。现在的思维变了,我们首先要看你有什么数据、你有多少量的数据,然后你获取新数据的方式和成本是怎么样的,这些数据的quality分布是什么样的,这就直接决定了你采用什么样的算法做训练,甚至也决定了你的训练。所以我们公司有一个口号叫“软件定义硬件,但数据定义软件”,这是我们的思路。

  王兴兴:我一直感觉通用机器人尤其通用人形机器人算是目前大模型最好的落地载体,它其实可以解决大模型目前落地场景的问题,所以我觉得两个是非常好的组合关系。

  王鹤:我觉得现在的通用机器人,我们虽然有一些技能,但几乎都是分立的一些小模型。所以大模型赋能这些技能有几步:第一步是大模型可以作为一个Agent来调用这些API进行长程的任务规划,第二步是大模型可以作为一个Monitor,它看小模型执行过程中有没有出任何错误,及时去终止或者调用别的技能来挽救这些错误,比如药盒掉到地上了,它立马说“你得给它捡起来”;第三步则是最有想象力的端到端,Vision、Language、Action,把动作作为大模型输出的模态,像自动驾驶一样,我们实现一个把通用感知、通用规划或通用执行融为一体的大模型。

  陈建宇:我认为大模型带给我们最重要的启发,就是告诉我们Scaling Law的存在。大家都说通用机器人,必须要有它所匹配的通用智能,所以大模型启发我们去思考,包括引导我们去思考怎么样去做机器人的Scaling Law。同时,它也带给我们一些语言模型领域的技术,比如说Transformer的架构,比如说Predict next Token的算法技术,包括你怎么Scaling这样的数据和这样的算力。当然这些也还是不够的,毕竟我们的机器人需要在物理世界去交互、去做事情,去理解整个物理世界。所以在算法,模型、数据层面,都有很多不同需要我们探索。

  主持人:刚刚您谈到算力和数据,我想追问一个问题。现在合成的、网络的、仿真数据的比例是什么情况?算力的匹配是怎样的,是云端还是本地的?

  陈建宇:现在应该还没有数据的比例,其实还未达到一个完全收敛的状态、固定一定是多少的比例。比如以我们来说,我们是根据机器人的特性。比如我们的运动、控制、行走的数据,我们几乎是纯粹的仿真里面的数据。但是我们对操作来说,我们目前又几乎是纯粹的真实世界获取的数据,这是根据它的仿真难度、数据获取的难度,以及你的算法所匹配的程度来定的,未来可能会出现一些改变。

  陈建宇:我认为这个跟大模型不一样,大模型的算力可以完全在云端,但是对于机器人来说,你必须要有本地的算力。因为它对延时或者断网零容忍,会对物理世界导致非常严重的影响。所以说大体一分的话,如果你分大脑和小脑,简单一分,小脑在本地,大脑在云端。

  主持人:是云端协同的设计。我们最后还有1分钟时间,大家认为人形机器人能变成真假难分吗?