推广 热搜: 2025  2024    设备  中国  公司  行业  快速  企业  上海 

星尘智能来杰万字采访:具身智能 “超级助理” 如何走进真实世界?

   日期:2025-09-12     移动:http://www78564.xrbh.cn/mobile/quote/34342.html

“想象一下,一位顶尖科学家能驱使100个机器人助手,将数年的实验周期压缩到一周;一位五星级大厨的独门厨艺被完美数字化,通过家中的机器人,让每个人都能品尝到大师级的菜肴。

这并非科幻电影的遥远构想,而是星尘智能创始人来杰为描绘的蓝图。

拥有近16年的机器人研发经验,曾是百度小度机器人和腾讯Robotics X实验室的核心初创成员,来杰对具身智能技术、社会与产品的深刻预判。

当行业主流仍在探讨机器人将“替代”哪些岗位时,来杰的想法却并完全相同。创造全新的“增量市场”,才是他认为具身智能最具想象力的地方。如今,来杰和他创办的具身智能公司星尘智能,正努力让机器人成为放大人类智慧与创造力的“超级助理”。

这一宏大愿景的背后,是一系列深刻且“非共识”的技术抉择。

来杰认为,机器人与物理世界交互的第一性原理是“力”的感知与控制,而非视觉定位。因此带领团队选择了“绳驱”这一更接近生物肌腱的传动方案。

这种对第一性原理的执着,同样延伸到了他们对“智能”本身的定义上。在业界普遍追求通过海量数据实现“一次成功”时,星尘却反其道而行,认为比单次成功率更重要的,是模型“随机应变”的纠错能力。在他们看来,真正的智能并非从不犯错,而是在于像人穿针引线一样,即使初次失败,也能在不断的尝试与调整中,最终找到达成目标的路径。

对智能的不同理解,自然也催生了非主流的数据策略。

当许多人陷入数据军备竞赛的焦虑时,星尘的目标并非无止境地堆砌数据,而是通过提升模型的“迁移能力”,让数据采集的效率呈指数级增长。他们相信,掌握了学习的共性,未来完成一个新任务所需的数据量将从一千条锐减到二十条,从而摆脱对蛮力式数据采集的依赖。

最终,这些关于硬件、智能和数据的思考,都汇集到了一个可被清晰感知的“快慢脑”模型架构中。来杰指出,当许多模型将此作为黑箱时,星尘致力于让其分工变得明确可见:快脑负责应对突发状况的本能反应,慢脑则在任务逻辑被打破时进行上层规划。这确保了机器人的智能不只停留在概念层面,而是成为在真实世界中稳定可靠的决策系统。

从“超级助理”的角色定位,到开拓“增量市场”的商业模式,再到以力控为核心的底层技术,星尘智能的每一步都旨在回答那个终极问题:“超级助理”将如何真正走进并服务于我们的真实世界?

星尘智能的创始人兼CEO来杰受访展示

Q:为什么会在2022年具身智能的热潮还未兴起时创办星尘智能?

来杰:在22年底到23年初进行融资时,向大家解释我们的理念其实是相当困难的。 当时我讲的是“AI加机器人”的概念,但投资人常常会追问“你们做的到底是AI还是机器人?”这反映了当时市场对这一融合方向存在普遍的理解误区。

之所以从一开始就坚定地提出“AI加机器人”,源于我多年来的思考和实践。

从2014年到2018年,我在百度组建机器人团队。加入百度前,我一直被两个问题困扰:

第一,机器人未来要如何发展才能真正变得像人一样智能?第二,智能技术要如何发展才能真正理解物理世界?当时我判断,智能比机器人本身更为关键,而百度正全力投入AI,所以我选择加入并希望打造一个与机器人技术相关的、最前沿的团队。

然而,这条路并非一帆风顺。在百度工作四年后,我明显感觉到一个瓶颈:当时的深度学习虽然在各类应用中表现优异,百度的无人驾驶项目也进展迅速,但在机器人领域,我开始质疑,仅仅使用协作臂是否真的能满足AI在物理世界中的应用需求。

转折点出现在2018年。当时腾讯邀请了张正友老师从微软回归,我参加了他的就职演讲。他提出了一个观点,让我深受触动:机器人和AI应该是两条腿走路,二者相互促进、相互关联,类似于计算机硬件与操作系统的关系。

演讲结束后,我立刻找到他深入交流,之后便决定加入腾讯,成为Robotics X实验室的初创员工之一,帮助他建立起整个机器人实验室的架构。

在腾讯,我作为架构师继续探索AI与机器人的结合,又工作了四年。到2022年,大模型爆发前夕,Transformer架构已在各个领域展现出其强大的潜力和变革性。我当时认为,这种处理高维信息对齐的方式非常适合机器人。

但更让我触动的是Yann LeCun(杨立昆)当时提出的“世界模型”(World Model)概念。 他在那篇影响深远的文章中强调,AI应该脱离互联网的束缚,去和真实世界进行交互。

只有这样,AI才能从现实世界中获得真实的反馈,而不是仅仅依赖人类输入的知识,这才是通往真正世界模型的必经之路。

那一刻我豁然开朗:他所描述的不就是一个机器人吗?我意识到,当前的大模型需要机器人。机器人不仅可以帮助大模型实现顶层的通用智能,更重要的是,机器人能为大模型提供海量的、宝贵的物理世界数据。

这能让AI真正脱离屏幕和文字,开启一个更高级的智能发展阶段。 正是看到了这些关键的结合点,我才决定带着团队出来创业,致力于打造一个拥有真正智能的机器人。

到了2023年,这个方向被外界正式命名为“具身智能”,并在2024年彻底火爆起来。这就是我们创业的完整心路历程。

图片

Q:理想中的星尘智能应该是一家什么样的公司?

来杰:从创业之初,我就希望星尘能成为一家像苹果公司那样的企业。我指的并非今天的苹果,而是处于上世纪70年代末到80年代初的苹果。在那个阶段,苹果公司真正的贡献是将计算机(硬件)和程序(软件)完美地结合在一起,从而催生了“个人电脑”(PC)这一革命性产品。

在此之前,编程需要深厚的数字电路知识,或者只能在远程大型机上进行。个人电脑的出现,正如乔布斯所说,“信息是一种能量,而电脑就是这种能量的终端”。

这个历史类比对我启发极大。我认为,我们当前正处于机器人与AI结合的关键历史节点。这种结合最终必然会以某种产品的形式呈现给大众。

目前,尽管技术发展日新月异,但距离真正服务于人的产品落地,还有一段产品化的路要走。因此,行业内讨论更多的还是技术细节和差异化,以吸引关注。但归根结底,真正服务于人的永远是产品。

所以,对于星尘智能而言,我们的首要目标是打造出能够为大众服务的产品。没有人会否认苹果的技术实力,但我们想到苹果时,首先浮现在脑海的必然是它的产品。当然,卓越的产品背后必须有强大的技术作为支撑,无论是机器人技术还是AI技术。这就是星尘智能的核心理念。

图片

Q:要打造一个能真正服务于人的机器人产品,当前需要解决的核心难题有哪些?

来杰:当前,机器人和AI都还处于发展的初期阶段,各自都面临着挑战。

首先是机器人的成本问题。

大家常常疑惑,为什么现在的机器人价格如此昂贵,动辄数十万的设备有时却只能完成一些简单的任务,比如跳舞。一个关键原因在于,我们现有的整个工业供应链体系,并非为机器人而设计。

供应链是为汽车工业设计的,所以汽车的成本得以持续降低;更早之前,中国的供应链体系支撑了冰箱等消费电子产品的普及,使其从奢侈品走入了寻常百姓家。

我坚信,在机器人领域,中国的供应链将能发挥决定性的作用,并且其转型速度已经令人惊喜。我认为这会分两个阶段实现:第一阶段,越来越多包括上市公司在内的上游供应链厂商,开始参与到具身智能这个行业中来;第二阶段,由这些厂商共同推动,完成关键零部件的标准化,从而进一步大幅降低成本。

因此,我非常有信心,能够进入家庭的消费级机器人很有可能最先在中国出现。

其次,当成本问题解决后(“买得起”),就要看它的能力是否足够(“用得好”)。

在能力层面,我一直认为AI的发展速度是持续超出预期的。尽管大家对现状仍不满足,但回想一下,从2023年初GPT-4的爆发,到后来各种先进模型的涌现,再到如今具身智能已经可以泛化地完成一些复杂任务,这些进展在两三年前是难以想象的。 我们现在进行AI和泛化能力的研究,是在已有的路径上持续增强其能力,而不是在黑暗中摸索。我们已经有了基础的模型架构,也有了让模型去记忆和学习数据的方法,这些都在逐步成型。

我们很难断言质变性的爆发点何时会一蹴而就,但整个行业的发展方向非常明确,并且没有丝毫迟缓。因此,我坚信在未来一到两年内,具备一定能力的机器人就会出现在我们身边。

当然,它并非无所不能。而在未来的三到五年,我们会发现它能做的事情越来越多,甚至有些家庭会愿意尝试让它分担一些家务。再往后,它才会真正演变成一个服务于人的“智能管家”。所以,我并未看到存在无法逾越的、根本性的技术卡点,我相信具身智能行业的发展会越来越顺利。

Q:具身智能如何将学习到的技能稳定地泛化到新的任务上?这背后的基本原理和难点是什么?

来杰: 这就涉及到星尘的AI模型架构。我们的模型架构核心有两点。

第一,它是一个“快慢系统”。其中,“慢系统”与当前的大语言模型在功能上有些相似,负责高层推理和规划;而“快系统”则更偏向于实时的、本能的动作执行,与大模型有显著差异。这两个系统是整合在一起进行端到端训练的。

从本质上说,大模型的发展为具身智能奠定了极佳的基础。无论是GPT、,还是各类视觉语言模型(VLM),我们已经看到AI具备了强大的理解能力。

但问题在于,这些模型所理解和记忆的知识,大多来自于互联网,是一个偏向于抽象概念的空间,并非为机器人的第一视角和当前物理环境所设计。

我们当前的核心任务,就是将这个抽象的知识空间与机器人所面对的现实物理世界有效结合起来。这是具身智能的第一个关键点:如何更好地利用真实的物理世界数据,并结合已有的互联网数据,使机器人真正产生“无所不知”的泛化能力。

第二点,星尘智能一直强调我们的硬件是“为AI而设计”(Design for AI)。这是我过去多年经验的总结。

很多时候,硬件决定了AI能力的上限和天花板。只有一个优秀的硬件平台,才能为AI提供质量最高的数据和最丰富的表达能力。反过来,AI在与物理世界交互后,看到真实的效果,才能完成自身的学习闭环。

因此,在我看来,许多我们在AI层面遇到的难题,其最终的解决方案或许并不在于AI算法自身的凭空创造,而可能在于传感器、机器人硬件等物理层面的发展,补全了AI所缺失的信息维度。我更偏向于从产品角度思考,核心是“用得上”和“用得好”。至于具体是依靠机器人硬件的进步,还是AI能力的提升来解决问题,我认为两者皆有可能,相辅相成。

Q:星尘智能首创了“为AI设计”的软硬件一体化架构,有哪些差异化?

来杰:大家都知道,星尘智能是目前国内唯一一家采用绳驱这种传动方式来做人形机器人的公司。这背后有一个很有意思的思考过程。

大约在2021年,当时我还在腾讯负责一个操作类的机器人项目。那时我提出了一个问题:为什么盲人能够完成非常多、非常精细的操作,比如开门、放置物品,而且动作非常稳定;而我们的机器人,即便配备了顶级的视觉系统,定位精度甚至高于人类,却连开门这样的任务都觉得非常困难,放置物品时也常常像是在“丢”东西?

我当时非常困惑,盲人能做到的事情,我们拥有更强“眼睛”的机器人为什么做不到?这让我开始反思,我们的技术路线是不是缺少了某些第一性原理层面的东西,导致整个系统架构存在缺失。我的第一个直觉是:“力”是一个至关重要的、但被我们忽略了的信息维度。

于是,我们搭建了一个非常简单的机械臂系统,但极大地突出了其力控能力。我们只给它设定了一个极为简单的、基于力的策略(Policy)来开门:

用夹爪抓住门把手。

持续用力向下压,当感觉到门把手开始转动时,就顺着它的转动方向继续施加压力。

当压到底后,开始向外拉。当感觉到门扇有位移时,就顺着它的转动方向继续拉。

结果令人惊讶,通过这样一个简单的、完全基于力反馈的策略,我们百分之百地解决了开门这个难题。这让我深受震动。

我们过去不断追求机器人的运动精度,使其远超人类;我们不断要求机器视觉提供更精确的定位,甚至需要规划出门的转轴在哪里、门扇的精确轨迹是什么。现在看来,这种纯粹基于几何规划的方式或许是有缺陷的。我并非否定视觉,而是感觉它缺少了关键的一环。

再举一个例子,当我们想把一个物体放到桌子上时,即便是闭上眼睛,我们对这个过程的感知也是:桌子对我们手中的物体提供了支撑力,然后我们才松开手。这个物体就稳定地放好了。这是一个比“规划下降多少毫米”更简单、但更符合物理本质的策略。

从那时起,我们就开始深入思考,如何才能将“力”这种感知能力真正在机器人的操作中体现出来。我们尝试了各种传动方式,因为电机产生的力需要经过传动系统才能传递到末端执行器。无论是谐波减速器,还是多级行星减速器,都会在传动过程中引入不同的噪声和摩擦,使得力的感知变得不“透明”。

在研究过程中,我们发现绳驱是一个极其巧妙的设计,它非常类似于人体的肌腱。

这种方式既没有因为精密加工而带来的背隙问题,也没有中间传动的摩擦损耗。它能够非常“透明”地将电机的力,经过放大后,精确地传递到末端,从而实现极佳的力控制。

因此,从那时起,我们就认定绳驱是一种非常有潜力、能最大化展现力控能力的技术路径。进一步地,我们在设计整个机械臂时,除了传动方式,也处处强调“类人化”。这不仅指关节自由度与人相似,我们还特别关注了臂长、腕关节与肩关节的相对位置等细节,使其在形态和动态上都更接近人类。

这样做最终带来一个巨大的好处:我们的遥操作体验能够真正地将操作者的感觉代入到机器人身上。操作者会感觉自己“就是”那个机器人,而不仅仅是在控制一个末端工具。

就在一周前,在某个活动上,我们的两台机器人全天候接受大家的遥操作体验,所有人的反馈都是,这个机器人实现了真正操作层面的“人机合一”,能将人的意图和感觉完美地表达出来。这正是我们“为AI设计”理念的一个集中体现。

Q:绳驱的优势非常突出,但它落地时是否有难点?

来杰:在腾讯的时候,我们就对绳驱的可靠性做了大量的理论研究和材料层面的分析。

这里有两个大家容易直观理解的例子:第一,我们日常乘坐的所有电梯,其本质上都是由钢丝绳驱动的。如果它不安全,那所有电梯都将是危险的。

第二,关键问题在于,如何通过材料选择和拉伸设计,将绳驱技术应用在机器人这种特定尺度的设备上,它是否符合一定的工程比例?

我们在这方面做了很多基础研究和测试,发现得益于现代金属材料科学的进步,钢绳的可靠性和稳定性远超我们最初的想象。在我们进行的疲劳测试中,机械臂在反复弯折和运动超过150万次后,绳索本身没有任何问题,反而是轴承等部件出现了比较明显的磨损。所以我们发现,绳索本身的可靠性根本不是问题。

但是,绳驱确实有其固有的问题,那就是弹性。弹性既是优势,也是劣势。

优势在于,弹性带来了一定的柔顺性,这对于力控的实现和物理交互的安全性都非常友好。但劣势在于,由于弹性存在,系统最初是很难被精确控制的。

绳索的弹性是一种稳定的非线性状态,关键在于如何精确地辨识它,并进行实时补偿。这说起来简单,做起来却非常不容易。

前一阵子,我与浙江大学的一位老师交流,他对绳驱非常感兴趣,也做过很多理论研究。他认为星尘能将绳驱做出来非常了不起,并指出别人做不出来的原因在于,这是一个系统工程问题,需要电子、控制、机构、材料等多个学科的交叉协作才能解决。而在高校里,各个院系往往是独立研究的。

而我们作为一家公司,目标是解决问题并发掘其应用潜力。因此,我们开发了一整套包含传感和补偿的算法。但这套算法无法在普通电脑上运行,它必须在非常底层的硬件上实时运行。

为此,我们自主研发了驱动板,并对板上的所有算法和架构进行了深度优化。因为驱动板本身的算力有限,每一行代码都需要精打细算。

通过这一系列的系统性优化,我们最终用绳驱的方式,实现了0.03毫米的末端重复定位精度,这个指标已经远超了许多传统的协作机器人。这充分证明,我们通过系统工程的思路,成功解决了绳驱的控制难题。

未来,随着像特斯拉等公司开始在机器手(从手腕到手指)上采用腱驱(本质上也是绳驱的一种形式),我相信这种技术路径会得到越来越多人的认可。

Q:如何低成本地获取多样化、高质量的多模态数据集?

来杰:我认为,将模仿学习(Imitation Learning)大规模应用在机器人上,其源头可以追溯到2021年在腾讯时的一个项目。

当时我们有一个四足机器人项目,我们的训练方式非常特别:我们找到一条真狗,在它身上贴满动作捕捉点,让它在一个真实的场景里奔跑跳跃。我们采集了大约一天半的数据,用这些数据训练出的模型,使得那台四足机器人的动作姿态与真狗几乎完全一样,毫无机械感。

当时还有一个有趣的小插曲。我们发现训练出来的机器狗在跑动时,脑袋总是习惯性地向下贴近地面。我们起初很奇怪,后来才反应过来,原来真狗在探索环境时,主要依靠嗅觉来定位,所以它的头会自然地贴近地面。这个行为被数据完整地记录下来,并被模型学了过去,导致我们的机器狗也总是做出类似的动作。

后来在我负责操作类项目时,腾讯发布过一个机器人调酒的演示。那个项目我们也是采用了模仿学习,请了一位专业的调酒师,穿上动捕设备,反复进行调酒动作。训练出的模型虽然那时的泛化能力还不够强,但已经可以验证,通过模仿学习的方式,能让机器人达到与人类相似的功能效果和动态美感。

如今,模仿学习能为机器人赋予强大的基础能力,并且通过引入多样化的数据能提升其泛化能力,这已经成为了行业共识。现在大家普遍感到的是“缺数据”。但我认为,数据问题需要一个逐步演进的解决过程。

对于星尘智能而言,我们当前的数据来源主要依赖于真实机器人的交互数据,其次才是用仿真数据和互联网数据作为补充。

我认为这是从0到1阶段的必然选择。但未来,我对数据量的需求是持乐观态度的,我认为所需的数据量会越来越少。因为数据学习的本质在于知识的迁移能力和共性特征的提取。当模型足够强大时,很有可能会产生“涌现”效应,用少量数据就能学会新技能。

另外,星尘智能没有选择主攻工业场景,也是出于数据层面的考量。我们希望机器人落地的初期场景是偏向商业服务,以及与人进行日常交互的场景。因为在家庭或商业环境中,我们很难找到工业场景里常见的螺丝刀、螺丝钉等物体。具身智能的价值在于进入到人类的真实生活场景中,在这些场景里形成数据闭环,然后不断扩展其能力。

在今年5月,星尘发布了一个新的模型,其中体现了两个核心理念来应对数据问题:

首先是迁移能力。过去,对于某一类动作,我们可能需要收集1000条数据才能教会机器人。现在,通过模型的迁移能力,对于相似的新任务,我们可能只需要收集几十秒的数据,机器人就能学会。这种能力将极大地降低后续任务的数据采集成本。

其次是随机应变。我们现在堆砌大量数据,很多时候是为了解决任务的“成功率”问题。但我们5月发布的模型提出了“随机应变”的概念。

人类在执行任务时,也很难保证100%一次成功。但人类拥有强大的纠错能力,包括“小脑式”的快速纠错(比如身体稍微调整一下姿态去适应)和“大脑式”的策略纠错(比如换一种方法来完成任务)。

我们认为,这种在失败后能够自我纠正的能力,比单纯追求一次性成功更重要。就像人穿针引线,可能会尝试很多次,但每一次尝试都是一个学习和微调的过程。这种学习方式能让机器人更多地发挥自身的知识和逻辑来解决问题,对原始数据的需求反而会降低。

当机器人通过自我探索和纠错最终解决了问题,它就真正“学会”了,这种数据补充方式,才是我们认为更智能的形态。

图片

Q:星尘智能在算法上做了哪些创新?

来杰:关于“快慢脑”(或称快慢系统)这个概念,最早应该是Figure AI在其Helix模型中提出的。当时我们其实也已经在进行相关的研发了。但看完他们的视频后,给了我一个提醒:我从他们的演示中,并没能清晰地分辨出哪一部分是“快脑”在起作用,哪一部分是“慢脑”进行了干预。

所以,在我们的研发过程中,我特别强调,要设计出能让大家直观感受到快慢系统分别在如何工作的场景。于是,我们制作了一个非常有代表性的视频。视频前半部分是机器人在无人干预的情况下,以6倍速高效地执行任务。后半部分则展示了在各种突发的人为干预下,机器人是如何成功应对的。

如果你仔细分析视频中的每一个动作,就会发现其中的奥秘。有些动作是“快脑”在主导,而另一些则体现了“慢脑”的干预。举两个典型的例子:

快脑的体现:当机器人正要去抓取一个碗时,如果有人突然把碗拿开或移走,机器人会立刻去追赶那个碗。这个行为中,“慢脑”下达的顶层指令(抓住碗)没有改变,但“快脑”则根据实时变化的视觉输入,快速、自适应地调整手臂的运动轨迹去完成任务。

慢脑的体现:在另一个场景中,机器人要把一个铲子放回抽屉里。就在它即将放入的瞬间,旁边的人“使坏”,突然把抽屉“砰”地一声关上了。在这种情况下,机器人不可能硬生生地把铲子塞进去。

这时,“慢脑”就开始发挥作用了。它判断出当前的环境状态下,原计划已无法执行。于是,它生成了一个新的计划:先把铲子放在旁边的台面上,然后重新拉开抽屉,最后再把铲子放进去。

这两个例子非常典型地展示了快慢系统是如何协同工作的,并且是能被大家清晰感知和理解的。其实,这种机制在人类的日常行为中无处不在。

比如我母亲一边看电视一边织毛衣,她的手部动作行云流水,几乎不需要思考,这完全是“快脑”在主导。但如果不小心打错了一针,她会立刻停下来,非常专注地、一针一针地拆解,修正错误,然后再继续。这个过程就是“慢脑”介入、进行有意识的纠错。我们认为,这才是真正体现我们模型架构优势的地方。

Q:星尘智能与PI在模型层面达成过深度合作。星尘的自研模型与合作模型分别承担了哪些工作?

来杰:我们与PI的第一次建立联系是在去年8月的世界人工智能大会(WAIC)上。当时我们双方就决定,可以共同立项来解决机器人领域的一些前沿问题。

我们合作的第一个项目,就是解决一个现在所说的“长序列任务规划”问题,具体场景是完成从放咖啡豆到制作完成一杯咖啡的全过程。在合作初期,我们共同发现了一个非常有意思的难题,技术上我们称之为“同观测多行为”。

具体来说,在给咖啡机放入咖啡豆之前和之后,从机器人的视觉看,咖啡机的外观状态是完全一样的。这导致了一个问题:我们最初训练的模型,会把一盒咖啡豆放进去,盖上盖子,然后愣在原地,过了一会儿,它又会把盖子打开,再放一盒咖啡豆进去。这个现象让我们觉得,这恰恰是通往真正智能道路上必须解决的典型问题。

当时有两种解决方案。一种是给模型增加“记忆”,让它记住前面的步骤,从而给后续行为提供提示。但这种方式的问题在于,它需要人为地规定好动作的先后顺序,这会使得模型丧失任务层面的泛化能力。

另一种方式,就是我们最终采纳的方案:我们能否像人类的内心独白一样,给每一个动作步骤配上语言上的指引和标签?

如果未来任务序列需要改变,我们就可以借助大语言模型的能力,对这些语言指令进行重新编排。同时,通过这些一步步的语言描述,机器人就能清晰地知道自己“已经做了什么”和“接下来要做什么”。

我们与PI共同推进这个项目,大约在去年11月份,我们联合发布了基于这个新架构的模型,大家也看到了星尘机器人在那段时间里流畅地制作咖啡。模型甚至具备了一定的鲁棒性,比如在制作过程中,如果手上的咖啡豆被人拿走,它还会重新去取。这个合作最终催生了我们的VLA(Vision-Language-Action)架构的雏形。

在PI发布了他们的新模型后,他们的同事也过来与我们继续交流,商讨后续的合作项目。总的来说,我们之间是一种共创共赢的关系。

我个人非常欣赏PI团队的行事风格。他们系统性地总结了具身智能领域的几十个核心问题,并认为只有当这些问题全部被解决,AI才能真正进入家庭。

他们也非常坦诚和务实,在最近的交流中,他们表示自信已经解决了其中的大约五个问题。这种对行业路径的清晰判断、对自身能力的客观认知以及对长远梦想的坚持,是我们在合作中获得的重要收获。

图片

Q:接下来,星尘的模型在迭代上会有哪些规划和改进,以解决更多行业难题?

来杰:我们借鉴了PI的思路,也总结出了自己现阶段需要攻克的几个核心问题。这包括如何进一步提升操作的精确度,以及如何更好地利用海量的互联网数据。

我们正在探索如何将更多类型的非真机数据,例如互联网上的视频数据(包含大量的人体动作)、第三人称视角的视频数据,以及其他采集方式获得的数据,都利用起来。我们的目标是从这些多样化的数据中,提取出通用的、共性的信息量,让模型能够更深刻地理解物理世界的规律,从而降低对昂贵的真机采集数据的依赖。

此外,强化学习(Reinforcement Learning) 也是我们近几个月来重点探索的方向。我们从DeepMind等同行的工作中受到了很多启发,强化学习的引入让模型整体上产生了一种“质变”的智能感。我们认为,类人智能的学习方式本质上只有两种:

第一种是模仿学习(Imitation Learning),就像小鸭子跟着母鸭子走路一样;第二种是试错学习(Trial and Error),当模仿的对象不在或者遇到新情况时,通过不断尝试,最终找到正确的方法。这恰好对应了具身智能当前的两大主流技术路线。

我们已经在几个月前开始了强化学习的探索,目前希望通过它来解决一些对精度要求极高的任务。我们希望机器人可以通过自主尝试,完成一些超精细的动作,并在这一过程中,自己学会并内化相关的知识。这也是星尘智能在算法层面正在着力推进的一个重要方向。

Q:在硬件层面,星尘的S1机器人在各项性能指标上都非常领先,哪些核心技术支撑了如此卓越的性能?

来杰:如此高的性能首先与我们高效的系统设计和绳驱传动方式密切相关。我们的整个系统能够最大限度地发挥电机的性能。如前所述,要想做好力控,传动链条中的噪声和损耗就必须尽可能少,这意味着能量传递的效率非常高,这为高速度和高加速度打下了基础。

其次,这源于我们顶层的设计理念。我们一直认为,一个好的机器人,其工作效率必须要能比肩甚至超越人类。在日常生活中,人类不经意间的一个拿取动作,其瞬间的速度和加速度,其实都远超了市面上绝大多数的机器人。因此,从设计之初,我们就将“比肩人类的动态性能”作为一个核心指标。

另外,这也是我们过去“吃过亏”后总结的经验。之前在腾讯做模仿学习时,我们采集了大量专业调酒师的数据。但我们发现,像UR等传统的协作机械臂,根本无法复现这些数据。人类调酒师的动作非常平滑、快速且富有动态,但没有机器人能够跟得上。

所以当时大家看到腾讯的演示视频,其实用的是ABB的一款高速工业机器人,它才能做到将酒瓶抛起再接住这种高动态的动作。我们的结论是:既然当前很多数据仍然来自于人类,那么机器人的硬件性能就不应该成为AI学习能力的上限。机器人必须具备与人相似的动态性能,才能真正学好、复现好人的技能。为此,我们在硬件层面做了大量的优化工作。

Q:星尘智能过去的工作重心在上半身。近期在腰部和下肢方面会有哪些新的进展?

来杰:是的,去年4月我们发布的产品只有胸部以上的上半身。到了8月份的原型机,其实已经配备了带轮子的移动底盘,并且在下半身的设计上,我们依然遵循了仿人的设计理念。

这里有一个很有意思的设计细节。我们从腰部向下的“腿部”结构,总共设置了四个自由度,它们分别对应人体的踝关节、膝关节、髋关节和腰部扭转。

我们经过大量的分析和评测,发现人体的这四个关节对于保持身体平衡、调整重心和扩大操作范围至关重要。通过这种方式,我们用最简洁的设计,赋予了机器人强大的下半身姿态调整能力,使其能够更好地适应不平整的地面,或是在需要时调整身体高度和姿态,以完成更复杂的任务。

当然,我们暂时没有选择做双足机器人。这主要是基于一个务实的考量:我们认为在现阶段,一个拥有高价值、高灵活性上半身和一个能够稳定、高效落地的下半身相结合的形态,是能够最快加速商业化闭环的产品形态。

因此,我们暂时放弃了双足行走,但保留了核心的类人关节设计,以确保它至少在移动底盘能够到达的范围内,能完成所有需要的任务。

Q:机器人走进千家万户,进入C端市场,关键的技术或产业拐点还有哪些需要突破?

来杰:我认为,成本的降低一半靠设计,一半靠供应链。

在设计层面,我们会根据真实的应用场景需求,对我们现有的设计进行一些调整。比如,我们最初的设计目标是“全面超越人类”,无论在精度、力控还是速度上,都追求顶尖指标。

但结合现阶段的实际使用需求,我们发现,可能在力控等方面,机器人需要比人做得更好以确保安全;但在负载能力上,现阶段并没有太多人期望机器人去搬运特别沉重的物体。因此,我们会在这些方面做一些设计上的优化和取舍,以平衡性能和成本。

在供应链层面,我们正在非常深入地与上游供应商进行合作。某种意义上,我们花了大量时间去“指导”供应链,告诉他们未来的机器人需要什么样的零部件,以及这些部件可能通过什么样的新工艺来实现。因为在此之前,做齿轮的和做电机的通常是两拨人。

Q:星尘智能近期还会有哪些新进展?

来杰: 星尘智能始终秉持一个理念:机器人不仅是为了取代人,更是为了服务于人。基于此,我们明天(6月6日)将会正式宣布一项重要的战略合作:我们将与深圳的一家养老院签署合作协议。星尘的机器人已经进入到这家养老院中,开始尝试做一些真正能服务于老人的事情。

我一直认为,机器人与人的关系应该是共存、共创、共赢的三个阶段,而不是简单粗暴的替代或压迫。所以,我们的产品化和商业化路径,会始终围绕着“如何让未来大众能用好机器人”以及“如何让当前有特殊需求的人群先用上机器人”这两个核心来展开。

我们在选择场景时,主要考量两个维度:第一,它是否对我们的技术发展有益;第二,它是否真正符合我们对于机器人社会价值的认知。

在养老院这个场景中,我们深刻地感受到,机器人不应该是一个冷冰冰的机器。过去我们更多从技术角度出发,认为借助大模型实现的交互能力可能有点“取巧”。

但当我们真正将机器人作为一个产品,让它去和老人们进行互动时,我们发现老人们的反应是欣喜的。他们渴望有人能跟他们交流,同时也希望这个“人”能帮他们端茶倒水,做一些实际的事情。这与我们公司的核心价值观高度契合。

其次,从技术发展的角度看,养老院这样的公共生活场景,由于有大量的人在其中活动,环境的非结构化程度很高,这对机器人的泛化能力提出了极高的要求。因此,养老院是一个非常理想的、可以持续采集高质量交互数据、并快速验证和迭代我们模型能力的真实场景。

同时,养老院方面也在积极响应国家应对人口老龄化问题的号召,希望尝试用新的科技手段来解决老年人的服务和照护问题。因此,我们双方的理念一拍即合,迅速达成了这次合作。

Q:机器人应该在“增量市场”还是“存量市场”中发挥价值?

来杰: 我认为,机器人不应被片面地理解为“替代人”,其最高价值在于“赋能人”,在于发挥人类的最高价值。什么是人类的最高价值?是创造力,是将人类的宝贵技能进行数字化并大规模复现。

举个例子,无论是国内还是国外,能够进行复杂操作的顶尖实验科学家都是非常稀缺的资源。试想一下,如果三五年后,当年的屠呦呦教授拥有了我们的机器人,她就不再需要亲手进行数千次枯燥的实验。

她可以同时将自己的所有实验设想,交给100个机器人去并行执行,可能一周之后,她就能拿到诺贝尔奖级别的成果。这样的场景,才是机器人未来真正应该发挥巨大价值的地方——在那些需要高级智能进行物理世界探索和验证的领域。

再举一个生活中的例子。一位五星级大厨做一道菜可能非常昂贵,只有少数人能品尝到。但如果我们能将他的烹饪技艺进行数字化,当他发明一道新菜时,就可以通过云端将这个“技能包”分享给千家万户。

只要你家里有机器人,就可以让它完美复现这位大厨的手艺。这是一种前所未有的、创造力的放大和价值的分享。我相信,未来机器人会更多地朝这些方向发展,为整个社会创造巨大的增量价值。

这种增量价值还体现在与“世界模型”的共生关系中。我们创业的初衷很大程度上受到了“世界模型”概念的启发。目前,所有的大模型,其数据来源都是互联网。但真实世界的数据,远比互联网数据更加丰富,更能解释物理世界的常识。在我看来,具身智能与世界模型的发展,也是一种“两条腿走路”的共生关系。

在初期,它们各自发展。到了现阶段,我们已经开始调用大模型的知识来赋能机器人。下一步,当机器人借助这些高层知识去探索世界时,其整个探索过程,本身就是一个收集真实世界数据的过程。

这些宝贵的物理世界数据,会反哺给大模型,使其最终进化为真正的“世界模型”——一个不仅理解互联网信息,更理解真实物理规律的智能体。而当世界模型建成后,谁又是它最直接的受益者和最好的应用终端呢?答案恰恰又是机器人。

这是一个螺旋式上升、相互成就的过程。

我们正是在为实现这一终极愿景而努力。

本文地址:http://www78564.xrbh.cn/quote/34342.html    迅博思语 http://www78564.xrbh.cn/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关最新动态
推荐最新动态
点击排行
网站首页  |  二维码  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号