原创 堃方 42号电波
还记得今年 3 月稚晖君火遍全网的视频吗?当时,智元灵犀 X2 双足人形机器人会骑自行车,还能手缝葡萄。
今日,智元官网开启了灵犀 X2 的合作伙伴招募,接受用户预订。
根据智元灵犀部门总裁魏强透露,灵犀 X2 的售价从十几万至三四十万不等,用户可以灵活选配。开启预订后,今年下半年就会量产,预计今年出货数千台,到明年年底出货量能达到大几千台的规模。
就在上周,灵犀 X2 还迎来了一次技能升级。最新升级后的灵犀 X2 更有「生命力」了。魏强总结了三个特点:灵动、亲和、智能化。
它的灵动主要体现在类人的运动能力,比如颈部有 2 DOF,能够摇头晃脑与你互动,再比如它能学习多种步态,甚至能模仿老奶奶走路。
它的亲和则在于它拥有拟人的交互,例如它自己的 IP、定位和属性,并且这类性格标签会随着用户使用而不断变化,同时它的交互方式更加丰富,有视觉、语言、触觉、表情等方式。
最后它的智能化则体现在它能够自主导航、自动避障、自主充电,能够摆脱始终的遥控,存在一些自发性的行为,进而能更好地与物理世界进行互动。
借此时机,42 号电波等多家媒体共同采访了智元灵犀部门总裁魏强,围绕灵犀 X2 和一些市场、技术问题聊了聊。
交互能力:机器人的生命力
今天上午,智元机器人官网正式开启灵犀 X2 合作伙伴招募。这款机器人分为三个版本,分别是灵犀 X2(交互版)、灵犀 X2 Pro(探索版)、灵犀 X2 Ultra(旗舰版)。
根据产品定位的不同,X2 与 X2 Pro 拥有 25 个自由度,X2 Ultra 则拥有 31 个自由度。Ultra 版本在两只手臂以及腰部分别增加了 2 个自由度。
这样一来,灵犀 X2 可以实现拟人步态、语音对话、触摸反馈、情绪表达、灵动动作等运动及交互能力。灵犀 X2 全系产品还可选配高阶运控功能包和高阶交互功能包,如舞蹈、太极、多模态交互等技能。
魏强表示,智元三大产品线中,相比较聚焦工业的「远征」以及科研场景中「精灵」,「『灵犀』主要打的是交互,我们其实还是和人在各种各样场景里面产生交互,进行轻作业的」。
根据配置信息,Pro 和 Ultra 版还装有 4G/5G 模块,为户外场景提供网络支持,并且可选配自主导航功能。同时,这两个版本都还会提供支持二次开发的接口。
「用户可基于灵犀本体和本体里面嵌入的软件进行二次开发,可开发的内容包括基本的关节电机控制到交互算法以及整个『硅光动语』大模型。」魏强说。
此外,Pro 版本还可进阶选配自适应夹爪 OmniPicker、末端灵巧手 OmniHand、超视距遥操和动捕动作录入功能。
在产品定位上,灵犀 X2 并没有面向消费级市场,而是 B to B to C 的模式。魏强称「我们面向使用场景里面的用户是终端消费者,(比如说文娱展演里面的一些游览用户),但其实我们切入这个场景是通过 B 端来进行合作的。」
智元灵犀 X2 拥有角色定位和人格设定。据魏强介绍, X2 是半尺寸机器人,其 130 cm 的身高来类比人类的话,正像一位十四五岁的少年,因此它也被定义为「硅基少年」。同时它的人格是「有趣,温暖,好奇心爆棚」,MBTI 人格类型为 ENFP。
这些是其模型特定的参数。当然,这一出厂设置并非一成不变,当其与用户进行长时间交互后,在交互数据积累中,模型也不断学习,进而其性格会发生变化,类似于「养成类」产品。这种自带角色定位和性格变化的机器人,某种程度上也如同人类一样不断「成长」,只不过以硅基的方式进行。
在角色之外,灵犀 X2 最大的升级在于增强了交互能力。这款机器人具备视觉交互、语音交互、触觉交互以及表情交互,通过头部的双目相机、麦克风列阵、触觉传感器以及头部的液晶显示屏,灵犀 X2 可以接收外部信息并把自己的情绪状态通过它的眼神和表情、声音甚至动作表达出来。
而除了这些基础的、硬件方面带来的交互能力,更深层次交互升级表现在以下三个方面。
主动交互
灵犀 X2 的交互方式不是一种简单的你问我答的反馈交互模式。用户甚至不需要向其提问,只是走在它面前,它就会根据视觉信息主动进行交互或者说是「前馈」,这一反「触发任务」式的玩法。
视频中,机器人稚晖君走到灵犀 X2 跟前,尚未开口,机器人就进入交互状态,主动介绍自己并询问对方的来意。
同时,智元灵犀还希望将机器人的内心世界展示出来,即通过「内心戏」模式将模型的思考过程展现出来。以往我们与机器对话,甚至说与大模型对话,多囫于「技术黑箱」,不知道模型为何会说出这些话。而内心戏这种模式,则让我们打破这种未知,更好的看到机器人的所思所想,在一定程度上满足人类的好奇心与控制欲。
此外,这款机器还能在「硅光动语」大模型的支持下,通过嵌入不同 RAG,满足不同场景的专业需求。
身体灵活
机器人追求高自由度、优秀的运动控制很多情况下都是为了使其能够更好的接近人类运动能力。机器的动作僵硬,是一种在观感上以及触觉交互中都阻碍人类与之交互的痛点。
灵犀 X2 与市面上多数机器人不同,它的头部拥有 2 DOF,可灵活转动,同时在模型加持下,还可以随机地摇头晃脑,东张西望,做出一些拟人的小动作。
此外,这种身体的灵活还表现在机器人的步姿。如果它走起路来蹒跚踉跄,用户则很难将其看作机器「人」,而非其他移动「物」。智元机器人在运动控制这一块做了升级,灵犀 X2 可以学习多种风格步态,甚至能够反讽式地学起老奶奶走路。
在多种摔倒场景下,可以迅速爬起来。
当然,这款机器人也学会了一些拳脚功夫,如手刀劈木板、回旋踢等。
智商在线
第三个交互升级方向在于智能。上文所说的行走能力,其实是基于运动控制,即在执行器控制上使用「巧劲」,但如何让机器人能够自主导航行走,则更多的是看「脑力」。
这种自主导航不是基于事先规划好的路线而走的避障功能,它可在复杂的场景下,譬如说在主题公园里面或者在科技馆里面,游客相对比较多,在这样情况下机器人也能够稳定实现从 A 点到达 B 点的自主导航、避障功能。
现在,灵犀 X2 能够实现基于算法自主决策,不依赖遥控操作,自主导航、自主避障、自主充电。
总之,不管是基于模型的语言、视觉交互,亦或身体在物理空间的交互,智元这款升级后的灵犀 X2,都进步不少。这有助于其更好地适应展厅讲解、文娱以及科研等不同场景下的交互需求。此外智元还表示,这几类场景已经在与合作伙伴共同开发,未来将探索康养陪伴场景。不过魏强认为「康养陪伴刚开始是不会直接走入家庭的,而是在一些养老社区环境下面,给一些老人做康养陪伴的服务。」
根据智元机器人的规划,预计今年二季度还会发布一款四足机器人,暂时命名为灵犀 D1。
附:QA 摘编内容
42 号电波等多家媒体共同采访了灵犀产品部总裁魏强,以下是 QA 摘编内容。
Q:灵犀 X2 定价多少?
魏强:从三个版本的机器人配置来看,我们整体价格范围是在十几万到三四十万之间。为了满足用户在不同场景上需求,我们提供了不同的配置。比如说用户展演时不需要灵巧手,希望腰部自由度多一点,可以多跳舞,那你可以选择这个配置的。如果在科研场景里面可能真的需要灵巧手的,我们就提供灵巧手。所以我们通过不同硬件配置提供不同价格。软件也是一样的,我们高阶的运控包都是可以做选配功能。
Q:客户主要来自于哪些行业呢?现在订单量怎样?
魏强:行业有几类。一类是像文娱展演,这个是现在需求量比较大的。第二类就是像运营商,还有包括一些银行,还有 4S 店展厅上的讲解服务。第三类就是科研教育,从我们现在来看,教育市场需求还是比较强的。今年出货量可能会在数千台的水平。
Q:灵犀 X2 最先落地场景(教育、文娱展演、讲解)后续能够为哪些领域提供的积累或者帮助?
魏强:因为我们现在这个产品有两大基本功能,三个基本功能里面有两个是我们最终要突出的。第一个就是运控,第二个交互能力。作业能力也可以通过我们灵巧手做一些简单作业能力,相对来说还是简单,不能做到特别复杂的。
我们认为在刚才谈的这些场景里面,我们的运动能力和交互能力可以在实际场景里面得到数据积累和提升。
运动能力我们可以适应一些不同运动场景,包括路面、斜坡包括做一些复杂的舞蹈动作,这样情况下提升我们运动的稳定性和平衡性。
我们是一个多模态交互,通过语言加视觉甚至包括触摸,包括空间物理位置系统,构成一种复杂的基于物理世界场景的交互。针对这种场景下,我们可以获取更多交互数据来不断提升我们硅光动语大模型能力。也是从这个维度上讲我们其实没有用市面上通用的模型,我们用我们自己定制开发了一套硅光动语大模型,目的就是可以在交互和运控场景下面,通过我们积累数据、积累经验能够把我们模型能力不断提升。
Q:哪些场景商业化的进展会快一些?
魏强:从我们现在整个获得需求和我们现在合作进展来看的话,文娱展演和展厅讲解相对来说还是比较快的。举个例子,虽然我们 X2 还在开发过程中,其实已经有很多客户找到我们,希望能够提供产品,能够在公园里面做一些展演,而且需求量还是不小的。从这个来看的话,今年下半年开始文娱展演和展厅讲解里面可能是比较强的。教育领域相对来说是比较传统的,需求量不会那么快速爆炸式增加,但是也是相对稳定和向上增长的过程。
Q:灵犀 X2 系列机器人是否会进入工业场景中吗?
魏强:我们身高一米三,不是全尺寸一米七的。而且我们现在手部的力量,为了保证动作的灵活性,我们手部的力矩没有设置得特别高。所以现在还是定位在前面几个场景,工业场景暂时不是我们考虑的范围。
Q:灵犀 X2 硬件配置方面,国产供应链占比如何?
魏强:我们国产硬件整体物料占比是 80%以上。
Q:现在消费级具身智能当前面临最核心的技术瓶颈是什么?
魏强:其实我们现在也不叫消费级的,我们现在模式是 B to B to C 的模式。虽然说我们面向使用场景里面的用户是终端消费者,比如说文娱展演里面一些游览用户,但其实我们切入这个场景是通过 B 端来进行合作的。在这个模式里面如果真正进入到纯消费级的面临的第一个问题就是泛化能力。纯消费级的各种场景有的时候是完全开放级,不是一个受控或者是一个闭合的,很多场景你是无法预测的。在这个场景下面我们的肢体动作能力还有 AI交互能力还有包括作业能力,还有对场景识别和理解能力,目前来看或者整个行业还没有达到完全准确的泛化能力。
Q:我们如何来平衡技术突破和成本控制,能够把灵犀机器人进行规模化普及?
魏强:我觉得技术突破和成本控制之间没有一个必然联系。因为算力现在并不是构成突破现在技术的卡点的关键因素。其实还是需要一些泛化能力,这个泛化能力体现在几个层面。一个是硬件层面,首先我们的关节电机的灵活度,需要不断提升。现在关节电机灵活度虽然和两三年前有很大提升,现在也能够做到几厘米范围之内精巧的动作。如果和人体相比还有很大提升空间,这是一块。交互能力,对复杂场景的理解和判断能力,这一块在模型端还需要有一些更高维度的提升。这个是说技术卡点,还有很多不一一展开了。
从成本来看,做消费电子之类产品或者做硬件产品,量是很关键因素。如果我们有足够大的规模,整个产业链是可以针对我们的需求来不断进行优化的,这样的话我们成本肯定不断下降的。例如关节电机还有结构模组还有一些芯片包括灵巧手的结构件,很多材料领域里面都需要一起实现高品质规模化,这样才能够把我们整体的成本进行降低。
Q:文艺表演热度是很快消去的。你们预测像文艺会演市场需求规模会到多大?大概什么时候往下一个场景走?
魏强:人形机器人在文娱展演或者展厅接待在教育领域相对来说比较明确,但是这个属于纯新的领域。规模多大可能也没有特别准确的,整个行业也没有特别准确的判断。
首先,人形机器人都在实验室里面,但要保证这个产业健康长期发展的话必须要在实际场景里面进行商业化。如果没有这一步迈出去的话,永远只是一个实验室的产品。走出去商业化场景,无论哪一个场景谁都不敢说这是未来持久持续必然存在的场景。家庭肯定是,但是家庭现在做不到。
其次,文娱展演场景之前也有很多行业里面人在做,但是我觉得这还取决于对这个产品的理解和对这个产品自身的理解,包括大模型出现以后交互能力增强,包括现在关节电机、运控能力的提升,能够实现的交互自主判断的能力和操作运控的能力可能会增强,是不是就有机会在这些场景里面能够持续提供一定的价值?这是第二个维度要考虑的。
第三个,我还是觉得无论是什么样的产品,必须要构成一个商业闭环。你必须要有产品走出去,在实际场景里面得到应用,经过这个场景不断积累,可能走着走着下面发现一个新的场景。所以我们也提供二次开发平台。平台上面不仅仅我们自己设想场景,而且也希望我们的合作伙伴发挥他们的聪明智慧,在基于我们二次平台和本体能力上面,他们创造自己的可应用的场景。
Q:您会否定像科研教育、文艺会演包括接待服务是天花板很明确场景,还是你觉得这个场景比我们想象市场规模大很多?您刚刚说养老康复算是你们下一阶段就要进军的场景吗?
魏强:我们现在有一个需求量的预估,这个预估其实远超我们预期。但是这个行业天花板在哪里?至少从我们现在市场调研和过去数据还没有一个明确。因为才做了几个月,整个市场出现才几个月。另一方面,机器人在文娱展演、科研教育也有一个不断迭代的过程。不仅仅是一个产品出去就完事了,可能还会有不同技能上迭代。我觉得某种程度上可能有点像无人机当时发展过程,这个也可以作为我们一个参考。这个是前面这一块。
后面场景拓展的话,养老是我们未来看的一个方向,也可以算是一个重要的方向。但是在我们一些高端养老院或者养老社区,在这种场景里面我们不是针对家庭里面养老。
整体来看两个维度,第一个维度是需求,只要是在场景相对来说不是完全开放的,需求还是有的。第二个,看我们技术的成熟度,我们技术能力和场景需求怎么能够匹配到一个比较好的点,包括成本各方面能够在这个场景里面真正应用,提供价值。
Q:对于技术卡点,硬件和软件,您觉得哪方面目前是已经成熟到可以支持我们将人形机器人落地产品了?
魏强:硬件能力现在基本能够以量产产品推出,但是优化空间还有的。
关键模组的重量和寿命包括它的发热、功耗和效率其实都是有进一步提升空间的。包括芯片,SoC 各方面的能力。
而且人形机器人是一个多模态交互,多模态不仅仅包括语音和视频还包括数据、触觉、动作,各种各样的传感器。所有的传感器的输入怎么样能够让模型有一个正确的理解和模型产生的反馈如何直接映射到所有的电机或者说传感器的输出上面,这个其实也在发展过程中。我觉得两方面都有很大发展空间。
Q:灵犀目前这条产品线会不会跟其他的两条产品有一些冲突呢?远征或者精灵。
魏强:我们有非常明确的定位区分。「精灵」比较简单,是一个做数采的,轮式的。它的主要作用是采集数据,为算法模型训练提升我们抄作业能力,这个形态上和人形机器人有很大差别。「远征」系列高度是一米七,而且整体重量在五六十公斤,身上的自由度也是非常多,40 多个自由度,和「灵犀」还是不一样的。它的使用场景比较严肃一点或者比较正式一点的展厅还有一些工厂里面操作。因为它的电机力矩输出也是非常大的,就是在这些场景里面可以使用。
「灵犀」主要打的是交互,我们其实还是和人在各种各样场景里面产生交互,进行轻作业的。
Q:明年到后年你们希望灵犀价格是多少?
魏强:我们觉得谈价格的时候一定要看场景看客户。比如说教育领域里面,其实老师在乎的是性能,性能能够满足他的要求,而且量也不是特别大。他的(价格)敏感度不是很高,稍微贵一点也无所谓。人形机器人刚出来的时候都是大几十万,上百万。去年已经能够降到几十万的水平了,现在业界里面有不到 10 万的这样的产品。从这个趋势来看,实际上随着产业链不断升级和优化,确实成本一路往下走的趋势还是很明显的。
第二点,我们智元灵犀做的产品首先不去打价格战,比谁的价格低来做。我觉得人形机器人这个产品目前这个阶段去打价格战还稍早。因为整个产品软硬件成熟度和应用场景还是在不断探索和扩展过程中。最重要这个阶段解决的不是价格的问题,而是怎么样能够给用户带来价值的问题,如果真的有用了,能成量了再去讨论怎么样优化成本,那是第二步的事情。
Q:灵犀 X2 的性格是一开始预设好还是训练过程中自发形成的?未来可以不可以自己设计它的性格?
魏强:我们出厂的时候每一个机器会有一个性格,就是我们之前介绍的,是属于一个相对来说活跃比较外向的性格。其实这个性格表现是通过模型参数设定的,这个是可以在实际生活中或者交互中在环境中不断优化这个参数。我们模型具有一定学习能力。譬如说经常会产生不断交互的话可能会变得越来越活跃。
一方面是取决于具体场景的需求,我们可以在基础设定上面加上一些特定用户需求。另一方面,我们可以让它在后面的生活中,不断去获取用户和它的交互信息,让它的性格逐渐去符合用户需求,这个其实也是一个模型学习,通过数据我们不断训练参数的过程。
Q:你们会用一些端侧 AI 芯片,国产新的架构芯片去做吗?
魏强:我们整个系统架构来区分的时候,我们其实不想把端侧做得太重。我们材料里面也写了,用了一个 RK3588,RK 主要进行一些运控,还有简单视觉。我们去做像大语言模型,全量的语音识别,我们都是放在云端去做的。
我们提供英伟达 Orin 这个平台,其实我们在它上面并没有做太多功能,我们把室内外导航放在上面。为什么选择这么一个强的算力芯片?其实还是为了给用户提供平台。方便大家自己做功能和算法,不必为此再外挂一个板子或者一个芯片。
至于其他架构,我觉得我们提供了二次开发接口,但是要评估这个架构是否能和我们系统进行匹配。我们也有一种模式——只提供我们的本体,针对一些大批量客户只提供本体框架,可以提供软件和硬件二次开发接口,让用户可以接入其他经常使用一些硬件平台,这个模式也是支持。
Q:现在大部分机器人开始租赁模式,租赁如果租不动的话,接下来我们怎么更好售卖出?
魏强:租赁市场现在出现的变化,我觉得这是一个短期现象。我的理解这个市场其实年后这段时间快速涨起来了,爆发式的涨。我觉得这个可能也不一定是一个健康模式。我觉得它需要回归到一个相对来说比较理性或者有迭代的模式下面走才有价值。
过去几个月,我理解出现情况大家都是同样一个东西,你能做的表现力就那么多,拿着摇控器做一做。我是觉得同质化太严重导致的。大家基本功能都是一样的,真正在文艺场景里面去应用的,目前情况下基本上都是遥控一下,挥挥手这样的。我觉得在展演场景是很不够的。这只是很简单迈出第一步,甚至第一步都不算,而且将来更复杂的动作还可以不断迭代升级呢?
Q:智元灵犀 B to B to C 的模式,如果 B 端(租赁)出现了一个滞胀的状态,作为智元如何面对这个问题?
魏强:我们这次其实也是招募一些合作伙伴,所以我们不是说把这个机器人做出来以后直接给到一些租赁公司,让他们在场景里面去租赁。其实这个只是我们其中一个销售渠道或者模式,我们其实还有很多其他的模式。比如说展厅讲解,这是大的区分。另外其实我们还和一些重要合作伙伴进行合作。就是针对一些主题公园还有一些园区还有一些场馆,我们其实一块进行市场拓展。 这种租赁公司的模式,我是觉得只是我们其中一个,这个是第一点。
第二点,刚才也讲了一点。展演这个市场还是继续可以往下进一步深耕的。现在受阻是多维度的,一个是同质化的东西比较严重,另外可能用户的新鲜感过了。新鲜感过了只是对目前这些机器人的状态,是不是有更新的东西,用户的新鲜感又会再回来,类似于这种的。
Q:灵犀 X2 ,您说的「主动反馈」是让机器人更加主动去做一个先手互动而不是人跟机器人互动之后再做一个后手?
魏强:您说得非常对。我们不是用户触发了以后才进行反馈。视频里面也可以看到,如果一个人站在它面前,如果它的摄像头看到一个人,它可以通过自己模型或者对这个场景理解和判断可以选择是否要过去跟这个人来进行交互,这个完全是主动的,而不是需要用户通过语音或者通过什么东西触发来实现的,这个也是我们硅光动语一个重要的特点,就是通过主动的形式实现,而去提升我们智能性。我们觉得这个能力比较适合于在一些展厅讲解这些场景里面,能够像展厅里面服务人员一样主动和客人进行交互。
Q:灵犀 X2 出产数量有一个大概预期吗?预计到 2026 年底。
魏强:因为2025 年下半年开始已经能够实现规模化出货了。可能根据市场反馈我们还会去调整我们产能和产量,到2026 年底的话,我们期望有大几千台的规模。
作者:堃方
原标题:《智元能骑自行车的机器人开启预订,2025 年有望出货数千台》
阅读原文