| 雷峰网
0
作者:赖文昕
编辑:陈彩娴
上个月,在机器人国际顶会 ICRA 2024 中,AI 科技评论发现:中国机器人企业正在崛起。
宇树科技、傅立叶智能、乐聚机器人纷纷派出自家的双足人形机器人,非夕科技展示机器人双臂遥操作、力控夹爪,逐际动力带来双足机器人与四轮足机器人......
在一众「本体派」企业中,定位为「基础场景数据提供商和解决方案提供商」的艾欧智能显得格外不同——他们产品的核心是「数据」及相关服务。
有趣的是,艾欧智能主攻「数据」,其创始人陈相羽,却是一位经验丰富、不折不扣的硬核「本体派」。
2014 年,陈相羽从北京大学智能系毕业,前往东京大学顶尖人形机器人实验室 JSK Lab 读博,师从实验室主任稲葉雅幸(INABA MASAYUKI),研究方向为机器人视觉和传感器技术。
在 JSK Lab 深造期间,陈相羽参与了 DRC——由 DARPA(美国国防部高级研究计划局)主办的顶级人形机器人挑战赛,与全球 20 多个顶尖团队同台竞技,其中包括 Figure AI 前CTO Jerry Pratt 带领的 IHMC。陈相羽参与了全尺寸机器人 JAXON 的研发,专注于实现高速、高扭矩的关节运动,由此深化了对人形机器人软硬件的理解。
此外,陈相羽还作为核心人员参与了 MBZIRC 无人机比赛,不仅获得了 35 万美元赞助,还荣获 2017年IEEE AIM 的 Best Student Paper和2018 年 IEEE ICRA UAV方向的 Best Paper。他在赛中研发了关键的小型激光传感器,该技术也成为他博士论文的基础。
2018 年回国后,陈相羽加入了刚成立的腾讯机器人实验室 Robotics X。腾讯需要员工有一个英文花名,他给自己起了iochen,io是他回国后给养的猫起的名字,源于dota里的英雄角色——小精灵。与此同时,IO也有input&output,1和0的寓意。陈相羽参与的第一个项目便是由来杰(星尘智能创始人)负责的自平衡自行车。紧接着,他开始担任四足机器人 Max 的项目负责人,项目成果获得了腾讯内部年度技术突破奖银奖。
2021 年,对制造业产业界更感兴趣的陈相羽去到小鹏汽车生态公司鹏行智能,负责机械臂中心,带队参与研发了全球首款具备「多模态交互」能力的可骑乘智能机器马。
2023年五四青年节,艾欧智能(IO-AI.tech)成立,致力于具身智能数据服务,为 AI 和机器人研发提供全面的数据支持和验证方案。
艾欧智能采用先进的惯性捕捉技术,采用多传感器融合,克服了传统动作捕捉的局限,实现在各种地形下的自由数据采集,适应日常环境,不影响人的自然活动。
采集的多模态数据包括动作、视觉、触觉和语音信息。利用头盔相机系统捕获视觉信息,数据手套和鞋底记录触觉数据,麦克风捕捉语音信息,这些数据经过融合,为机器人训练提供丰富的输入。
「我们是想解决掉真正的技术底层问题,所以才选择了数据这个出发点。」陈相羽告诉 AI 科技评论,他们的开源数据集已有超过 50 万条数据,覆盖了数十个场景、技能,涉及数百种被操作对象。
艾欧智能数采头盔
All in 数据的「本体派」
AI 科技评论:当时是什么契机促使你决定出来创业的呢?
陈相羽:2022年,随着谷歌 RT-1 项目和 GPT-3 模型的发布,尽管 ChatGPT 尚未问世,但其与机器人产品需求的高度契合已显而易见。在小鹏,我们计划开发一款家用机器人,执行拖地、提鞋、开关门、擦桌子等家务,但现有机器人依赖硬编码,智能化水平未达预期。
鉴于此,我们探索了类似自动驾驶的 GPT 加端到端训练方法,以提升机器人的智能。ChatGPT 的流行进一步证实了通用机器人智能化的可能性,感觉智能机器人最后一块拼图已经凑齐,激发了我创业的决心,希望能做出一些推动行业发展的事。
参考 GPT 的发展路线,我认为数据匮乏是机器人行业的一个主要难题和行业痛点。
AI 科技评论:所以你在本体经验如此丰富的情况下不做本体,而是聚焦于数据采集?
陈相羽:数据是当前智能化发展的核心。语言模型的智能涌现归功于互联网数十年的语料、图像等数据积累,以及 GPU 等算力的提升,这些共同推动了深度神经网络模型的实现。自动驾驶的演进也证实了端到端智能化的优势,特斯拉 FSD 通过收集海量的人类驾驶数据进行训练,展现了强大的环境适应性。
相比之下,智能机器人行业在数据和本体上存在经典的先有鸡还是先有蛋的问题。数据的匮乏从而缺乏 AI 理解能力,机器人就难以独立工作,形成商业和数据飞轮的闭环。而本体层面,我在小鹏工作期间,也亲见供应链的挑战:供应商要求大订单量以降低成本,但机器人市场尚未成熟,需求量不足以支撑大规模生产。
实际上,相比于AI,机器人硬件领域近十年未见革命性突破,中国制造业的优势在于规模生产降低成本,但这也带来了激烈的市场竞争,特别是在长三角和珠三角地区。机器人行业的价格战在需求规模尚未形成之前就已打响。
尽管团队具备本体开发经验,开发人形机器人可能吸引更多融资,但我认为当下同质化竞争尚无必要。人形机器人优势在于其任务的泛化性,真正的挑战在于如何走进有价值的场景,实现从原型到量产的跨越。目前,AI 能力是突破这一瓶颈的关键,这也是艾欧智能成立的初衷——通过数据解决行业底层技术问题。
AI 科技评论:所以你认为数据是具身智能创业的难点或壁垒吗?
陈相羽:没错,数据是一个行业难点。设想一下,如果现在我们有上亿小时的数据,机器人的智能化水平或许也会接近智能驾驶或者大模型。数据在未来可能成为核心燃料,但最终怎么确权,怎么运营,是现在大家都在探索的事情。不见得说谁有数据,谁就占领了绝对优势。未来有可能是人形机器人公司自己去采自己的数据,然后有一部分公司像 Scale AI 一样去做中间的数据处理服务。
除了数据,模型、算力、架构都是壁垒。大模型可以部署在云端,而机器人则需在端上部署,要做实时控制,跟外界实时反馈,但端上的算力目前还不具备这样的芯片。再有就是模型,现有的大模型可以去堆参数量,但机器人没法去堆这么大的数据,一言蔽之,目前机器人的数据、端上算力都不支持模型的 scaling law。
AI 科技评论:很多公司也自己采数据,那艾欧智能的优势在什么地方呢?
陈相羽:目前,企业各自构建数据闭环系统,通过自有数据采集和仿真学习进行技术探索,在行业未批量化应用前,这种独立探索是合理的。
我们的优势在于专注、专业地提供数据的全流程服务,不仅提供多种形式的机器人数据采集,还会提供数据处理、标注以及到到最终的模型部署。我们作为多年的机器人从业者,能深入理解客户需求,提供成本效益高并且保密合规的解决方案。相比之下,企业自己做这个事不仅成本高,还可能造成资源浪费。
在人工智能大会上,有人提议业界共享数据,但考虑到数据可能成为企业核心资产,尤其在生产环境如工厂车间,企业可能不愿分享数据,这进一步凸显了我们作为数据服务提供商的重要性。
虽然直接开发本体或零部件是可行的路径,但我们已决定暂时不涉足本体机器人制造,而是专注于提供数据采集和处理服务。我们相信,随着 AI 能力的提升,将人类工作数据应用于机器人,将是一项极具价值的工作。
AI 科技评论:那么艾欧智能有哪些创新点呢?
陈相羽:作为具身智能数据服务商,我们认识到数据定义、采集和处理的挑战,希望通过持续采集人机互动数据,实现数据量的扩展,并利用遥操作技术针对不同机器人构型进行精准训练。
因此我们开发了动作捕捉设备和融合算法,减少环境影响并确保数据精度;雇佣外采人员采集日常活动数据,并有专业标注团队使用自研平台进行语义标注;拥有数据采集设备和大量数据集,适配遥操作,精准匹配不同构型机器人;通过数据运维平台,实现动作与自然语言文本对齐,进行数据处理和融合、地图创建和标注,打通采集到训练全流程。
在算法研发上,我们复现开源框架来进行数据质量评估,并将这些作为baseline提供给用户。另外,我们还提供商业化的从数据采集、处理和标注到具身模型的训练和部署全链路服务。
目前,已积累超过50万条多模态数据,涵盖广泛场景和技能,包括视觉、运动学、触觉和声音数据以及自然语言标注,并提供遥控操作服务,助力客户数据采集和训练。
AI 科技评论:你不担心以后数据、本体、模型公司实现大一统吗?
陈相羽:如果资源和精力无穷的情况下,比如FANG或者BAT这种大厂有可能会实现,他们首先要养一个专门做数据的团队,但肯定是由中间供应商来做是最划算的,大厂之间其实很难实现数据共享,就和模型公司会用 Scale AI 的服务同理。
如果我们做的确好,具备竞争力,能够把数据做得质量更高、效率更高、成本更低,那我也想不出来为什么甲方不用我们的东西。对于客户很核心的机密性数据,我们也可以提供采集的设备和相关的软件服务,由客户自闭环,保护其数据资产的安全性。
探索「大脑」不必硬件完备
AI 科技评论:那其实现在大家尝试解决的问题是什么?
陈相羽:腾讯Robotics X实验室主任、腾讯首席科学家张正友博士曾提出机器人的三大重要问题:移动能力、操作能力和逻辑理解能力(AI能力)。
结合DRC 大赛以及JSK实验室的经历,我意识到机器人移动性的传统解决方案存在局限,多数依赖于地面识别和认知规划,缺乏环境适应性。在腾讯的时候我们便开始通过采集狗的行走数据并映射到四足机器人,实现了端到端学习。目前,无论是人形还是四足机器人,都在向数据驱动发展,以增强适应性和减少对预编程的依赖。
操作问题商业化验证了的主要为工业自动化,目前主要集中在国产化替代和核心零部件生产。中游市场的高利润则由工业机器人品牌“四大家”占据,壁垒较高。目前在这个红海很难找到理想的高利润 PMF(产品市场契合点),智能化或是唯一出路。而具身智能则是实现机器人操作智能化并将机器人操作场景进行拓展最有潜力的路线。
智能理解语义逻辑和任务规划是另一个挑战,即需要让机器人理解事件、动作和物体的 affordance(可供性)。传统上依赖 PDDL 方法,用 LISP 语言定义规则,构建知识图谱。但现在,AI 大语言模型已经能够通过对话直接指导用户执行任务,展现了前所未有的智能化潜力。
AI 科技评论:有人认为「大脑」更重要,也有人认为现在模型已解决不少智能问题,是硬件跟不上,所以得先解决「身子」的问题,你对此有什么看法呢?
陈相羽:我认为身体和大脑的发展是统一的,不可能独立进化。硬件的完备并不意味着大脑就能处理一切,除非硬件能自我思考。人类可以仅用一根筷子完成许多任务,但机器人目前还做不到这一点。
在机器人设计中,我们面临选择何种形态的决策,如二指夹爪、三指手、五指手等。人类手指使用频率的不同,例如无名指和小指较少使用,反映了进化中的偶然性,这提示我们在机器人形态设计上还有许多探索空间。
尽管如此,我们对人形机器人持乐观态度,因为世界是为人类设计的,人形机器人在环境适应上具有优势。尽管硬件开发存在挑战,如触觉传感器和全驱动灵巧手,但这些难点不会阻碍我们。简单的工具如筷子能完成的任务表明,即使在硬件不完善的情况下,机器人也能展现智能,不必等所有技术成熟才开始探索机器人智能。
具身智能的「GPT Moment」将至
AI 科技评论:手机有 iPhone Moment,大模型有 GPT Moment,你认为具身智能的 Moment 会是怎么样的,会在什么时候发生?
陈相羽:GPT Moment 是在 ChatGPT 真正产品化后,普通民众能真正体验到,产生了社会影响力。而技术层面上InstructGPT 和 GPT 3 的主要区别在于它增加了一个基于人类反馈的强化学习机制,提高了评分和训练的效果。
Instruct GPT时刻
我认为,未来可能会先有一个准确率不是很高、但能做各种事情的具身模型。随着技术的迭代,可能会出现类似 InstructGPT 的模型,将具身智能模型包装成类似 ChatGPT 的产品形式,让人们对成功率和容忍失败的态度有所改观,这将是 GPT 时刻的到来。
要产生社会影响力一定是 To C 的,但这并不意味着从一开始就要直接面向消费者,而是要经历 B 端或 G 端的降本和优化过程。直接 To C 的风险很大,难度也会指数级上升。不过我乐观估计可能在 3 到 5 年内,这个时刻就会到来。
AI 科技评论:在你看来,具身智能短期内(如一年)会如何发展?
陈相羽:具身智能企业目前主要销售给高校和研发机构,短期肯定也是以研发、高校科研为主,然后在一些固定场景或有泛化需求的工厂小规模落地尝试,比如汽车总装的最后一步,特斯拉在工厂里分拣插电池,也是一种尝试,我认为这部分可能会更快一些。
艾欧也会接触科研市场。在 ICRA 上很多国内外高校对我们的数据感兴趣,我们能提供科研授权,他们可以直接拿去发论文做研究。也可以提供遥控操作设备,将设备租或卖给高校使用,为他们的人形机器人采集数据或做其他事情。
AI 科技评论:你认为人形机器人会是具身智能的终极形态吗?
陈相羽:大家一直在讨论这个问题,以前是问人形是不是机器人的终极形态,现在问是不是具身智能的终极形态。这个世界是由人创造的,很多东西是为人设计的,所以会说人形是最好的形态。
黄仁勋最近也提到,人形机器人跟人有相同的构型(physique),构型相同就代表我们可以创造比其他构型机器人更多的数据来给人形机器人,帮助其完成 AI 训练。站在现在的技术架构上来讲,想象一个如蛇形、螃蟹型等其他构型的机器人,这些数据是更难以获取的。
黄仁勋在 Computex 2024上的讲演
AI 科技评论:可以分享一下艾欧智能的愿景吗?
陈相羽:我们将专注于解决机器人行业的挑战,推动技术在各场景下的实际应用,提升生产力,并帮助客户实现机器人技术的落地。同时希望最终能促成新型就业,在 AI 时代使蓝领工人的经验和技能得到传承,期望机器人技术的发展能让人类更轻松,减少人类的工作时间,推动社会进步做到一周三休甚至四休?。
目前,艾欧正在积极推进与本体和大模型公司的合作,公开多模态数据,包括视觉、触觉、声音和运动学数据,免费供大家使用。如果用户发现这些数据对他们有价值,我们期待能够进一步展开商务合作,成为他们的数据供应商,帮助他们采集数据,提供数据燃料。我们相信开放是技术的终局,只要公司能够持续运营,就会保持开放。
行业正处于研发到落地的过渡阶段,大家有不同的科技信仰和路线,艾欧致力于参与定义数据标准,为行业发展贡献力量。我们坚信,各种类型的数据最终都将展现其独特的价值。
本文雷峰网作者 anna042023 将持续关注具身智能行业的人事、企业、商业应用以及行业发展趋势,欢迎添加交流,互通有无。雷峰网(公众号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。