人形机器人的技术,包括软件、硬件、AI三个方向,硬件则包括电机的制作,等等;软件方面则可以包括机器人外形的设计、VR/AR技术实现的仿真环境、计算机视觉、机器人学/导航和环境感知,等等;AI则包括计算机视觉、大语言模型、多模态模型、强化学习模型。

硬件嘛,机器人的外形和电机是非专业搞机械和电机设计的应该是搞不了,不过机器人学/导航和环境感知虽然形式上像软件但是往往被划分到硬件中,毕竟这部分的算法开发是完全为硬件服务的;而什么激光雷达的设计、多目深度/广度相机,这一类的需要雷达专业、光学专业、测量专业,等等。

由于硬件这方面的东西实在是小众,因此也就成了难点,本文重点不在硬件方面,而是讨论从软件层面出发从零开始建立一个智能人形机器人的几条可行性路线/选择。

根据开源的人形机器人的项目来进行研发,该方法的优势在于不需要对具体技术进行筛选(直接按照开源项目的技术路径往下走即可),缺点则是该种方法的项目数较少、选择范围有限、技术路线固定或落后,并且支持力度有限,作为入门学习比较有用,但是和其他商业闭源的项目来比有一定的技术滞后性。

自行收集网上的近些年的该领域的公开发表论文,并根据这些论文重新建立。该种方法自主操作性高,但是缺点就是难度大,费时费力,真实场景下可行性差,比较适合有较大资金投资的科研院所出来的立志成为下一个独角兽的创业团队,既能拉的来上千万甚至上亿的投资又能肯花出一年的时间不做产出只带团队读SOTA论文。(不论是对这些公开论文进行筛选和复现还是多算法之间的整合都是极为困难的,尤其是该种方式需要资金的长期投资,因此往往只有业内科研院所比较有声望的团队leader出来创业,或者是其他相关企业技术负责人出来独立创业才具有一定可行性,这样就可以依赖之前的业内声望和积累拉来大额的风险投资)

在NVIDIA 2024 GTC大会上老黄宣布的机器人项目GROOT,该项目的AI部分完全由NVIDAI提供的统一AI模型进行解决,该种形式貌似借助NVIDIA的AI平台可以更加便利和省事,但是由于NVIDIA平台的建立目标就是做业内的统一平台框架,因此使用起来也是存在的一点的入门门槛的,因此技术底蕴不多的团队也是很难入手的,该种方式适合其他行业的大公司团队做方向切换时采用。(优点是不需要技术选型,可以快速推进到下一步,缺点是NVIDIA的内部算法是商业不公开的,用户对该模型的训练细节和算法模型并不掌握,只可以获得导出的推理模型,这也意味着你将被彻底绑定到NVIDIA公司的战车上)

如果你现在各方面资源都有限,那么你适合选第一种方法(没有足够的人力和物力,只是几个人的小团队,更多的是进行技术尝试和积累,无疑开源项目是最好的入手切入点);如果你资源比较充足(人力和物力),但是希望短时间快速推进,不要求对算法细节完全掌握,那么适合选第三种方法,即用NVIDIA推出的集成多模块模型的AI产品;如果你资源比较充足(人力和物力),对于研发时间要求并不紧迫,但是希望对该技术的细节都有一定的掌握(一定程度的技术自主可控、可二次开发),那么第二种方法适合。

PS. 如何从零开始在软件层面上构建机器人,或者说做这些有几条路可以走,其实并没有完整的定论,最终哪种合适更多的看自身的资源和需求情况。