版权所有 © 2020-2021 YABO鸭脖机械有限公司 版权所有. 苏ICP备11006056号-1 网站地图
邱经理:13601566060 / 胡经理:18020239038
图 1。ThinkAct 概述。 ThinkAct 已经经由过程呆板人操作及具身推理基准测试。于具身 AI 使命中,它乐成实现了少样本部署、长视距操作以和自校订功效。 图 2。长视线操作使命的可视化展示。
利用 Sim-and-Real 计谋举行结合练习 练习呆板人履行操作使命需要于差别使命、情况及对于象配置之间网络数据。一种经常使用的要领是举动克隆,即于实际世界中收罗专家演示。理论上,这类要领具备可行性,但现实运用中成本较高,难以年夜范围扩大。实际世界的数据收罗依靠人工操作员手动提供演示或者监控呆板人运行,历程耗时且受限在呆板人硬件的可用性。 一种解决方案是于仿真情况中网络演示,这类方式可以或许实现主动化及并行化,从而高效便捷地获取年夜量数据。然而,于模仿数据上练习的计谋往往难以有用迁徙到实际场景中,其底子缘故原由于在仿真与实际之间存于差距:仿真体系没法彻底复现真实世界中物理特征、动力学举动、噪声滋扰以和反馈机制的繁杂性。 仿真及实际计谋协同练习经由过程联合仿真情况与极少量真实世界演示,进修通用的操作计谋,从而弥合仿真与实际之间的差距。该要领构建了一个同一的仿真与实际协同练习框架,旨于进修一个同享的潜于空间,使仿真不雅察成果与真实世界数据实现对于齐。该框架基在仿真与实际协同练习的相干研究,并采用了更具表达能力的暗示空间。这类暗示方式不仅晋升了对于齐效果,还有可以或许捕获与动作相干的信息。其焦点思惟是使不雅察成果与其对于应的动作连结一致,从而使计谋可以或许于仿真及真实情况中均有用运行。 这些表征是经由过程一种称为最优传输 (OT) 的技能来进修的。OT 能帮忙计谋辨认仿真与真实世界数据中的相似模式,确保不管输入来自模仿还有是真实情况,用在选择操作的要害信息连结一致。因为模仿数据凡是远多在真实数据,是以可经由过程扩大至非均衡 OT (UOT) 框架来应答这类数据不平衡问题。UOT 采用特定的采样要领,纵然于数据集范围差异较年夜的环境下,也能使练习历程越发高效。
图 3。基在 OT 的仿真与实际计谋协同练习概述。 利用此框架练习的计谋可以或许乐成泛化至实际场景,纵然这些场景仅于练习数据的模仿部门中呈现。于晋升、重叠立方体以和将箱子放入垃圾桶等呆板人操作使命中,对于该要领的仿真到仿真和仿真到实际的迁徙能力举行了评估。
图 4。经由过程仿真与实际协同练习,该计谋仅需至多 25 次演示便可进修长视线使命,例如将物体分类到关闭的抽屉中。 利用 RobotSmith 改良呆板人东西设计 大都呆板人操作使命触及利用差别的东西及物体。利用东西是呆板人与情况交互并履行繁杂操作的要害功效。然而,为人类设计的东西因具备多样且繁杂的形状尺寸,致使呆板人难以有用操作。当前的呆板人东西设计要领凡是依靠不成定制的预界说模板,或者采用未针对于此目的优化的3D天生技能。 RobotSmith 经由过程提供一种使用视觉语言模子(VLM)的主动东西设计框架来应答这一挑战。VLM 擅长推理 3D 空间与物理交互,同时可以或许理解于包罗差别对于象的情况中呆板人可履行的动作。这些要害能力使其于高效的东西设计中阐扬主要作用。 RobotSmith 将视觉语言模子(VLM)中的先验常识与仿真情况中的结合优化历程相联合,以天生面向特定使命的东西。其三年夜焦点组件为: Critic Tool Designer:两个 VLM 智能体协作天生候选东西几何图形。 东西利用计划器:依据设计的东西与场景天生操作轨迹,并于模仿中履行及评估候选轨迹和抓取效果。 “Joint Optimizer” (结合优化器):于仿真中结合微调东西几何图形与轨迹参数,以尽可能晋升机能。此历程对于剔除了可能致使使命掉败的次优东西与轨迹组合至关主要。 RobotSmith 以这类方式为推送、扫描或者关闭等使命天生差别的东西设计方案。
图 5。RobotSmith 迭代东西设计,确定高效的设计,并使用所设计的东西天生轨迹,以完成用户使命。 于仿真情况及实际世界使命中对于 RobotSmith 举行了评估,完备的试验与成果详见论文。建造煎饼作为一项现实测试使命,框架针对于每一个步调(例如压和蔼抹面)设计并利用了差别的东西,注解该框架可以或许乐成履行长间隔使命。
图 6。RobotSmith 设计并利用针对于长视线操作场景中各子使命优化的专用东西。 经由过程 NVIDIA Cosmos Cookbook 缩小仿真与实际之间的差距 于本博客前面,咱们切磋了仿真与实际之间的差距,并先容了怎样使用合成数据练习呆板人计谋。传神且多样化的合成数据集可以或许天生靠得住的计谋,使其更好地顺应实际世界。NVIDIA Cosmos 开放世界基础模子(WFM),尤其是此中的 Cosmos Transfer,可以或许经由过程单次模仿天生传神且多样化数据,从而扩大合成数据集。完备的流程可于Robotics Domain Adaption Gallery(呆板人范畴自顺应图库)的示例中找到。 除了了此事情流以外,NVIDIA Cosmos Cookbook 还有提供了分步引导及后练习剧本,帮忙快速构建、定制及部署合用在呆板人、自立体系和代办署理式体系的 Cosmos WFM。内容深切切磋了如下示例与观点: 快速启动推理示例以实现快速部署与运行。 高级后练习事情流程,撑持特定范畴的邃密微调。 颠末验证的可扩大、出产就绪的部署方案。 涵盖基础主题、焦点技能、架构模式和东西文档的焦点观点。 Cosmos Cookbook 是物理 AI 社区别享 Cosmos WFM 实践常识的资源平台。咱们接待各方经由过程 GitHub 孝敬内容,包括事情流、要领、优异实践以和针对于特定范畴的调解方案。 入门指南 于本博客中,咱们切磋了晋升呆板人操作能力的新事情流程。咱们展示了 ThinkAct 怎样经由过程“先思索后步履”的框架,对于呆板人动作举行推理与履行。接着,咱们会商了怎样于通用操作计谋的练习中联合利用模仿与真实数据。咱们还有分享了 RobotSmith 怎样天生呆板人东西设计,以优化完成繁杂使命时的东西利用效率。末了,咱们先容了 Cosmos Cookbook 怎样借助 Cosmos 模子,为物理 AI项目提供示例及同享空间。 查看如下资源,深切相识本博客中会商的事情: ThinkAct:论文、项目网站 针对于仿真与实际计谋结合练习的通用范畴顺应性:论文、项目网站 RobotSmith:论文、项目网站 Cosmos Cookbook:网站、GitHub NVIDIA 研究团队于 NeurIPS 2025 上发表了多篇论文,涵盖 ThinkAct、Generalizable Domain Adaptation 及 RobotSmith 等研究标的目的。 本文是 NVIDIA 呆板人研发择要 (R2D2) 的一部门,旨于帮忙开发者深切相识 NVIDIA Research 于物理 AI 与呆板人运用范畴的最新冲破。 关在作者 Asawaree Bhide 是 NVIDIA 的 AI 嵌入式工程实习生,致力在优化及部署边沿装备上的深度进修模子。她今朝正于乔治亚理工学院攻读计较机科学硕士学位,她对于解决由详细代办署理自立导航的繁杂感知使命感兴致。Tomasz Lewicki 是 NVIDIA 的嵌入式工程实习生。他拥有圣何塞州立年夜学计较机工程硕士学位,华沙工业年夜学华沙工业年夜学呆板人工程学学士学位。他的兴致集中于计较机视觉及呆板人运用的深度进修上。 原文标题:R²D²:联合仿真与语言模子晋升呆板人操作能力
文章来由:【微旌旗灯号:NVIDIA-Enterprise,微信公家号:NVIDIA英伟达企业解决方案】接待添加存眷!文章转载请注明来由。
借助NVIDIA技能晋升呆板人的挪动及全身节制能力 咱们经由过程于自身平台上颠末验证的进步前辈研究来应答这些挑战。咱们的要领将前沿研究与工程事情流相联合,并于咱们的 AI 及呆板人平台(包括 NVIDIA Omniverse、Cosmos、Isaac Sim