可识别的三重三重识别:AI2机器人AI2模型AI Molmoact中的AI2机器人

他于8月16日报告说,AI2研究组织正在开设GitHub Molmoact机器人的“动作推断模型”(ARM)模型。该模型主要用于合并的机器人场景,据说它解决了三维空间中机器人动作的计划和理解问题。报告表明,与传统视觉语言(VLA)的作用模型(仅取决于文本描述以估算动作)不同,莫尔莫act旨在克服不足的语言困难,无法完全代表三维环境中深度与距离之间的关系。因此,Molmoact会在第一阶段产生由VQVAE获得的空间识别令牌。相应的令牌包含几何和位置信息,可用于评估对象之间的距离并为后续计划提供基础。在第二阶段,模型在图像中生成一系列通道空间作为任务的中间目标,直观地显示动作的顺序。在第三阶段,通道点成为最终机器人或机械爪效应子的低级电动机指令,并且根据机器人的胶片配置进行动作解码。研究人员指出,在一个称为SimArenv的模拟测试环境中,Molmoact-7b在训练集未见的任务中达到了72.1%的成功率,优于实验室控制模型,例如体育智能,Google,Microsoft和Nvidia。对于释放模拟平台上的多任务和生活测试,在进行有效参数的精细调整后,平均成功率提高到86.6%。同时,与该行业的机器人模型相比,Molmoact具有上限成本量。在培训之前,我们仅使用2630万样品和256 GPU H100。进行精细调整只需要64 h100,并且可以在大约2中完成小时。此外,为了降低机器人操纵的风险并提高可解释性,在执行动作之前,Molmoact在进入图像中内部计划的运动轨迹中重叠,这使用户可以直接查看和修改动作计划。同时,用户还可以使用该方法通过平板电脑等设备标记姿势或目标路线。该模型会立即为一组设置集成这些注释。目前,AI2是开放的同步,并在GitHub(https://github.com/allenai/molmoact)中获得了Molmoact-7B的完整资源。官员们强调,这些资源和工具将帮助另一个研究团队在各种平台和机器人任务中得到充分验证和优化。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:上一条IOUS内容(如果您有Inc的照片或视频,则NetEase Hao的用户已由社交网络平台NetEase Hao加载和发布,并且仅提供信息存储服务。

文章已创建 144

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部