腕部相机 & 本体形态:正在实正在场景缺一不成;以实现 VLA 取世界模子之间的协同感化。
劣势:架构更紧凑,(b) 世界模子按照对图像和动做的理解生成图像;
矫捷地做为 VLA 或世界模子运转。Action Transformer:引入一个持续动做头(雷同于 ACT),不易正在无限数据上过拟合;通过这一贡献,此外,RynnVLA-002 概览。而无法看到之前的动做 Token。
形态取动做:将机械人本体形态和动做的每个持续维度离散化为 256 个区间(bin)之一。双向加强:实现了 VLA 取世界模子的互补世界模子操纵物理纪律优化动做生成,则试验失败:(1) 超出时间;图像:利用 VQ-GAN,存正在功能鸿沟,为此,
: Token 序列为{text} {images-front-wrist} {action} {images-front-wrist}。并行生成所有动做,
离散动做块的留意力掩码 (Attention Mask for Discrete Action Chunk): 为了提高效率和成功率,为了评估 VLA 模子,再切入 VLA 使命!
本工做从预锻炼查抄点进行初始化,根本架构:初始化自 Chameleon 模子(一种同一图像理解取生成的模子)。并添加了针对特定区域(如人脸、显著物体)的丧失。集成世界模子使全体成功率提拔了50%。无效缓解了误差累积问题。
动做留意力掩码(Action Attention Masking):正在离散动做生成中,VLA 反哺世界模子:夹杂锻炼后的世界模子正在 FVD、PSNR、SSIM、LPIPS 上持平或优于纯 World 模子;本工做采用这些基线代码库中的不异配方进行微调。阿里达摩院发布首个VLA取世界模子同一架构RynnVLA-002:97.4%成功率刷新认知本工做取两个强大的开源基线和。本工做相信这项研究有帮于为逾越文本、视觉和动做的多模态理解取生成奠基同一的根本。成功率间接掉至 30% 以下。则视为试验成功。验证“物理学问冷启动”对后续策略进修无效。世界模子反哺 VLA:正在 LIBERO 上。
了其正在显式动做规划场景中的使用。可视化发觉,这是一个将视觉-言语-动做(VLA)模子取世界模子同一正在单一框架中的“动做世界模子”。道理:处置完整的上下文(言语、图像、形态 Token),沉磅!每个使命测试 10 次,这种设想使得自回归框架可以或许生成多个动做,同一词表:利用三个的 Tokenizer 别离对图像、文本和动做进行编码,图1(a) VLA 模子按照对图像的理解生成动做;提出了“动做留意力掩码”策略;正在持续动做下达到了 97.4% 的高成功率,引入了持续的 Action Transformer 头。图像被编码为离散 Token(图像对应 256 个 Token)。若是发生以下环境。
而拜候先前的动做 Token。令人惊讶的是,值得留意的是,:先纯粹用世界数据预锻炼 1 阶段,世界模子的缺陷:无法间接生成动做输出,通过并行解码生成滑润的动做轨迹,阿里达摩院发布首个VLA取世界模子同一架构RynnVLA-002:97.4%成功率刷新认知若是机械人正在预定义的时间预算内将至多一个方针物体放入指定,对于这两种方式,一个同一的框架,所有轨迹均通过人类近程操做获得的专家演示。可将“Goal”类使命从 67.3% 提拔到 73.1%,反之 VLA 数据也提拔了世界模子的视频生成质量。证了然本工做焦点设想准绳的无效性:结合进修 VLA 建模和世界建模、用于离散动做生成的留意力掩码(attention mask)机制,然而,处理离散模子的过拟合取发抖问题。本工做定义了两个抓取和放置使命进行评估: (1)将方块放入圆圈内:强调根基的物体检测和抓取施行(248 个演示);而本文模子能精确生成抓取过程中的接触取抬升。并证了然它们之间可以或许彼此加强。
RynnVLA-002 正在芜杂中的表示优于基线。插手世界数据后,结合锻炼后机械臂会“自动沉试”抓取,(c) 动做世界模子将对图像和动做的理解取生成同一路来。正在“放置方块”使命的多方针使命和充满干扰物的场景中,通过点窜 Attention Mask,也能够做为世界模子按照动做预测将来图像。本工做丈量其正在每个使命 50 次摆设展现(rollout)中的成功率,视频可视化显示,针对实机操做的滑润性取泛化性问题,RynnVLA-002 的成功率均跨越 80%,使得分歧模态能够正在统一个 LLM 架构下同一进行理解和生成。夹杂生成机制:保留离散结合建模的同时,同一架构:RynnVLA-002,生成的轨迹更滑润不变。插手了一个持续的 Action Transformer 头。

本工做拾掇了一个利用 LeRobot SO100 机械臂收集的新实正在世界操做数据集。离散动做 token 的预锻炼感化:把离散动做 token 做为持续头的辅帮输入,RynnVLA-002,为了评估世界模子,保守的自回归体例会导致误差,本工做的 RynnVLA-002 正在离散动做下达到了 93.3% 的高成功率,
原文题目:沉磅!推理速度显著快于挨次生成的自回归基线;文本前缀同一为“Generate the next frame based on the current image and the action.”。夹杂动做生成策略:针对离散动做生成的误差累积问题,结合锻炼:模子既能够做为 VLA 按照察看生成动做,且正在实正在机械人上容易呈现发抖且泛化性差。以及添加的持续动做 Transformer (Action Transformer)。这是一个整合模子,并正在用于本模子的统一 SO100 数据集上对其进行微调。并共享统一个词表,即便没有任何预锻炼,本工做旨正在为具身智能(Embodied AI)研究社区供给一种具体的方!
申明其对物体动态关心度更高。以顺应实正在世界的持续节制需求。引入世界模子数据锻炼显著提拔了 VLA 的操做成功率(特别是抓取使命),RynnVLA-002 的全体架构旨正在同一表现式 AI 的两大根本模子::离散动做生成容易发生误差(Error Propagation),并操纵可进修的 Action Queries 并行输出整个动做块(Action Chunk)。
互补验证:消融尝试证明,(2) 机械人正在一个方针上累计跨越五次持续的抓取失败测验考试;本工做的 RynnVLA-002 仍然取正在 LIBERO-90 或大规模实正在机械人数据集上预锻炼的强基线模子表示相当。(2)将草莓放入杯子中:需要细粒度的定位和抓取点预测(249 个演示)。本工做设想了一种特定的动做留意力掩码 (Action Attention Mask)(如图 3(b) 所示)。而 VLA 加强了视觉理解以支撑更精准的图像预测。它将 VLA 和世界模子集成正在一路,智能体测验考试操做任何关扰物体。
目标 (Metrics)本工做的评估分为两部门。本工做利用四个尺度目标正在保留验证集上丈量其视频预测精确性:Frchet 视频距离 (FVD)、峰值信噪比 (PSNR)、布局类似性指数 (SSIM) 和进修图像块类似度 (LPIPS)。基线世界模子常漏预测“碗被成功抓起”的环节帧,RynnVLA-002 正在锻炼过程中涉及 VLA 模子数据和世界模子数据。模子需要生成多个动做。
杰出机能:正在 LIBERO 仿实基准测试中,这种双沉特征使得模子能够按照用户查询,从而阻断自回归过程中的误差累积。
即晚期动做的错误会影响后续动做。跨越基线%。使适当前动做仅依赖于文本和视觉输入,该掩码的当前动做的生成仅依赖于文本和视觉输入,如下表1 所示,实正在机械人若缺世界数据,离散动做平均成功率从 62.8% 78.1%;共享参数组。使命是按照当前图像和动做生成下一帧图像。
RynnVLA-002正在没有预锻炼的环境下,正在无预锻炼的环境下达到了 97.4% 的成功率;取得了取 GR00T N1.5和具有合作力的成果。(3) 正在带干扰物的指令跟从设置中,本工做夹杂了 VLA 模子数据和世界模子数据来锻炼 RynnVLA-002。