VLA 详细报告：概念、原理、使用方式与从零搭建技术路线图

适用场景：面向机器人项目立项、技术汇报、学术讨论
范围说明：本文中的 VLA 指 Vision-Language-Action，即“视觉-语言-动作”统一模型。

摘要

VLA 的核心目标，是把机器人“看见环境”“理解语言”“输出动作”这三件事放进同一个模型中完成。与传统机器人系统将感知、规划、控制拆成多个模块不同，VLA 更像是一类统一策略模型：它接收图像、机器人状态和自然语言指令，直接输出一段连续动作或未来短时动作块，并在需要时同时给出目标位姿与目标速度，再交由底层控制器执行。

从技术演进上看，VLA 并不是凭空出现的。它继承了三条发展脉络：

来自机器人模仿学习与多任务策略学习的端到端控制方法，例如 RT-1、ACT、Diffusion Policy。
来自视觉语言模型的大规模预训练能力，例如图像理解、语义推理、开放词汇泛化。
来自开源机器人基础模型生态的数据与训练框架，例如 Open X-Embodiment、LeRobotDataset、LeRobot、openpi。

截至 2026 年 4 月 26 日，VLA 已经从“论文概念”进入“可落地工程路线”阶段。面向实际项目，最现实的策略不是从零训练一个超大模型，而是：

采用统一的数据格式与训练框架。
先用轻量 VLA 跑通数据、训练、部署闭环。
再切换到更强的主力模型做泛化和多任务扩展。

如果目标是快速落地，我建议优先采用 LeRobot 作为数据与训练底座，先用 SmolVLA 跑通链路，再用 π0.5 作为主力模型。如果后续转向医疗或手术机器人，可在此基础上对接 GR00T-H / Open-H 方向。

1. VLA 是什么

1.1 定义

VLA，Vision-Language-Action，直译为“视觉-语言-动作模型”。它的输入通常包括三类信息：

视觉输入：单目图像、多视角图像、视频帧，或深度图。
语言输入：任务指令、子任务描述、纠错提示、自然语言约束。
机器人状态：关节角、关节速度、末端位姿、末端速度 twist、夹爪或器械状态、可选力传感，以及最近若干步的状态历史。

在更强调精细控制的场景，尤其是手术机器人或接触丰富任务中，速度不应被当作一个孤立的辅助量，而应被视为状态建模的一部分。也就是说，模型不仅要知道“机器人在哪里”，还要知道“机器人正以多快、朝什么方向运动”。

模型的输出则是动作。当前更稳妥的工程设计，通常不是只输出单步裸速度，而是输出一个短时动作块 action chunk，例如未来 $H$ 步的：

离散动作 token。
连续控制量或相对位姿增量。
target pose + target velocity + tool command 组成的短时轨迹。

因此，VLA 可以形式化写成：

\pi_\theta(a_{t:t+H-1} \mid I_{t-N:t}, s_{t-N:t}, l)

其中：

$I_{t-N:t}$ 表示最近一段视觉观测序列。
$s_{t-N:t}$ 表示包含位姿、速度和工具状态的机器人状态历史。
$l$ 表示语言指令。
$a_{t:t+H-1}$ 表示未来一段时间内的动作块，可具体展开为目标位姿、目标速度和工具命令。
$\pi_\theta$ 表示参数为 $\theta$ 的策略模型。

这一定义的关键在于：动作不再是规划模块的最终结果，而是可以像文本一样，由统一模型直接生成。 但在真实系统中，它通常以“短时目标轨迹”的形式交给低层控制器安全执行，而不是直接把单步速度裸发给执行器。

1.2 为什么会出现 VLA

VLA 的出现，本质上是两个长期问题相遇后的产物。

第一个问题是机器人泛化能力弱。传统机器人系统在已知环境中表现稳定，但一旦物体变了、背景变了、任务描述变了，系统往往需要重新调参数、重新建模、重新写规则。

第二个问题是大模型已经具备了强语义理解和开放词汇泛化能力，但这些能力原本主要存在于文本和图像世界，无法直接转化成机器人动作。

RT-2 在 2023 年提出了一个非常关键的思路：把机器人动作也看作一种“语言”，将其离散化为 token，然后把视觉、语言和动作放进统一的训练体系里，让互联网规模预训练得到的语义能力迁移到机器人控制中去。它也因此明确提出了 Vision-Language-Action 这一概念。
来源：RT-2 论文与项目页。

1.3 VLA 和传统机器人系统的区别

可以把二者理解为两种不同的系统组织方式。

传统流水线通常是：

感知 -> 目标识别 -> 状态估计 -> 任务规划 -> 轨迹规划 -> 控制执行

VLA 则更像：

图像 + 状态 + 指令 -> 统一策略模型 -> 动作块 -> 控制执行

两者并不是非此即彼。工程上更常见的做法是：

用 VLA 负责高层策略与动作生成。
用底层控制器负责执行、稳定性、安全约束和急停。

因此，VLA 更准确的定位是：机器人系统中的统一高层策略模型。

2. VLA 的技术演进脉络

理解 VLA 最好的方法，不是只看一个模型，而是看它是如何从前一代方法演化出来的。

2.1 RT-1：多任务机器人 Transformer

RT-1 是 VLA 的重要前身。它证明了：在多任务真实机器人数据上训练一个足够大的 Transformer 策略，可以得到不错的泛化能力。
RT-1 的价值主要有三点：

它证明了高容量 Transformer 策略在机器人上是可扩展的。
它强调了“多任务、多环境、任务无关数据”的重要性。
它把语言条件控制变成机器人学习中的标准设定之一。

但 RT-1 本质上仍然主要是“机器人控制模型”，还不是完整意义上的 VLA。它没有真正把大规模视觉语言预训练的知识完整接入机器人动作空间。

2.2 RT-2：正式提出 VLA

RT-2 在 2023 年正式提出 VLA 路线。其关键思想是：

以预训练视觉语言模型为骨干。
将机器人动作离散化为文本 token。
将机器人轨迹数据与互联网视觉语言数据共同训练或协同微调。

这样，模型既保留了视觉语言模型的开放语义知识，又学会了从观测到动作的映射。

RT-2 的意义不在于它是不是今天最实用的开源模型，而在于它首次清晰回答了一个问题：
如何把“会说会看”的大模型，变成“会动”的机器人模型。

2.3 OpenVLA：首个影响力极大的开源 VLA 基线

OpenVLA 于 2024 年 6 月发布，是当前最重要的开源 VLA 基线之一。官方项目页说明它是一个 7B 参数模型，基于 Prismatic-7B VLM 微调而来，并在 Open X-Embodiment 数据集的 970k 机器人 episodes 上预训练。

它的重要性体现在：

它让 VLA 从闭源前沿概念进入开源复现阶段。
它给出了一条相对标准化的工程路径：VLM 骨干 + 视觉编码器 + 投影层 + 动作 token 预测。
它提供了从推理、微调到 REST API 部署的一整套工程入口。

2.4 从离散动作到连续动作：π0、π0.5、π0-FAST

随着任务变复杂，单纯把动作离散成 token 会遇到两个问题：

精细动作控制不够自然。
自回归解码在高频控制场景下太慢。

因此，第二代 VLA 开始引入“动作专家”或连续动作头，将视觉语言骨干和连续控制生成结合起来。

π0 是这一方向的重要代表。
π0.5 进一步强调异构数据协同训练与开放世界泛化。
π0-FAST 则用 FAST 动作 token 化方法，在保留较强动作表达能力的同时显著提升训练和推理效率。

2025 年 5 月，Physical Intelligence 在 Knowledge Insulation 工作中系统总结了这一代方法的关键挑战：连续动作头的梯度会破坏 VLM 骨干中的预训练语义知识。 他们提出通过“知识绝缘”来阻断这类破坏，从而兼顾训练速度、推理速度和语义泛化。

2.5 轻量化与工程化：SmolVLA、LeRobot 生态

到 2025 年，另一条非常重要的趋势出现了：轻量化和工程可落地性。

SmolVLA 将 VLA 压缩到 450M 规模，并将数据、训练、评测、部署深度绑定到 LeRobot 生态，使得个人实验室和中小团队也能较快跑通完整链路。

2.6 垂直场景化：GR00T-H 与手术/医疗机器人

到 2026 年，VLA 已经开始进入医疗、手术等专用机器人场景。
GR00T-H 是一个重要信号：它基于 GR00T N1.6，在 Open-H 多机构数据上做后训练，面向 16 种医疗/手术机器人平台的统一自治建模。这意味着 VLA 不再只停留于桌面抓取，而是在向专业高风险场景扩展。

3. VLA 的原理

这一部分是本报告的核心。要把 VLA 讲清楚，最好的办法不是只给定义，而是把它拆成五层：

输入表示层
多模态骨干层
动作表示层
训练目标层
闭环部署层

3.1 输入表示层：模型到底“看”到了什么

一个典型 VLA 的输入不只是图像，还包括机器人自身状态和任务文本。

可以写成：

x_t = \{I_t^{(1:K)}, s_t, l, h_t\}

其中：

$I_t^{(1:K)}$ ：来自 $K$ 个相机的当前观测。
$s_t$ ：关节位置与速度、末端位姿与速度 twist、夹爪或器械状态、力觉等状态量。
$l$ ：自然语言指令。
$h_t$ ：可选的历史上下文，例如前几帧图像、前几步 pose / velocity、前几个动作块、任务进度信息。

如果任务涉及精细操作，尤其是手术机器人或接触丰富任务，仅知道当前位置往往不够。模型还需要看到“刚才如何运动过来”，也就是速度和位姿历史，这样才能更稳定地预测下一小段动作轨迹。

为什么必须同时输入图像、状态和语言？

图像提供外部环境信息。
状态提供机器人身体信息。
语言提供任务意图和语义约束。

仅靠图像无法知道当前夹爪是否已闭合，是否接近关节极限；仅靠状态又无法知道桌面上哪个是“红色杯子”；仅靠语言更无法完成实时控制。因此，VLA 本质上是一个具身多模态条件生成模型。

3.2 多模态骨干层：为什么 VLA 往往建在 VLM 上

当前主流 VLA 不是从随机初始化开始训练，而是建立在预训练视觉语言模型之上。这样做的原因有三点：

机器人数据昂贵，远少于互联网图文数据。
视觉语言模型已经学会了大量语义概念，例如物体类别、属性、空间关系、任务描述。
机器人控制需要开放词汇泛化，而这正是 VLM 擅长的能力。

从结构上看，VLA 通常包括以下组件：

视觉编码器：将图像编码成 patch-level 或 token-level 表示。
投影层：把视觉表示映射到语言模型或统一 Transformer 的特征空间。
语言模型骨干：负责处理任务文本、跨模态融合、上下文建模和动作条件生成。
动作头或动作专家：负责把隐向量变成机器人动作。

OpenVLA 的官方项目页明确给出了这样一个结构：

融合视觉编码器：由 SigLIP 与 DINOv2 组成。
投影器：将视觉 embedding 映射到语言模型输入空间。
Llama-2 7B 骨干：根据多模态上下文预测动作 token。

这类设计体现了当前 VLA 的主流范式：用 VLM 负责语义与跨模态理解，用专门的动作模块负责运动控制。

3.3 动作表示层：动作为什么会成为 VLA 的真正难点

表面看，VLA 最大的创新是把视觉和语言接到机器人上；但从模型设计角度，真正困难的地方其实是：动作应该如何表示。

动作表示大致有三类路线。

3.3.1 离散动作 token

这是 RT-2、OpenVLA 代表的第一代做法。它的思路是：

把每一维动作离散成若干个 bin。
用 token 序列表示一时刻或一段时间的动作。
用语言模型式的自回归方式生成动作 token。

优点：

可直接复用成熟的 next-token prediction 训练框架。
与大语言模型结构天然兼容。
工程实现简单、训练稳定。

缺点：

离散化误差会损伤精细控制。
自回归 token 解码推理慢。
高频双臂或接触丰富任务容易吃亏。

3.3.2 动作块 `Action Chunk`

动作块不是一种完全独立的动作表示，而是一种重要的时间建模策略。
典型做法不是只预测下一步动作 $a_t$ ，而是一次预测未来 $H$ 步：

A_t = [a_t, a_{t+1}, \dots, a_{t+H-1}]

这样做有三个好处：

降低逐步决策导致的误差累积。
提高控制频率下的执行稳定性。
使策略更容易形成短时规划能力。

ACT 之所以重要，正是因为它把动作块思想明确化。后续许多 VLA，即使结构不完全相同，也大量继承了动作块这一思想。

3.3.3 连续动作生成

随着任务走向精细操作、双臂协作和长程连续控制，离散 token 开始不够用了，因此出现了连续动作生成路线，例如：

diffusion-based action head
flow-matching action head
连续回归或连续生成专家

Diffusion Policy 证明了 diffusion 在机器人动作生成上的强大表现；π0、π0.5 则进一步把这类连续动作头与视觉语言骨干结合起来。

连续动作路线的优点：

更适合高维连续控制。
更适合精细、流畅和接触丰富的动作。
更容易表达多峰动作分布。

缺点：

训练复杂。
推理可能更慢。
连续动作头容易把梯度“反冲”回 VLM 骨干，破坏已有语义知识。

这也是 Knowledge Insulation 工作试图解决的核心问题。

3.4 训练目标层：VLA 实际上是怎样学出来的

当前大多数 VLA 的主训练方式，仍然是模仿学习 Imitation Learning，尤其是行为克隆 Behavior Cloning。但从工程角度，训练阶段至少要同时回答三个问题：

用什么训练方法学会从观测到动作的映射。
训练骨干、投影层、动作头中的哪些模块。
如何把位姿、速度、工具状态和未来短时轨迹一起纳入监督。

3.4.1 行为克隆与轨迹预测

给定专家演示轨迹：

\tau = \{(I_t, s_t, l, a_{t:t+H-1})\}_{t=1}^{T}

模型学习最小化预测动作块与专家动作块之间的误差。对于速度敏感的 VLA，更推荐把监督目标写成未来短时轨迹，而不是单步动作。一个典型设计是：

a_{t:t+H-1} = \{target\ pose_{t+1:t+H},\ target\ velocity_{t+1:t+H},\ tool\ command_{t+1:t+H}\}

如果动作是离散 token，损失通常是交叉熵：

\mathcal{L}_{token} = - \sum_t \log p_\theta(z_t \mid I_t, s_t, l)

如果动作是连续量，损失通常可以是：

pose regression loss
velocity regression loss
diffusion loss
flow matching loss
tool-state classification 或 regression loss

对于手术机器人或其他高精细场景，更推荐“位置为主、速度显式监督”的版本：既预测未来目标位姿，也预测未来目标速度，但不把单步速度直接作为唯一执行信号。

3.4.2 训练哪些模块

训练时常见有三种方式：

冻结大部分视觉语言骨干，只训练投影层、LoRA 适配器和动作头。
部分微调语言骨干与动作专家，让语义理解和动作生成共同适配特定任务。
在更大数据量和更强算力下做全模型或多阶段训练，但通常要配合知识绝缘、分阶段解冻或梯度隔离。

如果项目仍处于第一阶段原型验证，优先建议先训练：

状态/视觉到统一特征空间的投影层。
动作头或动作专家。
少量骨干适配参数，例如 LoRA。

这样更容易判断问题究竟出在数据、动作定义，还是骨干能力不足。

3.4.3 协同训练与共训练

VLA 与传统策略模型的一个根本差异在于，它往往不是只在机器人数据上训练，而是会混合其他数据源：

通用视觉语言数据
机器人轨迹数据
子任务标签或规划数据
跨机器人平台数据
跨环境数据

例如，LeRobot 中对 π0.5 的说明就明确强调了异构数据协同训练，包括多模态网页数据、口头指令、子任务命令、跨 embodiment 机器人数据、多环境部署数据以及移动操作数据。
这意味着 VLA 的能力来源，不只是“看过很多机器人演示”，更来自于在大规模语义空间中学会如何解释动作任务。

3.4.4 动作归一化、相对动作与速度监督

工程上一个常被低估但极其重要的问题是：动作统计和坐标定义。

在同一份数据中，不同关节维度的数值范围可能差异很大，不同机器人平台的动作语义也可能不同。如果不做归一化，模型训练会非常不稳定。

这也是为什么许多框架都要求：

计算状态、位姿、速度和动作的均值方差或分位数统计。
支持绝对动作与相对动作两种形式。
明确哪些维度适合预测 delta pose，哪些维度适合预测 target velocity。
明确哪些执行器量应保持绝对值，例如夹爪开合或器械开闭。

LeRobot 对 π0.5 的文档明确给出了相对动作训练方式，并指出相对动作在某些设置下能提升训练稳定性。

对于速度信息，标签可来自两种途径：

直接使用机器人控制器或示教系统采集到的真实速度。
由相邻位姿差分得到近似速度，例如 $v_t = (pose_{t+1} - pose_t) / dt$ 。

在训练 loss 设计上，一个很实用的形式是：

\mathcal{L} = \mathcal{L}_{pose} + \lambda_v \mathcal{L}_{velocity} + \lambda_{tool} \mathcal{L}_{tool} + \lambda_{smooth} \mathcal{L}_{smooth}

其中， $\mathcal{L}_{smooth}$ 用来限制速度突变和加速度突变，这对手术机器人和其他安全敏感场景尤其重要。

3.5 知识绝缘：为什么连续动作 VLA 容易“忘事”

这是近两年 VLA 研究中的一个关键洞见。

VLM 骨干之所以强，是因为它经过了网页级图文数据预训练，拥有很强的语义知识和语言对齐能力。但机器人连续动作学习会产生非常强的、与语义任务不完全一致的梯度。如果这些梯度直接回传进骨干模型，可能会发生两件事：

语言理解能力下降。
语义对齐被破坏，导致模型更难遵循指令。

Physical Intelligence 在 Knowledge Insulation 中给出的核心思想是：

用离散化动作 token 训练 VLM 骨干，以较快获得“与动作相关但不破坏语义”的表示。
用连续动作专家生成精细连续动作。
阻断动作专家对 VLM 骨干的梯度回传。

这相当于把“语义理解”和“连续运动控制”适度解耦，再通过共享表示把它们重新连接起来。

从更高层看，这说明 VLA 的关键难点不是“接一个动作头”那么简单，而是：
如何让语义大模型和运动控制模块共存，而不互相伤害。

3.6 闭环部署层：VLA 在机器人上是如何运行的

训练完一个 VLA 并不等于机器人能用了。真正部署时通常是一个闭环：

flowchart LR
A["相机 / 内窥镜观测"] --> D["输入拼装与时间对齐"]
B["机器人状态<br/>pose / velocity / joint / tool"] --> D
C["语言指令"] --> D
D --> E["VLA / Policy Server"]
E --> F["未来短时动作块<br/>target pose + target velocity + tool"]
F --> G["Safety Filter"]
G --> H["速度 / 加速度限幅"]
H --> I["底层控制器<br/>PID / Impedance / MPC"]
I --> J["机器人执行"]
J --> K["新观测与新状态反馈"]
K --> D

实际部署通常包含以下步骤：

获取当前多视角图像或图像序列。
读取当前机器人状态与最近 $N$ 步历史，特别是 pose / velocity 历史。
将状态、图像和指令整理成模型输入。
模型输出一个未来短时动作块，而不是单步裸速度。
先经过安全过滤、速度与加速度限幅。
再由底层控制器追踪目标位姿和目标速度。
执行其中前若干步，然后再次感知并滚动更新。

这说明 VLA 并不是“先想完再做”，而是在连续感知反馈中滚动生成动作。
对于手术机器人，更不应将单步速度直接下发给执行器，因为这会放大抖动、延迟和误差累积风险。更稳妥的做法是让 VLA 输出短时目标轨迹，再由底层控制器负责平滑跟踪。

因此，部署时延、感知延迟、动作块长度、控制频率，以及速度/加速度约束，都会显著影响性能。

3.7 为什么 VLA 具有泛化潜力

VLA 的泛化能力主要来自四个层面。

3.7.1 语义泛化

视觉语言预训练让模型知道“杯子”“盘子”“最左边”“最小的那个”“像锤子一样可用的物体”这类抽象概念。这使得机器人不必只在训练见过的精确词汇或物体上工作。

3.7.2 多任务共享

多个任务共享同一个骨干，可以让模型形成更抽象的任务结构表示，而不是每个任务单独记忆。

3.7.3 跨 embodiment 与跨环境数据

如果模型见过多种机器人平台、多种场景和多种操作方式，它更容易学会“任务本质”而不是“平台偶然性”。

3.7.4 大模型式上下文建模

Transformer 能在较长上下文中建模图像、语言、历史动作和状态之间的关系，从而更像一个统一决策器，而不是局部反应器。

3.8 VLA 的局限性

VLA 很强，但并不是万能方案。

当前主要局限包括：

数据成本高，尤其是真实机器人多视角、多任务数据。
安全性与可解释性不足，错误动作代价高。
连续控制频率和部署时延仍是瓶颈。
对接触丰富任务、力控任务、长程任务仍不完全成熟。
泛化常常仍依赖于数据覆盖，而不是纯粹“理解世界”。

因此，VLA 更适合被视为机器人智能的重要组成部分，而不是完整替代控制与安全系统。

4. VLA 怎么用

从工程实践角度，VLA 的使用方式可以概括为三种。

4.1 用法一：零样本或少样本调用基础模型

对于已经覆盖相近机器人平台和任务分布的基础模型，可以直接拿来做零样本或少量微调使用。
例如 OpenVLA 官方就给出了轻量推理接口和 REST API 部署方案。

这种用法的优点是启动快，适合做可行性验证。
缺点是对平台和任务分布匹配较敏感。

4.2 用法二：在自身数据上做微调

这是当前最常见也最实用的用法。

标准流程是：

采集自己的任务演示数据。
转成统一格式，例如 LeRobotDataset v3.0。
选取预训练 VLA 作为底座。
对特定任务、特定机器人平台进行微调。
评测成功率、鲁棒性、执行速度以及轨迹平滑性。

当前这条路线的优势在于：

训练成本比从头训练小得多。
泛化能力通常好于纯任务专用小模型。
工程闭环更容易建立。

4.3 用法三：作为现有机器人系统中的高层策略

VLA 最实用的系统定位不是“单独控制所有细节”，而是作为高层动作生成器：

输入任务意图、当前观测以及最近一段状态历史。
输出短时目标轨迹，例如 target pose + target velocity + tool command。
底层控制器负责安全执行、限位与平滑跟踪。

这种架构在产业落地上更稳妥，因为：

安全逻辑仍掌握在传统控制系统中。
VLA 的错误不会直接不受约束地下传到底层。
更容易插入人类纠偏、规则约束和故障恢复模块。

4.4 当前最常见的工程链路

一个可落地的 VLA 项目通常包含以下组件：

机器人硬件平台
多视角相机
遥操作或示教系统
数据记录与同步系统
标准化数据格式
训练框架
模型推理服务或 policy server
safety filter 与速度/加速度限制模块
运行时控制接口与底层控制器
评测与安全监控模块

这也是为什么“训练框架”和“数据格式”往往比“选哪个模型”更重要。模型可以换，但如果数据管线、状态定义、速度标签和部署接口不统一，项目推进速度会很慢。

5. 当前可快速落地的开源路线

5.1 判断“快速落地”的标准

这里将“快速落地”定义为同时满足以下条件：

有公开代码与权重。
有官方训练文档。
支持本地推理。
支持在自有数据上微调。
数据格式和部署接口清晰。

5.2 代表模型对比

模型	发布时间与状态	主要特点	是否适合快速落地	备注
RT-2	2023，概念性里程碑	正式提出 VLA，将动作 token 化	否，主要用于理解原理	影响力极大，但非主流开源落地入口
OpenVLA	2024-06 发布	7B 开源 VLA，970k Open X episodes 预训练	适合	学术认可度高，推理与微调路径完整
Octo	2024	通用开源机器人策略，支持语言与目标图像	较适合	是很好的轻量 baseline
π0 / π0.5	2025	连续动作 VLA，强调开放世界泛化	很适合	更偏主力研究线
π0-FAST	2025	更快训练与推理，支持 KV cache	很适合	高频控制场景优势明显
SmolVLA	2025-06-03	450M 轻量模型，面向本地和快速微调	非常适合	很适合第一阶段跑通全链路
GR00T-H	2026-03	医疗/手术方向 VLA	适合研究原型	非商业许可，专用于垂直方向

5.3 代表训练框架对比

框架	优点	适用情况
LeRobot	数据、训练、部署、评测一体化；支持多种 VLA	最推荐的快速落地底座
openpi	主力研究框架；支持策略服务；支持 LeRobot 数据转换	适合 π0/π0.5 主线
OpenVLA 原生栈	适合 OpenVLA/OFT 研究与对照	适合做强基线或论文复现
Isaac-GR00T	更偏 humanoid、跨 embodiment、工业级部署	适合大型系统与专门场景

5.4 为什么我推荐 LeRobot 作为底座

截至 2026 年 4 月，LeRobot 已经成为最实用的开源 VLA 工程底座之一。它的优势不是单个模型最强，而是：

有统一数据格式 LeRobotDataset v3.0。
能记录多模态时序数据和多相机视频。
支持训练、微调、评测、推理。
已集成 SmolVLA、π0.5、π0-FAST、GR00T N1.5 等多条路线。

对于项目推进来说，这意味着：

先用轻量模型跑通。
后续换更强模型时，不需要推翻数据层。

5.5 最推荐的快速落地方案

如果目标是尽快做出能演示、能迭代、能继续扩展的系统，我建议如下：

方案主线

数据与训练底座：LeRobot
第一阶段验证模型：SmolVLA
第二阶段主力模型：π0.5
高频控制备选：π0-FAST
学术强基线对照：OpenVLA-OFT

这样选的原因

SmolVLA 轻，官方建议从约 50 条演示开始，20k steps 约为单张 A100 四小时量级，适合快速验证数据和训练链路。
π0.5 适合作为主力研究线，LeRobot 文档给出的 LIBERO 平均结果为 97.5%，并且支持相对动作、归一化和更强的开放世界泛化叙事。
π0-FAST 在训练速度和推理速度上更有优势，适合后期解决控制延迟问题。
OpenVLA 有极高学术辨识度，适合做老师汇报中的对照基线。

6. 从零开始搭建 VLA 项目的技术路线图

这一部分是面向项目实施的核心建议。

6.1 总体原则

从零搭建 VLA 项目时，最容易犯的错误有两个：

一开始就追求最大模型，而忽略了数据和系统闭环。
一开始就做多机器人、多任务、多场景，导致调试面过大。

因此，建议采用“先闭环、再增强、后扩展”的路线。

6.2 阶段一：选定单一平台与单一任务

目标：定义一个最小可行问题。

建议：

只选一个机器人平台。
只选一个主摄像头布局。
只选一个可重复桌面任务。
任务尽量短，成功判定清晰。

合适的起步任务包括：

抓取并放置到指定容器。
将物体从左侧搬到右侧区域。
对 2 到 3 类物体进行简单分类放置。

第一阶段不建议上：

双臂高精度装配。
复杂接触操作。
长程任务规划。

6.3 阶段二：先打通数据采集和回放链路

目标：确保能稳定录数据、回放数据、检查数据。

这一步比模型更重要，因为大量 VLA 项目最终都死在数据质量问题上。

需要完成的工作：

机器人状态采样。
多视角图像同步。
任务文本记录。
动作记录。
时间戳对齐。
数据回放检查。

强烈建议：

直接使用 LeRobotDataset v3.0。
每次录完数据立刻做回放验证。
抽样可视化，检查图像、状态、动作是否同步。

这一步的交付物应当是：

一份可加载、可视化、可训练的数据集。
一套标准化录制流程。

6.4 阶段三：用轻量 VLA 跑通训练闭环

目标：先证明系统能学会一个任务，而不是追求最强性能。

建议直接用 SmolVLA。

原因：

它是轻量模型，上手成本低。
文档明确建议从约 50 条演示开始。
它与 LeRobot 高度集成。
适合快速发现问题是在数据、模型还是部署环节。

这一阶段的关键不是成功率极高，而是确认以下问题：

模型是否收敛。
动作输出是否合理。
部署是否能闭环执行。
数据量增加是否能带来明显收益。

如果这一步跑通，项目就已经从“概念阶段”进入“可演示原型阶段”。

6.5 阶段四：切换到主力模型并扩展泛化

目标：从“能做”走向“更稳、更泛化”。

建议：

切到 π0.5 作为主力模型。
增加任务变化，例如物体位置、背景、光照、语句表达变化。
引入多场景与多实例。
系统性记录失败案例。

这一阶段最重要的不是单一指标，而是：

语言指令变化下是否仍能正确执行。
新物体、新背景下是否仍能泛化。
错误动作是否可恢复。

6.6 阶段五：解决实时性与部署问题

目标：使系统从实验室训练结果，过渡到更可用的在线系统。

这里重点关注：

推理时延
控制频率
动作块长度
模型服务化
安全机制

可能的优化方向：

将模型服务化部署，使用 policy server 或 REST API。
采用 π0-FAST 或 OpenVLA-OFT 降低推理成本。
引入异步推理和动作块缓存。
用底层安全控制器限制危险动作。

6.7 阶段六：走向多任务与垂直场景

目标：从桌面验证走向更有研究价值或应用价值的任务。

扩展方向包括：

多任务统一模型
双臂协作
移动操作
力觉与接触操作
手术/医疗机器人

进入这一阶段时，项目重点会从“能否收敛”转向：

数据规模与质量
跨任务知识共享
任务层级分解
安全与合规

6.8 一条建议的时间表

如果以一个实验室项目视角来规划，可以参考以下节奏。

第 1 个月：最小系统闭环

目标：

选平台
选单任务
录制第一版数据
跑通回放与可视化

产出：

可用数据管线
最小任务定义

第 2 个月：SmolVLA 原型验证

目标：

用 SmolVLA 跑通训练
完成第一次闭环演示
找出数据与部署瓶颈

产出：

单任务演示系统
第一版成功率统计

第 3 到 4 个月：主力模型切换与泛化

目标：

切换到 π0.5
扩展多场景和多指令
建立失败案例分析机制

产出：

主力模型结果
泛化实验结果

第 5 个月以后：系统化扩展

目标：

解决实时性
做强基线对照
扩展到双臂、移动或垂直场景

产出：

更完整的研究系统
对外汇报或论文材料

6.9 项目实施中的关键风险

风险一：数据质量不稳定

表现：

状态和图像不同步
示教动作噪声大
任务标注不一致

对策：

统一录制协议
每轮训练前抽样检查
保持任务指令模板一致

风险二：模型训练看似收敛但实际部署失败

表现：

离线损失下降
真实执行却频繁失败

对策：

早做闭环测试
使用短动作块滚动执行
保持训练与部署动作表示一致

风险三：任务定义过大

表现：

一开始就想做多机器人、多任务
调试面过宽

对策：

先做单平台单任务
在稳定后再做扩展

7. 面向老师汇报的建议结论

如果需要把本报告压缩成口头汇报中的三条主结论，我建议这样表述。

7.1 结论一：VLA 是机器人领域的“统一策略大模型”

它把视觉理解、语言理解和动作生成融合进一个模型里，使机器人可以通过自然语言和视觉观测直接生成动作。这代表机器人智能正在从“模块拼装”走向“统一策略学习”。

7.2 结论二：VLA 的原理关键在于“把 VLM 变成能控制动作的模型”

VLA 不是简单给大模型接个机械臂，而是要解决三个关键问题：

多模态输入如何统一表示。
动作如何表示为 token、动作块或连续动作。
如何在保留 VLM 语义能力的同时学会精细控制。

其中最难的不是“看懂图像”，而是“既保持语义理解，又能高频精细地产生动作”。

7.3 结论三：快速落地的关键不是先追求最大模型，而是先搭好统一数据与训练底座

当前最推荐的工程路线是：

LeRobotDataset + LeRobot 打底。
SmolVLA 先跑通原型。
π0.5 作为主力模型扩展泛化。
OpenVLA-OFT 作为重要对照基线。

这条路线兼顾概念先进性、工程可行性和后续扩展性。

8. 附录：手术机器人相关 VLA 与多模态文献

虽然本报告主线是通用机器人 VLA，但如果老师后续对医疗或手术机器人感兴趣，下面几条线值得重点关注。

8.1 GR00T-H

GR00T-H 是当前最接近“专门面向医疗/手术机器人的公开 VLA 工程路线”的工作之一。官方仓库说明它基于 GR00T N1.6，在 Open-H 数据上做后训练，覆盖 16 个医疗/手术机器人 embodiment 和 34+ 机构，且 Open-H 数据采用 LeRobot 格式。

这意味着如果实验室未来要走手术机器人方向，当前通用路线中最值得保留的能力就是：

多模态时序数据采集
统一动作表示
LeRobot 数据管线

8.2 SurgVLP

SurgVLP 更偏手术视觉语言预训练，而不是直接动作生成。它的重要性在于：手术机器人场景中的语义、步骤和专家讲解信息非常丰富，这类模型可以成为未来手术 VLA 的感知语义底座。

8.3 CoPESD

CoPESD 是面向 ESD 的多层级手术运动数据集与大模型辅助方向工作。它未必是端到端 VLA，但非常值得关注，因为它体现了手术机器人数据正在从“只有轨迹”走向“轨迹 + 语义 + 子任务 + 共驾信息”的结构化形态。

8.4 一个现实判断

截至 2026 年 4 月，公开的“手术机器人端到端 VLA”仍然少于通用操作 VLA。
更现实的技术路线通常是：

通用 VLA 主干
手术视觉语言预训练
手术专用动作后训练

而不是直接期待一个已经完全成熟的“通用开箱即用手术 VLA”。

9. 参考资料

以下资料均为本报告撰写时核实过的公开来源，时间截至 2026-04-26。

9.1 基础与里程碑论文

RT-1: Robotics Transformer for Real-World Control at Scale
https://arxiv.org/abs/2212.06817
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
https://arxiv.org/abs/2307.15818
OpenVLA: An Open-Source Vision-Language-Action Model
https://arxiv.org/abs/2406.09246
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
https://arxiv.org/abs/2303.04137
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
https://arxiv.org/abs/2304.13705
Octo: An Open-Source Generalist Robot Policy
https://arxiv.org/abs/2405.12213

9.2 官方项目与文档

RT-2 项目页
https://robotics-transformer2.github.io/
OpenVLA 项目页
https://openvla.github.io/
OpenVLA GitHub
https://github.com/openvla/openvla
LeRobot 文档
https://huggingface.co/docs/lerobot/en/index
LeRobotDataset v3.0
https://huggingface.co/docs/lerobot/en/lerobot-dataset-v3
SmolVLA 文档
https://huggingface.co/docs/lerobot/en/smolvla
π0.5 文档
https://huggingface.co/docs/lerobot/en/pi05
π0-FAST 文档
https://huggingface.co/docs/lerobot/pi0fast
openpi GitHub
https://github.com/Physical-Intelligence/openpi
Knowledge Insulation
https://www.pi.website/research/knowledge_insulation

9.3 手术/医疗机器人相关

GR00T-H GitHub
https://github.com/NVIDIA-Medtech/GR00T-H
SurgVLP GitHub
https://github.com/CAMMA-public/SurgVLP
CoPESD GitHub
https://github.com/gkw0010/CoPESD

10. 一句话版总结

VLA 的本质，是把大模型的视觉语义理解能力与机器人的动作控制能力融合为统一策略；当前最可行的落地方法，不是从零训练超大模型，而是以统一数据格式和训练框架为底座，先用轻量模型跑通，再逐步升级到更强的基础模型与更复杂的任务场景。