【AI前沿】Qwen-VLA
Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型AI工具9小时前发布AI小集02Qwen-VLA是什么Qwen-VLA 是通义实验室推出的通用视觉-语言-动作模型,以 Qwen3.5-4B 为视觉语言主干,搭配 1.15B 参数的 DiT 动作解码器。模型通过统一动作轨迹预测框架,将操作、导航、轨迹预测三大任务统一到同一模型;借助本体感知提示条件化,仅需修改文本描述即可适配 11 种机器人平台。模型在多项基准中超越专用模型,零样本动态操作成功率达 26.6%,推动具身智能从技能专家走向通用行动者。Qwen-VLA的主要功能跨任务统一控制:单一模型同时处理操作、导航、轨迹预测三大任务,打破传统专用模型割裂局面。跨本体即插即用:支持 WidowX、Franka Panda、Mobile ALOHA、Galaxea R1 等 11种机器人平台,覆盖单臂/双臂/移动底座等配置,仅需修改文本提示可切换。零样本开放世界泛化:在未见过的颜色、实例、位置、背景、指令五个分布外维度上保持高成功率,无需针对新环境重新训练。动态物体操作:无需动态训练数据,零样本操作运动中的物体,DOMINO 基准成功率 26.6% 超越专用微调模型。长时程导航:任务自适应 token 分配机制,为长指令保留更丰富的 episode 历史,VLN-CE 基准 R2R 57.5%、RxR 59.6% 超越专用导航模型。Qwen-VLA的技术原理统一动作轨迹预测框架:传统具身智能将操作、导航、轨迹预测拆分为独立模型,导致跨任务迁移受限。Qwen-VLA 发现三者计算结构同构——均为”观察场景 + 理解指令 → 预测未来动作序列”,因此统一建模。模型将 Qwen3.5-4B 视觉语言主干与 1.15B DiT 动作解码器结合,不同任务数据在同一训练中共同监督,视觉定位和空间推理能力跨任务迁移。本体感知提示条件化:面对机器人硬件差异,传统方案为每种本体定制独立分支。Qwen-VLA 将硬件差异编码为结构化文本提示作为唯一平台接口,提示包含机器人型号、臂数、关节配置、控制频率等信息,交由 VLM 处理。骨干网络隐藏状态与噪声动作块拼接后送入 DiT 解码器,推理时仅替换提示可切换平台。文本到动作 DiT 预训练(T2A):训练面临 VLM 已预训练而 DiT 从零初始化的问题。解决方案:冻结 VLM,单独训练 DiT,且不提供图像仅输入文本。让 DiT 先学会动作分布、文本-动作对齐、本体条件化。此阶段计算代价仅为多模态训练的 1/10。消融实验验证:20%合成+80%真实数据最佳(71.1%),无图像反而优于有图像,2,000步达峰值。如何使用Qwen-VLA环境准备:从 GitHub 克隆官方仓库并安装依赖,下载预训练权重。模型推理:根据机器人硬件配置生成本体提示,将图像、指令和提示输入模型,获取动作序列并发送给机器人执行,循环迭代实现闭环控制。模型训练(进阶):按 T2A → CPT → SFT → RL 四阶段流程训练,逐步提升动作生成、视觉感知、任务适配和闭环优化能力。跨平台部署:切换机器人时仅需修改提示中的硬件描述字段,适配新本体时采集数据在 SFT 阶段微调即可。Qwen-VLA的核心优势通用性超越专用性:单一通用模型在 5 个仿真基准中的 3 个超越最佳专用模型。轻量跨本体适配:仅需修改文本提示,无需为每种机器人重新训练模型。高效预训练策略:T2A 阶段计算成本仅为多模态训练的 1/10,避免干扰 VLM 预训练成果。强 OOD 泛化能力:真实世界平均 OOD 成功率 76.9%,超越 π₀.₅+35.4pp及无预训练变体+40.7pp。动态场景零样本突破:DOMINO 基准零样本 26.6%,超越专用微调模型 PUMA 17.2%。Qwen-VLA的项目地址项目官网:https://qwen.ai/blog?id=qwenvlaGitHub仓库:https://github.com/QwenLM/Qwen-VLAarXiv技术论文:https://arxiv.org/pdf/2605.30280Qwen-VLA的同类竞品对比维度Qwen-VLAπ₀.₅ (Physical Intelligence)架构底座Qwen3.5-4B VLM + 1.15B DiT 解码器基于流匹配的 VLA 架构任务统一性操作+导航+轨迹预测三任务统一专注操作任务跨本体方式文本提示条件化,无需改架构需针对不同本体微调或适配支持平台数11 种(WidowX、ALOHA、Franka 等)主要支持少量主流平台预训练策略T2A 无视觉预训练(计算成本 1/10)端到端多模态联合训练动态操作零样本 26.6%(DOMINO)零样本 7.5%OOD 泛化真实世界平均 76.9%41.5%导航能力VLN-CE R2R 57.5%,超越专用导航模型不支持开源程度论文+代码+权重全开源部分开源训练效率T2A 阶段计算成本为多模态 1/10标准多模态训练成本Qwen-VLA的应用场景多任务工业机器人:同一模型在装配线上完成抓取、搬运、导航至不同工位等异构任务,无需为每个任务单独部署模型。服务机器人跨场景部署:家用机器人在厨房执行操作、客厅自主导航、走廊规划轨迹,无缝切换任务类型。科研教育平台:研究人员无需为每种机器人重新训练模型,仅需修改文本提示即可在新硬件平台上快速验证算法。动态环境操作:物流仓储中抓取传送带上的运动包裹,无需针对动态场景重新采集训练数据。长时程复杂指令跟随:博物馆导览机器人执行”先去A展厅拍照,绕过人群去B展厅”等多步骤长指令任务。# AI工具# AI项目和框架©版权声明本站文章版权归AI工具集所有,未经允许禁止任何形式的转载。上一篇MiniMax M3 - MiniMax 推出的新一代 AI 模型下一篇Hermes Desktop - Hermes Agent 的桌面应用,开箱即用相关文章Rooms – 前 Google 员工推出的交互式 3D 房间创建应用AI小集2Roop-Unleashed – AI换脸工具,支持批量换脸、VR换脸、直播换脸AI小集4BasedLabs – 多功能图像和视频创作的AI平台AI小集3LayerDiffusion – AI生成具有透明度的图像的框架AI小集2Get笔记 – 得到推出的免费AI语音转文字小程序AI小集6ZEPIC – AI营销平台,分析数据快速生成个性化的营销活动AI小集3暂无评论再想想发表评论暂无评论…热门工具豆包LibTV秒哒AiPPT秘塔AI搜索TRAE编程堆友AI美图设计室绘蛙AI星流AI响指HaiSnap办公小浣熊最新收录立刻MV交织 WeaveHaimeta七色米AIKreneInteriorize最新文章ChatGPT Plus 和 Claude Pro 会员代充值 – 支持支付宝、微信支付2小时前Cosmos 3 – 英伟达开源的全模态物理 AI 基础大模型2小时前Dubbing v2 – ElevenLabs 推出的 AI 配音模型2小时前Gamma-World – 英伟达推出的多智能体世界模型5小时前Music v2 – ElevenLabs 推出的音乐生成大模型5小时前Funloom – AI 原生游戏共创平台,简单描述生成完整游戏7小时前Hermes Desktop – Hermes Agent 的桌面应用,开箱即用7小时前MiniMax M3 – MiniMax 推出的新一代 AI 模型10小时前墨见 – 墨刀推出的 AI 协作平台10小时前OmniVoice Studio – 开源 AI 语音处理工具,ElevenLabs 平替23小时前ControlFoley – 小米开源的可控视频音效生成模型23小时前Webwright – 微软开源的终端原生网页智能体框架23小时前SenseNova-U1-8B-MoT-Infographic – 商汤科技开源的信息图增强模型2天前getdesign.md – VoltAgent 团队推出的 AI 原生设计系统库2天前美团GEO营销门户 – 美团推出的生成式引擎优化平台2天前