【AI前沿】Xiaomi OneVL

2026-05-14

Xiaomi OneVL – 小米具身智能团队开源的自动驾驶大模型AI工具4小时前发布AI小集02Xiaomi OneVL是什么Xiaomi OneVL是小米具身智能团队推出的开源自动驾驶大模型，在业内首次将VLA视觉-语言-动作、世界模型与潜空间推理三大技术路线统一于单一框架。模型通过双辅助解码器监督紧凑潜变量，实现思考速度与不思考一样快，效果比思考更好的突破，车端推理延迟仅0.24秒，在NAVSIM等四项基准上达到SOTA，模型权重与代码以Apache 2.0协议全面开源。Xiaomi OneVL的主要功能视觉-语言-动作（VLA）统一推理：将场景理解、语言推理与驾驶动作输出集成到单一框架，实现从感知到决策到执行的一步式端到端闭环。世界模型未来预测：内置视觉世界模型解码器，可预测未来0.5秒和1.0秒的场景帧，强迫模型内化道路几何、车辆运动与环境变化的因果动力学。潜空间思维链（Latent CoT）推理：在紧凑潜变量中完成深度推理，推理时丢弃辅助解码器，所有潜变量token通过单次并行预填完成，延迟仅0.24秒，与”直接预测”速度相当但精度更高。双辅助解码器监督训练：训练阶段通过语言解码器重建文本思维链、视觉解码器预测未来帧，双维度监督确保潜变量同时编码语义推理与物理世界因果规律。高精度轨迹预测：基于Qwen3-VL-4B-Instruct主干网络，顶部附加MLP头输出轨迹，在NAVSIM基准PDM-score达88.84，超越8B竞品。Xiaomi OneVL的技术原理三大技术路线统一：Xiaomi OneVL 首次将 VLA（视觉-语言-动作）、世界模型与潜空间推理三条独立技术路线融合到单一框架中，使模型在理解当前场景的同时，能基于物理因果规律预测未来环境演变，输出驾驶动作，实现从感知、推理到决策的端到端闭环。双辅助解码器监督架构：模型在训练阶段引入两个辅助解码器：语言解码器负责重建文本思维链，确保潜变量编码语义推理能力；视觉世界模型解码器负责预测未来帧（T+0.5s、T+1.0s），强迫潜变量内化道路几何、车辆运动等物理动力学规律。推理时两个解码器被丢弃，仅保留紧凑潜变量进行预测。三阶段渐进式训练：训练分为轨迹对齐、语言推理对齐、视觉世界模型对齐三个阶段，逐步将潜变量与轨迹输出、语言推理目标、视觉预测目标对齐。跳过任一阶段都会导致性能灾难性下降（最高达 21.71 分），证明三阶段联合优化对稳定训练至关重要。一步式潜空间并行推理：推理阶段所有潜变量 token 通过单次并行预填完成，无需自回归逐 token 生成，车端延迟仅 0.24 秒（4.16Hz），与”直接输出答案”的速度相当，精度显著超越显式思维链方法，成为首个在性能上超过显式 CoT 的潜空间推理方案。轻量化模型底座：主干网络采用 Qwen3-VL-4B-Instruct，顶部附加紧凑 MLP 头进行轨迹预测，视觉分词器使用 Emu3.5-VisionTokenizer（码本大小 131072）。4B 参数规模在 NAVSIM 基准上 PDM-score 达到 88.84，超越 8B 竞品 AdaThinkDrive 与 LaST-VLA。Xiaomi OneVL的核心优势速度与精度兼得：Xiaomi OneVL 是业内首个精度超越显式思维链的潜空间推理方法，车端推理延迟仅 0.24 秒，与直接预测速度相当但效果更优，比显式自回归 CoT 快 32%。三大技术路线统一：Xiaomi OneVL 首次将 VLA、世界模型与潜空间推理三条独立技术路线融合到单一框架，使模型同时具备场景理解、物理因果推演和未来预测能力。双维度可解释决策：Xiaomi OneVL 同时提供语言解释和视觉预测两种决策依据，能用文字说明驾驶逻辑，也能用生成画面展示未来场景，解决自动驾驶的”黑盒”不可解释问题。轻量化与高性能并存：模型基于 4B 参数的 Qwen3-VL-4B-Instruct 主干网络，在 NAVSIM 基准 PDM-score 达 88.84，超越 8B 竞品，用更小模型规模实现更高性能。全面开源可商用：模型的模型权重、训练与推理代码均以 Apache 2.0 协议全面开源，支持学术界与产业界自由二次开发与商业应用。四项基准全面 SOTA：Xiaomi OneVL在 NAVSIM、ROADWork、Impromptu、Alpamayo-R1 四项权威基准测试中均达到当前最优水平，其中 Alpamayo-R1 的 ADE 为所有方法中最佳。Xiaomi OneVL的项目地址项目官网：https://xiaomi-embodied-intelligence.github.io/OneVL/GitHub仓库：https://github.com/xiaomi-research/onevlarXiv技术论文：https://arxiv.org/pdf/2604.18486Xiaomi OneVL的同类竞品对比对比维度Xiaomi OneVLEMMA(Waymo)所属机构小米具身智能Waymo（Google）模型定位端到端 VLA + 世界模型统一框架端到端多模态通用ist 自动驾驶模型基础模型Qwen3-VL-4B-Instruct（4B）Gemini / PaLI-X（大规模，未公开具体参数）核心架构潜空间推理 + 双辅助解码器（语言 + 视觉世界模型）纯文本 VQA 范式，所有输入输出表示为自然语言文本推理方式单次并行预填，0.24 秒延迟（4.16Hz）自回归 CoT 逐 token 生成，延迟高，计算昂贵世界模型内置视觉解码器，可预测未来 0.5s/1.0s 帧无显式世界模型，不具备未来场景生成能力动作输出连续轨迹预测（MLP 头直接输出）文本形式的 BEV 坐标（waypoints），需文本到浮点转换可解释性语言 + 视觉双维度（文本解释 + 未来画面预测）文本 CoT 推理链（rationale）+ 视觉定位（3D/BEV 位置标注）多任务能力专注运动规划，四项基准 SOTA通用ist 模型，联合训练规划、3D 检测、路图估计、场景理解训练方式三阶段渐进式对齐（轨迹→语言→视觉）端到端微调，多任务 co-training，利用 Gemini 预训练世界知识传感器输入视觉（相机）视觉（相机），不支持 LiDAR / radarXiaomi OneVL的应用场景高阶智驾量产部署：解决传统CoT推理延迟过高、无法实时部署的瓶颈。复杂路况决策：预判行人意图、车辆并道等动态场景，规避”黑盒”风险。模型决策可视化：为自动驾驶系统提供可审计、可解释的语言与视觉决策依据。学术研究二次开发：开源代码与权重支持学术界与产业界基于Apache 2.0协议商用。# AI工具# AI项目和框架©版权声明本站文章版权归AI工具集所有，未经允许禁止任何形式的转载。上一篇AGenUI - 高德联合阿里开源的原生 A2UI 框架下一篇Claude Pro 和 ChatGPT Plus 会员代充值 - 支持微信支付相关文章Genie 2 – 谷歌DeepMind推出的最新一代基础世界模型AI小集3MiniMax-M2-her – MiniMax推出的AI角色扮演模型AI小集3牛马AI – 本地AI个人工作台，自由接入多种模型AI小集6OpenSandbox – 阿里巴巴开源的通用 AI 应用沙箱平台AI小集3Kosong – 月之暗面开源的全新AI Agent开发框架AI小集3Momentic – AI测试平台，低代码交互式创建和编辑测试用例AI小集2暂无评论再想想发表评论暂无评论…热门工具豆包LibTV秒哒AiPPT秘塔AI搜索TRAE编程堆友AI美图设计室绘蛙AI星流AI响指HaiSnap办公小浣熊最新收录ToDesk AIMoMA麦芽AI数以轻舟AgentMiniMax HubVibePaper最新文章Claude Pro 和 ChatGPT Plus 会员代充值 – 支持微信支付4小时前AGenUI – 高德联合阿里开源的原生 A2UI 框架5小时前WinClaw龙虾深度体验 – 附永久免费 Token 领取攻略20小时前OpenMontage – 开源 AI Agentic 视频制作系统20小时前ELF – 何恺明团队推出的首个扩散语言模型1天前9Router – 开源 AI 编程路由代理工具，智能调度模型1天前Okara AI CMO – AI营销智能体系统，自动搞定全渠道获客1天前Anijam – 寻酷科技推出的 AI 动画创作 Agent2天前InsForge – 面向 AI 编程 Agent 的开源后端平台2天前MiniCPM-V 4.6 – OpenBMB 开源的端侧多模态大模型2天前Daybreak – OpenAI 推出的 AI 网络安全防御工具2天前AudioLib – 开发者音频基础设施平台，单 API 调用海量音乐2天前AI Job Search – 开源 AI 求职框架，自动匹配与搜索职位3天前HiDream-O1-Image – 智象未来开源的原生统一图像生成模型3天前agents-cli – 谷歌云智能体开源的官方命令行工具3天前

← 返回首页