【AI前沿】Xiaomi Auto World Model
Xiaomi Auto World Model – 小米推出的辅助驾驶世界模型AI工具1小时前更新AI小集02Xiaomi Auto World Model是什么Xiaomi Auto World Model 是小米汽车推出的辅助驾驶世界模型,首次将三维重建(WorldRec)与视频生成(WorldGen)深度耦合。WorldRec 用稀疏 3D 锚点实现 10 秒视频 10 秒快速重建,WorldGen 通过两阶段训练与 ODE 蒸馏实现 4 步去噪、0.19 秒/帧生成,支持最长 1 分钟视频。在 Waymo 重建精度(PSNR 28.48)与 nuScenes 生成质量(FVD 64.97)上均达 SOTA,已落地合成数据、仿真测试、辅助驾驶学堂三大业务场景。Xiaomi Auto World Model的主要功能WorldRec 三维重建模块:采用稀疏 3D 查询锚点替代传统稠密高斯,实现多视角多时刻特征聚合与可见性加权融合,10 秒视频重建仅需 10 秒,消除多视角冲突与鬼影问题。WorldGen 视频生成模块:基于全双向时序注意力预训练+因果微调两阶段训练,通过 ODE 蒸馏将去噪步数从 50 步压缩至 4 步,0.19 秒/帧生成未来帧、未观测视角与遮挡区内容,支持最长 81 帧(约 1 分钟)连续生成。重建-生成深度耦合:重建侧提供 3D 几何先验约束生成稳定性,生成侧扩展重建边界至未观测时空区域,两者互相校正抑制长时序漂移。极端场景生成:支持暴雨、大雪、浓雾等极端天气及动物闯入等长尾危险场景的高质量合成,为感知模型训练提供稀缺数据。三大业务落地:合成数据生成(已交付 10 万+ clips)、闭环仿真测试(复现真实事故定向优化)、辅助驾驶学堂(动态生成第一人称驾驶教学视频)。Xiaomi Auto World Model的技术原理WorldRec 稀疏锚点表征:摒弃逐像素预测高斯范式,改用稀疏三维查询点作为场景表征,每个锚点主动聚合多相机多时刻特征,通过可见性加权自动筛选可靠观测,从源头保证跨视角一致性。4D Gaussian 全局表示:维护随观测增量扩展的 4D 高斯场景表示,投影到自车视角后作为渲染先验输入生成模型,为生成提供确定性几何约束。WorldGen 两阶段训练:第一阶段全双向时序注意力预训练建立驾驶场景时空全局理解;第二阶段因果注意力微调+教师强制(Teacher Forcing),配合 ODE 蒸馏提速 12 倍,分布匹配蒸馏解决暴露偏差。重建-生成闭环约束:重建的确定性几何先验持续校正生成过程,生成补全重建覆盖不到的时空区域,两者目标函数在结构上互相约束,实现高稳定性、高一致性、高真实性。如何使用Xiaomi Auto World Model上线平台:已上线小米全车型的「辅助驾驶学堂 – 实景模拟场景」。使用条件:需拥有小米汽车(SU7 等车型),在车载系统中进入辅助驾驶学堂模块。Xiaomi Auto World Model的核心优势SOTA 性能:Waymo 重建 PSNR 28.48(超 DGGT 约 1 个点),nuScenes 零样本泛化 PSNR 26.54 同样领先;生成侧 FVD 64.97 超越所有双向与自回归基线模型。极速推理:单视角生成 0.19 秒/帧,三视角 0.46 秒/帧,较同类自回归方法 Epona(1.06 秒/帧)快 5.6 倍。超长时序:支持 81 帧连续生成(10Hz/30Hz,最长 1 分钟),远超公开基线模型的 8-16 帧限制。零样本泛化:nuScenes 零样本测试仍保持领先,证明对新场景具备强适应能力。已落地生产:已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成业务闭环。Xiaomi Auto World Model的项目地址项目官网:https://JointWM.github.io/arXiv技术论文:https://arxiv.org/pdf/2605.18137Xiaomi Auto World Model的同类竞品对比对比维度Xiaomi Auto World ModelWaymo World Model所属公司小米汽车Waymo(Alphabet/Google)发布时间2026年5月2026年2月技术路线重建+生成深度耦合一体化架构(WorldRec + WorldGen 互相约束)基于 Genie 3 的生成式世界模型(纯生成路线,后训练适配驾驶场景)重建模块WorldRec:稀疏 3D 锚点表征,10秒视频10秒重建,PSNR 28.48(Waymo数据集)无独立重建模块,依赖 Genie 3 的预训练世界知识生成全场景生成模块WorldGen:4步去噪,0.19秒/帧,支持81帧(~1分钟)连续生成基于 Genie 3 生成,支持多传感器输出(相机+LiDAR),可模拟极端场景架构特点重建给生成”打地基”(几何约束),生成给重建”扩边界”(补全未观测区域)纯生成式,通过语言/动作/场景布局三种控制机制调整模拟传感器支持主要面向相机数据(多视角图像输入)相机 + LiDAR 多传感器输出,可将普通行车记录仪视频转为多传感器模拟数据基准测试Waymo PSNR 28.48(超DGGT约1个点);nuScenes FVD 64.97,FID 7.04未公开具体量化指标,强调可模拟”从未见过”的长尾场景生成速度单视角 0.19秒/帧,三视角 0.46秒/帧未公开具体推理速度,强调”可扩展推理”与高效变体最大生成时长81帧(10Hz/30Hz,最长约1分钟)未明确公开,Genie 3 原生支持数分钟级别一致生成极端场景能力暴雨、大雪、浓雾、动物闯入等长尾场景生成龙卷风、洪水、积雪金门大桥、大象/狮子等罕见物体、 reckless driver 等业务落地已落地三大场景:合成数据(10万+ clips)、仿真测试、辅助驾驶学堂用于 Waymo Driver 训练与验证,支撑 robotaxi 扩张(2026年目标100万周订单)Xiaomi Auto World Model的应用场景合成数据生成:为辅助驾驶感知模型训练提供高质量、高多样性、高危险性的长尾场景合成数据,解决真实世界中稀缺场景样本不足问题。仿真测试:构建闭环仿真环境,复现真实事故场景进行定向优化,提升测试效率与完备性,降低实车测试成本与风险。辅助驾驶学堂:在智能座舱中动态生成第一人称驾驶教学视频,针对复杂路况向用户展示正确操作,提升人机共驾安全性与用户体验。# AI工具# AI项目和框架©版权声明本站文章版权归AI工具集所有,未经允许禁止任何形式的转载。上一篇Reasonix - 专为 DeepSeek 推出的开源终端编程 Agent下一篇SkyClaw-v1.0 - 昆仑万维天工AI推出的高性能Agent模型相关文章MiLoRA – 上海财经、南方科技和清华大学联合推出针对LLMs的微调方法AI小集212个免费的AI去水印软件和工具,图片和视频在线去水印AI小集20LandPPT – 开源AI PPT生成工具,简化三步工作流AI小集3Lightpanda – 开源的 AI 浏览器,兼容主流自动化框架AI小集3优云智算 – UCloud 旗下 GPU 算力租赁平台AI小集4MotionCLR – AI动作编辑模型,根据文本提示生成相应的动作序列AI小集2暂无评论再想想发表评论暂无评论…热门工具豆包LibTV秒哒AiPPT秘塔AI搜索TRAE编程堆友AI美图设计室绘蛙AI星流AI响指HaiSnap办公小浣熊最新收录MakefunFlow Music腾讯MarvisAgentMoreDataifyLumen Flow最新文章ChatGPT Plus 和 Claude Pro 会员代充值 – 支持支付宝、微信支付45分钟前MiniCPM5-1B – 面壁智能联合清华开源的端侧文本基座模型1小时前AgentScope 2.0 – 通义实验室开源的多智能体开发框架1小时前SkyClaw-v1.0 – 昆仑万维天工AI推出的高性能Agent模型1小时前Reasonix – 专为 DeepSeek 推出的开源终端编程 Agent7小时前Dulus – 开源的 CLI AI Agent,可驱动多模型工具调用7小时前DataBuddy – 腾讯云推出的大数据智能体工作台22小时前BitCPM-CANN – 面壁智能联合清华开源的端侧大模型1天前Horizon – 开源 AI 信息聚合系统,构建专属新闻雷达1天前Software Copyright Materials Skill – 开源软著资料生成Skill1天前Command A+ – Cohere Labs 开源的多模态大模型1天前FreeLLMAPI – 开源 AI 模型聚合平台,统一OpenAI兼容格式2天前Octask – 光魔科技推出的 AI 内容工作室平台2天前CodeGraph – 开源代码知识图谱工具,加速代码理解和分析3天前Mega-ASR – NTU、NUS、上海AI Lab开源的语音识别模型3天前