【AI前沿】Wall-OSS-0.5
Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型AI工具3小时前发布AI小集02Wall-OSS-0.5是什么Wall-OSS-0.5是自变量机器人开源的国产具身智能模型,属于视觉-语言-动作(VLA)大模型,具备无需任务微调即可在真实机器人上部署的”零样本”能力。模型通过创新的Gradient-Bridge协同训练方法,将动作能力融入基础模型backbone,使机器人能直接执行搬运、分拣等17个真实任务,其中4个任务完成率超过80%。Wall-OSS-0.5的主要功能零样本真实机器人操作:预训练检查点可直接部署到物理硬件,无需针对特定任务微调即可执行抓取、排序、整理等操作,实现”预训练即可部署”。多形态统一适配:单个预训练检查点即可适配桌面双臂、移动操作等 20 多种机器人形态,打破传统模型需为每种硬件单独训练的局限。三目标协同训练:通过离散动作预测、多模态预测与连续流匹配三者互补优化,形成”梯度桥接”,让动作学习与视觉语言理解互不干扰、协同提升。混合专家架构(MoT):视觉-语言令牌由 VL Expert 路由处理,连续动作计算由 Action Expert 负责,联合注意力机制实现端到端梯度流动,兼顾语言理解与动作生成。视觉语言能力保持:动作训练不会侵蚀基础 VLM 能力,实体 grounding 能力提升 21.8 个百分点,通用视觉-语言理解与推理能力完整保留。高效微调适配:在 LeRobot 数据集上微调后,15 项真实机器人任务平均进度达 60.5%,领先同类模型 π0.5 达 17.5 个百分点。强泛化与长程执行:在 3 项未见过的任务(如变形物体操作)上依然保持高进度,支持多阶段连续操作(如绳索收紧、抹布折叠、果篮整理等长程任务)。Wall-OSS-0.5的技术原理4B 参数 VLA 架构:基于 30 亿参数的 Qwen2.5-VL 视觉语言模型作为骨干,叠加动作生成组件,总参数量达 40 亿,实现视觉感知、语言理解与机器人动作生成的端到端统一。混合专家路由(MoT):采用 Mixture-of-Experts 架构,视觉-语言令牌通过 VL Expert 路由处理,连续动作计算通过独立的 Action Expert 处理,二者通过联合注意力机制实现端到端梯度流动,避免动作训练干扰语言理解。梯度桥接协同训练:创新性地将离散动作预测、多模态预测与连续流匹配(Flow Matching)三者作为互补优化目标进行协同训练,形成”梯度桥接”,使动作策略学习与视觉语言预训练知识相互增强而非冲突。连续流匹配动作生成:使用 Flow Matching 技术对连续动作空间进行建模,相比传统的离散化或回归方法,能够更精确地生成平滑、高维的机器人控制信号。预训练即部署设计:通过大规模异构数据预训练,使模型在预训练阶段就习得通用的物理操作先验,检查点可直接在真实机器人硬件上执行零样本推理,无需任务特定的微调后处理。大规模异构训练数据:覆盖 20 多种机器人形态,每轮训练包含超 100 万条真实机器人轨迹;同时融合 9000 万条多模态语料(含 1200 万实体桥接样本),实现约 60% 自采数据与 40% 开源数据的任务平衡采样。联合注意力与端到端优化:VL Expert 与 Action Expert 共享注意力计算图,确保语言指令、视觉场景与动作输出在特征层面深度耦合,梯度可跨模态双向传播。能力解耦保持机制:通过三目标协同与专家分离设计,动作训练不会侵蚀基础 VLM 能力,实体 grounding 能力提升 21.8 个百分点,同时完整保留通用视觉-语言理解与推理能力。如何使用Wall-OSS-0.5环境准备:创建 Python 3.10 的 conda 环境,安装 PyTorch 等基础依赖,并确保安装 Flash Attention 2.7.4 及以上版本以加速推理。安装 LeRobot 库:克隆 Hugging Face 的 LeRobot 仓库,checkout 到指定兼容版本后执行pip install -e .完成安装。安装 Wall-X 工具链:克隆wall-x开源仓库,运行git submodule update –init –recursive拉取子模块后,执行安装命令完成工具链部署。下载预训练权重:从 Hugging Face(x-square-robot/wall-oss-0.5)下载官方发布的预训练模型检查点。配置机器人参数:根据目标机器人类型(如桌面双臂、移动操作等)设置自由度(DOF)配置、模型路径、数据路径及训练超参数。执行微调(可选):如需针对特定任务优化,在 LeRobot 格式的数据集上运行微调脚本(如bash ./workspace/lerobot_example/run.sh)以提升任务表现。部署到真实硬件:加载预训练或微调后的检查点,在真实机器人硬件上执行零样本推理或微调后推理,直接输出可执行的机器人控制策略。Wall-OSS-0.5的核心优势部署即用:区别于传统 VLA 模型必须微调后才能使用,预训练检查点直接产生可执行的机器人策略。高效适应:在 15 项真实机器人任务上微调后平均进度 60.5%,比 π0.5 的 43.0% 高出 17.5 个百分点。强泛化能力:在 3 项未见过的任务(如变形物体操作)上依然保持高进度,绳索收紧任务达 82%。视觉语言能力保持:动作训练不会侵蚀基础 VLM 能力,实体 grounding 能力提升 21.8 个百分点,通用 VL 能力完整保留。数据规模领先:覆盖 20+ 种机器人形态,每轮 100 万+ 轨迹,9000 万多模态样本。Wall-OSS-0.5的项目地址项目地址:https://x2robot.com/oss#resourcesGithub仓库:https://github.com/X-Square-Robot/wall-x论文地址:https://x2robot.com/api/files/file/wall_oss_05.pdfWall-OSS-0.5的同类竞品对比对比维度Wall-OSS-0.5π0.5OpenVLA开发机构自变量机器人(X Square Robot)Physical Intelligence(PI)Stanford 等学术机构参数规模40 亿(3B Qwen2.5-VL 骨干)未公开(基于 π0 架构扩展)70 亿(LLaMA 2-7B 骨干)核心架构MoT 混合专家 + 梯度桥接协同训练Transformer 分层推理 + 动作专家Prismatic VLM(SigLIP + DINOv2 + LLaMA 2)动作生成方式离散 token 与连续流匹配协同优化高层离散 token 自回归 + 低层流匹配去噪将动作视为语言模型词汇表中的离散 token 预测训练数据规模20+ 种机器人形态,每轮 100 万+ 轨迹,9000 万多模态样本网络数据 + 跨机器人经验 + 口头指令多源协同Open X-Embodiment 数据集 97 万条轨迹零样本部署能力预训练检查点直接部署,17 项任务中 4 项进度超 80%预训练后需后训练/微调,不直接支持零样本硬件部署预训练模型需任务特定微调,不支持直接零样本部署微调后性能15 项真实任务平均进度 60.5%,领先 π0.5 达 17.5 个百分点真实家庭环境任务成功率 60%-88%,复杂指令遵循率高WidowX / Google Robot 多任务成功率领先 RT-2-X 16.5%开源程度完全开源(权重、训练代码、配方、消融实验)研究发布,部分技术细节公开完全开源(模型权重、代码、LoRA/量化微调方案)核心创新点梯度桥接实现预训练即部署,动作与 VL 能力协同增强不互损开放世界泛化与层次化推理(高层语义规划 + 低层动作执行)首个全面开源的通用 VLA,验证 VLM 直接微调生成动作的可行性VLM 能力保持实体 grounding 提升 21.8%,通用 VL 理解与推理能力完整保留依赖网络数据维持语义理解,动作训练后需专门保持基于预训练 VLM 微调,语言能力基线较高Wall-OSS-0.5的应用场景家庭服务:积木排序、水果分类、抽屉整理、戒指堆叠等日常家务操作。柔性物体处理:绳索收紧、抹布折叠、插花等变形物体操作任务。工业装配:精密零件抓取、颜色分类、工具归位等重复性制造流程。双臂协作:需要双手配合完成的复杂装配、整理及长程组合动作。长程任务执行:多阶段连续操作,如果篮整理等多步骤需要持久注意力的任务。# AI工具# AI项目和框架©版权声明本站文章版权归AI工具集所有,未经允许禁止任何形式的转载。上一篇Cloud Agents - Qoder 推出的全托管 AI Agent 运行平台下一篇ChatGPT Plus 和 Claude Pro 会员代充值 - 支持支付宝、微信支付相关文章Violin – 牛津大学 Kevin Lin 开源的端到端 AI 视频翻译工具AI小集3百度伐谋 – 百度推出的商用自进化超级智能体AI小集4Infography – AI图表生成平台,自动将文本内容转化可视化图表AI小集5SkillClaw – 高德开源的 AI Agent 技能集体进化框架AI小集210个免费的AI漫画生成软件和工具,一键制作动漫作品AI小集21OpenAI CEO Sam Altman 离职事件时间线最全盘点AI小集22暂无评论再想想发表评论暂无评论…热门工具豆包LibTV秒哒AiPPT秘塔AI搜索TRAE编程堆友AI美图设计室绘蛙AI星流AI即梦AI办公小浣熊最新收录七色米AIKreneInteriorizeMakefunFlow Music腾讯Marvis最新文章ChatGPT Plus 和 Claude Pro 会员代充值 – 支持支付宝、微信支付1分钟前Cloud Agents – Qoder 推出的全托管 AI Agent 运行平台5小时前Guizang Social Card Skill – 歸藏开源的小红书图文优化Skill5小时前Fara1.5 – 微软推出的浏览器端 AI 智能体模型系列5小时前代号Craft – 腾讯游戏推出的 AI 游戏创作平台10小时前omp – 开源的 AI 终端编程智能体,能与 IDE 深度联动10小时前Runway MCP – Runway 推出的 MCP 服务器10小时前MAI-Image-2.5 – 微软推出的旗舰级文生图模型10小时前ForgeTrain – 面壁智能联合清华等开源的大模型预训练框架1天前UFate – 在线 AI 命理决策辅助工具,传统命理深度融合AI1天前Keye-VL-2.0-30B-A3B – 快手开源的自研多模态大模型1天前NoteAI – AI 一站式知识提取工具,支持视频、网页、音频1天前Aholo Viewer – 群核科技开源的 3D 高斯浏览器1天前Rodin Gen-2.5 – 影眸科技推出的千万级多边形 AI 3D 模型1天前ZSky AI – 免费 AI 视觉创作平台,全层级商业授权1天前