【AI前沿】Qwen3.7-Plus
Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型AI工具2小时前发布AI小集02Qwen3.7-Plus是什么Qwen3.7-Plus 是通义千问推出的新一代多模态大模型,将视觉与语言统一为一体化智能体基座。模型能感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码,支持端到端导航移动应用、结合网络知识回答视觉问题,在单一智能体循环中无缝融合 GUI 与 CLI 交互。作为全能型编码智能体与生产力助手,模型用全模态输入处理从前端原型到复杂软件工程、再到多步工作流自动化的全方位任务,且具备跨框架泛化能力。Qwen3.7-Plus的主要功能多模态交互混合智能体:统一处理图像、视频、屏幕、网页和文本输入,在 GUI/CLI/工具环境中完成复杂任务闭环。视觉智能体:结合视觉理解、代码解释器和搜索增强,解决视觉谜题、真实世界问答和复杂推理任务。视觉编程:从图像或视频生成 SVG、网页和交互式前端,实现视觉参考到代码的端到端转化。GUI 智能体:理解移动端和桌面端界面,进行控件定位、任务规划和多步操作。真实世界感知与推理:覆盖真实场景、文档图表、OCR、视频和驾驶场景理解。Qwen3.7-Plus的技术原理视觉感知与推理融合:模型在 BabyVision、MathVision、HiPhO 等高难度视觉推理基准上表现强劲,体现出对图像细节、空间关系、物理常识和多步逻辑的综合理解能力。尤其在 BabyVision 上相比前代有显著提升,说明模型在更接近人类早期视觉认知和空间推理的任务上具备更强泛化能力。视觉到代码的端到端转化:通过代码解释器集成,模型能将视觉问题转化为可计算的问题表示,自主编写并执行代码进行求解、搜索或验证。在找不同、补图块、华容道、迷宫和拼图等任务中,模型能识别图像内容,进行空间建模、路径搜索、状态推演和结果校验。GUI 自动化与多步交互:模型能识别屏幕内容,定位关键 UI 元素、理解任务意图并完成多步交互操作。在 ScreenSpot Pro、OSWorld-Verified 和 AndroidWorld 上显著提升,支撑从”看懂界面”走向”操作界面”和”构建界面”。搜索增强的多模态知识问答:模型将视觉输入与外部知识检索结合,先从视觉输入中提取关键实体、场景、文字和上下文线索,通过搜索获取外部知识,综合视觉证据和检索结果给出答案。视频理解与驾驶场景感知:增强对短视频和长视频中事件、动作、时序和语义关系的处理能力,同时在 LingoQA、SURDS 和 VLADBench 等驾驶相关评测中展现出对动态场景、交通参与者和空间关系的强理解能力。如何使用Qwen3.7-Plus访问官方平台:通过阿里云百炼或Qwen Studio官网访问模型服务。选择模型版本:在模型市场中选择 Qwen3.7-Plus,根据需求配置调用参数。输入多模态内容:支持上传图像、视频、屏幕截图或网页链接,结合文本指令进行交互。执行任务:根据场景选择对应能力模式(Visual Agent、GUI Agent、Visual Coding 等),模型将自动完成感知、推理与执行闭环。Qwen3.7-Plus的核心优势多模态 Agent 闭环能力:将看、想、写、做、验整合进统一智能体工作流,支撑复杂软件任务从理解到交付的端到端自动完成。跨框架泛化:无论通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署,均能保持稳定表现。视觉编程领先:在 QwenVision2Code 上得分 1772.0,接近 GPT-5.4 的 1884.0,显著领先 Claude-Opus-4.6(1518.0)和 Gemini-3.1 Pro(1632.0)。GUI 操作能力强:ScreenSpot Pro 79.0、AndroidWorld 81.0,在界面理解和操作任务上处于第一梯队。长时自主运行:案例显示 Agent 可持续稳定运行 11+ 小时,累计生成代码超 10,000+ 行,触发调用超 1,000+ 次。Qwen3.7-Plus的项目地址项目官网:https://qwen.ai/blog?id=qwen3.7-plusQwen3.7-Plus的同类竞品对比对比维度Qwen3.7-PlusGPT-5.4定位多模态交互混合智能体基座模型通用多模态大模型Vision Arena 排名全球第5 / 中国第一未进入前7ScreenSpot Pro(GUI定位)79.067.4AndroidWorld(移动端操作)81.0未测试QwenVision2Code(视觉编程)1772.01884.0BabyVision(视觉推理)70.4/64.753.1RealWorldQA(真实世界问答)86.983.8Terminal Bench 2.0(终端编码)70.3未测试SWE-bench 多语言75.877.5视频理解 VideoMMMU88.089.5多模态搜索 MMSearchPlus41.419.7核心优势GUI操作、视觉推理、长时Agent闭环、跨框架泛化视觉编程、视频理解、通用语言任务适用场景复杂软件工程自动化、桌面/移动端GUI操作、多模态Agent工作流通用内容生成、视觉参考转代码、多语言翻译Qwen3.7-Plus的应用场景智能软件开发:从需求文档生成到代码编写、测试用例创建、GUI 自动化测试、版本迭代演进的全链路 APP 开发。桌面应用复刻:自主理解原生应用 UI 布局与功能细节,生成对应源码并接入真实 API,实现高保真应用复刻。视觉内容生成:将设计参考图转化为可执行的 SVG、网页或交互式前端代码,降低从视觉到代码资产的成本。多模态知识问答:结合图像、视频与网络搜索,回答开放世界的视觉问题,如地点识别、事件背景分析、商品信息查询。自动驾驶与具身智能:理解动态驾驶场景、交通参与者和空间关系,支撑真实世界多模态智能体和 embodied 场景。# AI工具# AI项目和框架©版权声明本站文章版权归AI工具集所有,未经允许禁止任何形式的转载。上一篇Polar - 英伟达开源的智能体强化学习训练框架下一篇语构 - 阿里达摩院推出的 AI 原生开发平台相关文章Frames – Runway 推出的AI图像生成模型AI小集3ChatDev 2.0 – 清华联合面壁智能开源的零代码多智能体工具AI小集3LightOnOCR-2-1B – LightOnAI推出的OCR模型AI小集3LEGAL ROBOT – AI合同审查工具,自动分析提取关键条款识别风险语言AI小集2Dive3D – 北大联合小红书推出的文本到3D生成框架AI小集2AgentRefine – 北京邮电大学联合美团推出的智能体合成框架AI小集2暂无评论再想想发表评论暂无评论…热门工具豆包LibTV秒哒AiPPT秘塔AI搜索TRAE编程堆友AI美图设计室绘蛙AI星流AI响指HaiSnap办公小浣熊最新收录立刻MV交织 WeaveHaimeta七色米AIKreneInteriorize最新文章ChatGPT Plus 和 Claude Pro 会员代充值 – 支持支付宝、微信支付42分钟前语构 – 阿里达摩院推出的 AI 原生开发平台44分钟前Polar – 英伟达开源的智能体强化学习训练框架2小时前Cosmos 3 – 英伟达开源的全模态物理 AI 基础大模型18小时前Dubbing v2 – ElevenLabs 推出的 AI 配音模型18小时前Gamma-World – 英伟达推出的多智能体世界模型20小时前Music v2 – ElevenLabs 推出的音乐生成大模型20小时前Funloom – AI 原生游戏共创平台,简单描述生成完整游戏23小时前Hermes Desktop – Hermes Agent 的桌面应用,开箱即用23小时前Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型1天前MiniMax M3 – MiniMax 推出的新一代 AI 模型1天前墨见 – 墨刀推出的 AI 协作平台1天前OmniVoice Studio – 开源 AI 语音处理工具,ElevenLabs 平替2天前ControlFoley – 小米开源的可控视频音效生成模型2天前Webwright – 微软开源的终端原生网页智能体框架2天前