【AI前沿】PawBench
PawBench – 阿里通义推出的通用智能体评测基准AI工具2天前发布AI小集02PawBench是什么PawBench 是通义实验室推出的通用智能体评测基准,面向个人助理与 Agent 场景,将底座模型与运行框架(Harness)纳入同一评测体系。PawBench v1.0 构建了 150 道真实任务、4050 个测试单元的评测集,通过 9 个模型 × 3 个 Harness 的交叉评测,能评估模型+Harness的最佳组合,帮 Harness 开发者精准定位问题并验证优化。PawBench的主要功能联合评测:将底座模型与运行框架(Harness)纳入同一评测体系,评估 LLM × Harness 的联合效果。真实任务集:构建 150 道真实任务、4050 个测试单元,从 6 个高质量 Agent 评测集抽取并聚合。五维标签体系:每道题按应用场景、原子能力、复杂度(L1-L3)、输入模态、运行环境进行结构化标注。混合评分机制:结合自动评分器(规则断言)与 LLM-as-judge(语义质量评估),分数范围 0 到 1。多切片榜单:支持 Overall(150 题)、Text(124 题)、Multimodal(26 题)三个维度自由切换查看。全量轨迹保留:所有任务在 Docker 沙箱中运行,执行轨迹、grader 产物和环境快照完整保存。深度诊断分析:支持按模型规模、模态、任务类型、技能领域等维度切片,定位 Harness 具体行为缺陷。PawBench的技术原理交叉评测矩阵:构建 9 个模型 × 3 个 Harness × 150 道任务的三维评测空间,通过控制变量法隔离模型能力与框架能力的贡献。五维标签体系:从应用场景、原子能力、复杂度、输入模态、运行环境五个维度对任务进行结构化标注,支持多维度切片下钻分析。混合评分机制:结合确定性规则断言(文件存在性、字段匹配、exit code)与 LLM-as-judge 语义评估,平衡客观性与灵活性。Docker 沙箱隔离:每个测试单元在独立容器中运行,捕获执行轨迹、workspace 产物及环境快照,确保结果可复现与问题可追溯。产物级硬校验:通过检查文件是否落盘、diff 是否生成、测试是否通过等实质性指标,避免模型”虚假完工”。如何使用PawBench克隆源码:访问 GitHub 仓库agentscope-ai/PawBench克隆评测框架。配置环境:写入待测模型的 API 密钥,并配置 Harness 运行环境。选择任务:从 150 道任务中选择特定切片(Text/Multimodal)或全量任务启动。运行评测:在 Docker 沙箱中执行任务,系统自动保留执行轨迹与产物。获取评分:通过自动评分器与 LLM-as-judge 计算混合权重最终分数。提交榜单:访问agentscope-ai.github.io/PawBench提交结果并查看排名。PawBench的核心优势诊断 Harness:通过 4050 个测试单元的切片分析,精准定位框架在 Skill 加载、路径感知、工具配置等方面的行为缺陷。真实复现性:基于 Docker 沙箱运行,执行轨迹与环境快照完整保留,失败案例可逐层回溯复盘。零门槛开箱评测:还原开发者首次 clone 后的默认体验,不追求”配齐所有 API Key 的理论上限”。持续回归验证:Harness 每次修复后可重新切片跑分,验证优化是否真实对应到问题维度。Harness 分差量化:首次证明 Harness 差距(最高 6.4 分)堪比一次重大模型版本升级,为小模型反超提供路径。PawBench的项目地址项目官网:https://agentscope-ai.github.io/PawBench/GitHub仓库:https://github.com/agentscope-ai/PawBenchPawBench的同类竞品对比对比维度PawBenchSWE-benchAgentBench核心定位评测”模型 + Harness”联合效果评测模型解决真实代码问题的能力评测模型作为 Agent 在多环境中的通用能力Harness/框架评估✅核心能力,明确隔离框架贡献❌ 否,仅评估模型本身❌ 否,仅评估模型本身任务来源6 个 Agent 评测集聚合(150 道)真实 GitHub Issue/PR(2000+)多环境模拟任务(1000+)典型任务办公协同、软件工程、自动化脚本、Web 搜索、Skill 调用代码 Bug 修复、功能实现、测试通过OS 操作、数据库查询、网页浏览、卡牌游戏、家务决策评分机制自动规则断言 + LLM-as-judge 混合单元测试通过/失败(二元)环境规则评分(准确率/成功率)环境隔离Docker 沙箱 + 工作区产物校验代码沙箱 + Git 仓库快照多环境容器(OS/DB/Web 等)任务标签体系五维标签(场景/能力/复杂度/模态/环境)按编程语言/仓库切片按环境类型切片榜单维度Overall / Text / Multimodal 三切片按 Verified/Multimodal/Full 分榜按环境(OS/DB/KG/DCG 等)分榜失败诊断能力保留执行轨迹、产物快照、环境状态,支持逐层回溯保留代码补丁与测试日志保留环境交互日志零配置评测还原首次 clone 后的默认体验需配置代码仓库环境需配置各环境容器最佳适用Harness 开发者优化、模型+框架选型代码模型能力评估、编程助手研发通用 Agent 能力评估、多模态决策研究PawBench的应用场景Harness 开发者优化:通过切片分析定位框架在 Skill 加载、路径感知、Web 工具默认可用性等方面的具体缺陷。模型选型参考:帮助用户根据纯文本 / 多模态 / Skill / Web 搜索等任务类型选择最佳模型 + Harness 组合。基准回归测试:Harness 迭代修复后重新跑分,验证优化是否真实解决对应切片问题。学术研究:为通用智能体研究提供可复现的交叉评测基准,推动模型与框架协同进化。# AI工具# AI项目和框架©版权声明本站文章版权归AI工具集所有,未经允许禁止任何形式的转载。上一篇html-video - Open Design 团队开源的 HTML 版剪映下一篇PlanningBench - 腾讯混元等开源的大模型规划能力评测框架相关文章Hemingway Editor – 在线AI写作辅助工具,颜色区分高亮显示AI小集2MetaLaw – AI法律类案检索助手,自动检索深度分析相关的法律类案AI小集5AudioLib – 开发者音频基础设施平台,单 API 调用海量音乐AI小集2MIMO – 阿里智能研究院推出的可控角色AI视频合成框架AI小集5SynCamMaster – 快手联合浙大、清华等机构推出的多视角视频生成模型AI小集4TEN Agent – 开源的实时多模态 AI 代理框架AI小集4暂无评论再想想发表评论暂无评论…热门工具豆包LibTV秒哒AiPPT秘塔AI搜索TRAE编程堆友AI美图设计室绘蛙AI星流AI响指HaiSnap办公小浣熊最新收录OhYesAIOiiyaovue-skillsOpen Design立刻MV交织 Weave最新文章ChatGPT Plus 和 Claude Pro 会员代充值 – 支持支付宝、微信支付3分钟前GenflowAI – 商业 AI 工具市场,一键转化为完整商品图集4分钟前妙呀 – 大麦娱乐联合阿里通义推出的 AI 潮玩设计平台27分钟前Open Code Review – 阿里开源的 AI 代码审查 CLI 工具39分钟前PlanningBench – 腾讯混元等开源的大模型规划能力评测框架1天前html-video – Open Design 团队开源的 HTML 版剪映2天前WorkBuddy企业版 – 腾讯推出的企业级 AI 智能工作台2天前Magenta RealTime 2 – 谷歌Magenta开源的实时音乐生成模型2天前GitNexus – 开源代码知识图谱引擎,构建完整依赖关系图2天前Microsoft Scout – 微软推出的 AI 个人助手3天前GreenConvert – AI 音视频转录平台,双引擎转录模式3天前AhaCreator – AI 原生海外达人营销平台,全流程 AI 托管3天前BrowserAct Skills – 开源的 AI Agent 浏览器自动化 CLI 工具3天前Gemma 4 12B – 谷歌开源的多模态大模型3天前Ideogram 4 – Ideogram 开源的文本到图像生成模型3天前