【AI前沿】对话 MiniMax 择因:Agent 终会超过人类,我们又将何去何从?
Agent 的世界,四月还是山雨欲来。五月尚未结束,已然血雨腥风。整个行业的加速快到不讲道理。Vibe Coding 已经不再是新名词,编程这条赛道也从未如此拥挤:Claude Code、Codex、Cursor 贴身肉搏,Trae、Qoder、CodeBuddy 杀成一团。黑话一个接一个流行起来,支配所有人的注意力。去年还是 skill(技能)的天下,如今 harness(脚手架)站上了王座。热词之下,模型已经卷到几近一条平直的线:不同的基准测试会给不同的答案,但总体来说,无论是 Opus、GPT,还是 Qwen、GLM、Kimi 和 MiniMax 们,无论是写代码还是执行越来越复杂的任务,都已不在话下。模型之间仍然存在差距,但拉开模型公司之间真正差距的,早已不再是模型本身,而是套在外面的那层壳。之前一份研究报告拆解了 Claude Code 泄露的代码,发现真正属于模型决策的代码只有 1.6%,剩下 98.4%,全是管权限、管上下文、兜错的 harness。为了进一步发挥模型的优势,全新一代的 agent 产品如排山倒海而来。Grok Build、Qoder 1.0、TRAE SOLO 纷纷推出。连一直以来低调沉默的 DeepSeek 都挂出多岗位招聘,组建 agent 开发队伍。早于业界布局 agent 的 MiniMax,在混战中落下自己的子。桌面端产品先是在 5 月中推出主打全新多 agent 编排架构的 Agent Team 功能。而随着 M3 旗舰模型,MiniMax 桌面端全面升级为 MiniMax Code,再次搅动了大厂、小龙云集的 agent 市场。Agent Team 的内核是一套 Leader-Worker-Verifier(领导-执行-验证)的「对抗式」架构。负责干活和负责挑错的职责,被拆成不同的 agent,受到经过代码逻辑固化的状态机去管理,彼此之间上下文隔离。这味药,治的是长程 agent 任务中那些出了名的顽疾:上下文污染、上下文焦虑、agent 之间的「共谋」。有趣的是,正如前述 MiniMax 并没有等 M3 发布,而是率先在 M2.7 上就将 Agent Team 推了出来。M2 这一代,被 MiniMax 称为「大巧若拙」,模型和脚手架之间的共融共生已经看到了黎明前的曙光。预料之中,M3 只会更强。近日 APPSO 与 MiniMax Agent 研发工程师择因(周淳辅)做了一场对谈。我们聊了 Agent Team 的设计原则及其所体现的 MiniMax 认知,探索了 Agent Team 的技术内核,浅析其它玩家对于 agentic 模型如何约束与放任。业界有一种观点正盛:Anthropic 拥有最好的模型和最烂的工程。在择因看来,Anthropic 骨子里不信任模型,预设模型会作弊、耍小聪明,于是到处加以约束。OpenAI 的 harness 核心却是一个极简的 agentic loop。一个极简框架养出了遵循度极好的模型,一个约束极强的框架却养出了「黑天鹅」。MiniMax 做 agent 的思路,既将两者融合,又不完全相同:要相信模型,给它和人一样的操作权限,但也要在脚手架中加入合理的约束。这些思路在业界独树一帜,但业界追赶新东西并将之确立为共识的节奏,早已快过于新思想诞生的速度。在 agent 上,MiniMax 没有壁垒——没有任何人有。择因发给我一篇 71 页的论文,告诉APPSO:「关于 agent 的所有东西,都在这篇论文里了。如果一篇就能说清楚,还有什么壁垒?」但 MiniMax 仍有绝活。他们力求以最快的速度不断向整个行业输出新的认知,做共识的领导者、执行者、验证者——这也是为什么 Agent Team 及其背后架构没等 M3,就公之于众了。究其根本,中国模型公司的「开源」玩法不会一直持续下去。但这并不代表,优秀的认知不应该及时与世界分享。就像一个 agent 的工作会有它的停止条件,开发 agent 的人们也有停止的那一刻。对于择因,可能会是当 agent 可以实现真正的自进化,并且在几乎任何数字或物理世界的任务上效率和成本优于人类。从站在第一线的他的视角来看,我们离那个未来并不遥远。以下是 APPSO与 MiniMax Agent 研发工程师择因的对话。卖个关子:在最后我们提出了一个开放性的问题,并获得了意想不到的答案。架构即认知APPSO:Agent Team 为什么没等 M3,直接在 M2.7 上就发布了?择因:不用非等到和新模型一起发,是我们的意愿,也是自己的节奏,就是希望不停地把最新的认知传达给外界,这件事情很值得做。以及它在我们内部已经使用很久了,一个月的时间,我们觉得可以对外发布了。APPSO:今天一切的周期都变得很快,一个月已经很久了。择因:发布时我们模型还没迭代,但是有一批核心用户对我们的 agent 的运行范式感兴趣,所以我们提前发出去吸引他们。核心用户的建设对我们来说非常必要。后面我们也会考虑把我们的 Agent Team 架构开源出来。APPSO:MiniMax Code 到目前为止的反馈如何?择因:这次把订阅逻辑理顺了,订了 token plan 就能用 agent。一个多月下来,下载和订阅量有一个比较可观的增长。这其实很有意思,因为如果只是提供 API 的话,用户用模型的门槛高,使用效果也不是最佳。MiniMax Code 能让大家直接感受到模型的完全体,这也是我们一直以来的思路,这一次被验证了,我觉得很好。在 M3 上只会更好。用户方面有个比较有意思的点,因为我们是全模态,发现很多用户拿 Agent Team 去做长视频生成,有古文爱好者用它来生成大量的诗朗诵音频。这些偏 C 端、兴趣向的使用案例,其实我们没有预料。很多用户也告诉我们,当 Agent Team 被整个拉起来开始干活的感觉,给他们带来很大情绪价值。APPSO:真的像是有了几个员工给自己打工的这种感觉?择因:对。总体上看最近两个月的多 agent 产品,已经是血雨腥风。腾讯那个 (Marvis)「打工」感更强。很明显,在 Agent Team 的共识和落地方面,大家跟的都很紧。APPSO:你说有人用 MiniMax Code 做视频,会不会以后可以不用专业视频生成工具,不用懂脚本、分镜、首尾帧,直接用 agent 调用全模态模型就能做视频了?择因:首先明确一下,我说的是偏个人用户、爱好的角度做视频,我觉得是可行的。专业的视频制作,其实让一个 Agent Team 去做, 跑通打个样可以,但如果真的投入工业生产,还是需要分工。比如编导负责 idea、分镜、首尾帧这些关键的东西。给到另一帮人负责丢给海螺或 Seedance 抽卡。但我认为随着模型能力提升,抽卡这部分的成本,以及后续剪辑的成本,会降得非常低。我们调研了一下,发现今天让剪辑师剪视频其实比 AI 便宜。甚至市面上有一种服务,他把抽卡和剪辑都打包了,但价格主要是抽卡的成本,剪辑反倒不花钱。实际上他们找了一堆大学生上课学剪辑,交学费,课程任务就是给我把视频剪了。APPSO:如果更强的模型出来,比如 M3,能比人工剪辑还便宜吗?择因:我们的模型在能力上可以。但是你要算账的话,还是我刚说的套路,人的成本也会越来越低。APPSO:MiniMax Code 的 Agent Team 架构,也就是 Leader-Worker-Verifier,听上去很合理,你们先做出来,然后 Claude Code 也跟进了。择因:我们是从三月开始做的,一开始我和边上同事讨论,一个 agent,它一旦做错了,在上一轮轨迹里面它永远会记得自己做错了这件事。但转念一想,它如果接下来按对的方向去做,其实这段做错了的记忆它是完全不需要的,对不对?基于这个想法,我们设计了这个新的架构:让干活的和负责验证的 agent 之间分开。验证的时候要有打回的机制,并且要让一个新的「脑子」去打回。当月我们就把这套架构搭出来了,不过目前那个时候是主要内部使用,大家用得非常不亦乐乎。APPSO:你们内部用的爽点具体是什么?是解决了之前的痛点,还是效率高、更不容易出错?择因:我举个最简单的例子,比如你睡觉前给它派个任务,哪怕是极度复杂的工作,只要你卡控的够严格,你的准出标准可量化、可观测,而不是模型自己觉得可以就可以了——只要你做好这些门禁,这群 worker 和 verifier 就能在你睡觉的时候一直跑,睡醒之后就干完了。可以说三月开始,这种新的开发节奏、新工作方式,就在我们内部出现了。APPSO:这和传统依赖提示词的多 agent 编排的本质区别是什么?择因:本质区别是我们的 Agent Team 架构做了一套复杂的自由度限制。首先运行层面它是一个状态机,是确定性的代码,有严格的限制,它不能跳出这套规范,你可以把它理解为一个更严格的工作流 (workflow)。在 agent 基建的层面,我们又给了极大的自由度。所有的 agent 之间都可以互相通讯,这和传统的 agentic workflow,有方向的流程图是完全不同的。当然,以前的 workflow 里面也可以带循环,但是核心还是这步走完了下一步。我举个例子,比方说你用 agent 做开发,环境里少了某个包导致开发受阻,过去的 workflow 上可能就卡住了,而我们的 worker 或 verifier 发现了之后,它可以通过多种健全的机制通知其它 agent 别踩坑。再比如一个研究类的任务,一开始的研究计划需要 leader 做些初步研究,过去 leader 分配完任务就停止了。但在我们架构下,如果用户有新点子、补充想法可以直接说,leader 能随时启动、去打断当前的 agent team、加一个新编排进去。Agent 工作流可以随时调整,剩下的重活都交给模型就行了。以及大家知道强化学习逻辑下会出现「上下文焦虑」,当上下文过长模型就不想干活了——不干活就不犯错嘛。而我们这套逻辑让它更严格遵循编排,持续工作直到达到准出标准。APPSO:你们如何让模型同源的 agent 实现对抗,避免共谋?择因:答案很简单,还是提示词。2026 年的大多数模型遵循能力足够强,提示词变得更可用。我们也会做一些提示词上的「雕花」行为,更重要的是给模型可观测的停止条件,让 worker 和 verifier 分别管理一些事情,比如 worker 的停止条件就是把活干完了,verifier 的停止条件是在干完的活里找到 bug。APPSO:我的使用体验,有时候觉得可以交付了,但 agent 还在打过来打回去。你们怎么定义 agent 之间的对抗强度?太宽松肯定不好,太严格会无限循环。择因:我们不会假定所有的用户生产场景,所以先把这套框架抛出来,用户可以自己去定停止条件。至于怎么定,可以通过 Skill,让 agent 根据用户对停止条件的倾向主动总结成 skill,下次运行任务就可以作为判断标准。这个 skill 肯定是千人千面的,不是我们来概括。随着用户长期使用,agent 会越来越懂用户。我们在 M3 训练中也加入了类似数据,让模型具备主动性,去总结之前的轨迹,根据用户的反馈去提炼 skill,让工作更加可观测。随着模型能力提高,我们可以做得越来越多。APPSO:MiniMax Code 的一大特点就是 agent 之间上下文隔离,很反直觉,你们是怎么想的?择因:agent 上下文分为三部分:用户请求、环境里的生产资料、模型执行轨迹。比如当 agent 执行出了错,会把犯的错记下来,但这个记录对另一个 agent 可能是有害的。当上下文变得臃肿,这些轨迹一定会污染别的 agent。长程 agent 任务跑出几个小时后,几乎全部的上下文都是执行轨迹,所以我们要隔离这一部分上下文。做这个设计就是因为我们预期 agent 会运行很久,既然大部分的信息都是不需要的,为什么不隔离?APPSO:同时执行几个任务,通过微信、飞书跟 MiniMax Code 查询也不会「串台」,这个体验很独特,是怎么做到的。择因:你