【AI前沿】ControlFoley
ControlFoley – 小米开源的可控视频音效生成模型AI工具14小时前发布AI小集02ControlFoley是什么ControlFoley是小米开源的可控视频音效生成模型,能解决V2A领域可控性难题。模型统一支持文本引导、文本控制与参考音频控制三类视频配音任务,通过自研时空音视频编码器CAV-MAE-ST、时间-音色解耦与模态鲁棒训练,实现语义对齐、时间同步与音质全面提升。模型在多个benchmark上达到开源SOTA,代码与模型权重已开放。ControlFoley的主要功能TV2A(文本引导视频配音):根据视频和文本提示生成同步音效,文本补充画面声音语义。TC-V2A(文本控制视频配音):文本与视频语义冲突时,优先遵循文本意图,同时保持时间同步。AC-V2A(参考音频控制视频配音):根据参考音频控制音色风格,不破坏视频节奏。ControlFoley的技术原理联合视觉编码:自研 CAV-MAE-ST 时空音视频编码器,专注音视频时空对应关系,增强动作节奏与时间同步理解,与 CLIP 结合兼顾语义与同步。时间-音色解耦:抑制参考音频中的时间信息,保留全局音色特征,避免参考音频干扰视频同步。模态鲁棒训练:随机模态 dropout + 统一多模态表示对齐,适配多种输入组合;通过 REPA 对齐目标提升语义一致性。如何使用ControlFoley获取开源资源:访问 GitHub 仓库下载代码与模型权重,或直接使用官方提供的在线 Demo 进行体验。环境配置:根据仓库说明安装依赖环境,配置 Python 运行环境与必要的音视频处理库。选择任务模式:根据创作需求选择三类任务之一:TV2A(文本引导)、TC-V2A(文本控制)或 AC-V2A(参考音频控制)。准备输入条件:导入视频文件;如选 TV2A 附加文本提示,如选 TC-V2A 输入与画面冲突的文本指令,如选 AC-V2A 上传参考音频文件。执行生成推理:运行模型推理脚本,ControlFoley 将基于联合视觉编码与时间-音色解耦机制生成与视频同步的音效。导出与后处理:获取生成音频后,通过 VAE Decoder 与 Vocoder 输出最终音轨,与视频合成完成配音。ControlFoley的核心优势统一框架:单一模型覆盖文本引导、文本控制和参考音频控制三类任务,无需切换多个工具。精准同步:自研 CAV-MAE-ST 时空编码器增强音视频时序理解,音画对齐精度领先开源竞品。音色解耦:时间-音色解耦技术确保参考音频仅影响音色风格,不干扰视频原有节奏。鲁棒控制:随机模态 dropout 与统一表示对齐训练,使模型在单模态或多模态输入下均稳定输出。开源 SOTA:在 VGGSound-Test、Kling-Audio-Eval 等多个 benchmark 上语义对齐与声音质量全面领先。ControlFoley的项目地址项目官网:https://yjx-research.github.io/ControlFoley_web_page/GitHub仓库:https://github.com/xiaomi-research/controlfoleyHuggingFace模型库:https://huggingface.co/YJX-Xiaomi/ControlFoleyarXiv技术论文:https://arxiv.org/abs/2604.15086ControlFoley的同类竞品对比对比维度ControlFoleyMMAudioHunyuanVideo-Foley任务覆盖统一支持 TV2A / TC-V2A / AC-V2A 三类可控任务主要支持 TV2A 基础视频配音主要支持 TV2A 基础视频配音文本冲突处理强:冲突场景下 DeSync 仅 0.36-0.38,优先遵循文本意图弱:文本易被视觉信息覆盖弱:文本控制能力有限参考音频控制支持,时间-音色解耦不破坏同步不支持不支持音画同步优:CAV-MAE-ST 增强时空对应良良开源状态代码、权重、技术报告全开源开源开源ControlFoley的应用场景短视频创作:为无声素材添加符合创作者意图的定制化音效,避免模型自动猜测的偏差。动画与游戏:为角色动作生成特定风格的打击声或环境音,如将普通敲门声替换为木槌击鼓声。影视后期:根据参考音频素材统一全片音效音色风格,保持品牌或系列作品的声音一致性。广告营销:按文本指令快速生成与品牌调性匹配的同步配音,强化节奏与情绪表达。自媒体直播:为直播切片或二创视频补充多模态可控的沉浸式音频,提升内容完成度。# AI工具# AI项目和框架©版权声明本站文章版权归AI工具集所有,未经允许禁止任何形式的转载。上一篇Webwright - 微软开源的终端原生网页智能体框架下一篇OmniVoice Studio - 开源 AI 语音处理工具,ElevenLabs 平替相关文章Yourware – AI网页构建平台,一键将网页代码快速上线AI小集3在哪儿问问 – 滴滴推出的AI图寻应用AI小集3NeuralSVG – 文本驱动矢量图形生成技术,转化为有层次结构的矢量图形AI小集3Storybook – 谷歌Gemini推出的AI绘本生成工具AI小集4OmniThink – 浙大联合阿里通义实验室推出的深度思考机器写作框架AI小集2Second Me – 心识宇宙开源的 AI 身份模型AI小集3暂无评论再想想发表评论暂无评论…热门工具豆包LibTV秒哒AiPPT秘塔AI搜索TRAE编程堆友AI美图设计室绘蛙AI星流AI响指HaiSnap办公小浣熊最新收录Haimeta七色米AIKreneInteriorizeMakefunFlow Music最新文章ChatGPT Plus 和 Claude Pro 会员代充值 – 支持支付宝、微信支付30分钟前MiniMax M3 – MiniMax 推出的新一代 AI 模型31分钟前墨见 – 墨刀推出的 AI 协作平台33分钟前OmniVoice Studio – 开源 AI 语音处理工具,ElevenLabs 平替14小时前Webwright – 微软开源的终端原生网页智能体框架14小时前SenseNova-U1-8B-MoT-Infographic – 商汤科技开源的信息图增强模型2天前getdesign.md – VoltAgent 团队推出的 AI 原生设计系统库2天前美团GEO营销门户 – 美团推出的生成式引擎优化平台2天前阿里云百炼 CLI – 阿里云开源的 AI Agent 命令行工具3天前Dynamic Workflows – Claude Code 推出的动态工作流3天前Hy-Memory – 腾讯混元推出的 Agent 记忆插件3天前Step 3.7 Flash – 阶跃星辰开源的新一代 Flash 模型3天前Claude Opus 4.8 – Anthropic 推出的旗舰级大语言模型3天前Qwen-Image-Bench – 通义千问推出的文生图模型评测基准3天前PilotDeck – 清华联合面壁智能开源的 Agent 操作系统3天前