【AI前沿】JoyAI-Echo
JoyAI-Echo – 京东开源的长音视频生成框架AI工具32分钟前发布AI小集02JoyAI-Echo是什么JoyAI-Echo 是京东推出的开源长音视频生成框架,专为分钟级多镜头故事生成设计。框架通过跨模态记忆库、记忆驱动后训练、Director Agent 对话式编辑和轻量化实时超分四大技术创新,解决长视频生成中角色变脸、音色突变、生成缓慢等核心痛点,首次实现长达 5 分钟的高一致性、可交互、高清长视频生成,标志着京东进入长视频生成全球第一梯队。JoyAI-Echo的主要功能分钟级多镜头故事生成:支持从单个提示词 JSON 生成连贯的多镜头长视频序列,最长可达 5 分钟。跨模态音视频联合生成:单一管道同步输出视频与音频,确保音画同步。配对跨模态记忆库:在多镜头生成中持续保存并调用角色外观特征与说话人音色,保持故事级一致性。DMD 蒸馏少步推理:通过分布匹配蒸馏技术,实现约 7.5 倍的生成速度提升。Director Agent 对话式编辑:用户可用自然语言与导演助理交互,自动拆分剧本、角色、场景和镜头,支持局部修订,无需重跑整条视频。轻量化实时超分:支持从 736×1280 单步超分至 1152×1920 或 1472×2560,在流式延迟约束下保持高清输出。JoyAI-Echo的技术原理跨模态音视频记忆库:JoyAI-Echo 的核心突破为内置一个配对跨模态记忆库,通过 Slot-paired 机制将视觉记忆与音频记忆绑定存储。在多镜头生成过程中,记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系,使每个新镜头都以前续镜头的身份特征为条件进行生成,在长达 5 分钟的视频中保持故事级一致性,彻底解决角色变脸和音色突变问题。记忆驱动后训练与 DMD 蒸馏加速:团队推出一套记忆驱动的后训练流程,结合监督微调(SFT)、跨模态 RLHF 及 Distribution Matching Distillation(DMD)技术。其中 DMD 将原本的多步扩散推理压缩为少步推理,在保持生成质量的同时实现了约 7.5 倍的推理加速,使分钟级长视频的流式生成从理论变为实用。Director Agent 交互架构:框架引入一个智能导演代理,将用户的自然语言意图自动扩展为结构化的剧本、镜头、角色和场景描述,支持规划、生成、评审、局部修订四个环节的闭环工作流。用户可通过对话方式指定修改,Agent 仅重新生成有问题的局部镜头无需重跑整条视频,将静态生成转变为动态协作。轻量化实时音视频超分:为满足专业内容生产的高清需求,JoyAI-Echo 配套单步音视频超分模块,可在流式延迟约束下将 736×1280 的基础输出实时锐化至 1152×1920 或 1472×2560,确保高分辨率输出不打破流式生成的实时性。如何使用JoyAI-Echo克隆仓库:git clone https://github.com/jd-opensource/JoyAI-Echo.git创建环境:用 Python 3.11 + PyTorch 2.8 + CUDA 12.8,通过 conda 或 uv 安装依赖,并确保ffmpeg可用。下载模型权重:从 Hugging Face 下载约 46GB 的echo-longvideo-release.safetensors和约 24GB 的gemma-3-12b文本编码器,放置于checkpoints/目录。编写故事提示词:创建 JSON 文件,按角色与主体、动作与对话、风格、镜头运动、背景、音效与 BGM 的顺序描述每个镜头。运行推理:执行python inference.py,模型一次性加载后处理所有提示文件,输出至inference_result/outputs/目录。JoyAI-Echo的核心优势超长一致性:在长达 5 分钟的视频中,角色身份、视觉形象和声音音色保持高度一致,彻底解决同一个人演着演着变成另一个人的问题。极速生成:记忆驱动后训练结合 DMD 技术,推理速度提升约 7.5 倍,从等半天变为秒出片。对话式交互创作:Director Agent 将静态生成转变为动态协作,支持自然语言规划、评审和局部修订,大幅降低创作门槛。高清实时输出:轻量化超分模块在流式延迟下稳定输出高分辨率视频,满足专业内容生产需求。全面开源:代码与权重已全部开源,基于 LTX-2.3 和 Gemma 构建,支持学术研究与二次开发。JoyAI-Echo的项目地址项目官网:https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/GitHub仓库:https://github.com/jd-opensource/JoyAI-EchoJoyAI-Echo的同类竞品对比对比维度JoyAI-EchoHappyOyster长视频生成能力✅ 支持最长5 分钟多镜头连贯故事生成✅ 支持长视频生成,但具体时长未明确公开角色/身份一致性✅59.4%用户偏好;跨模态记忆库确保多镜头角色外观与音色一致27.7% 用户偏好;未明确披露类似记忆机制视觉美学✅63.6%用户偏好27.6% 用户偏好音频质量✅81.7%用户偏好;联合音视频生成,音色稳定11.8% 用户偏好提示词遵循✅80.6%用户偏好;Director Agent 自动拆分剧本与镜头5.9% 用户偏好生成速度✅ DMD 蒸馏加速,7.5 倍推理提速,支持流式生成标准多步扩散推理,未明确披露加速机制对话式编辑✅ Director Agent 支持自然语言交互与局部镜头修订,无需重跑全片❌ 未明确支持对话式局部编辑实时超分辨率✅ 轻量化单步超分,支持至1472×2560❌ 未明确支持实时超分开源情况✅ 代码与权重全面开源(学术研究/非商业用途)❌ 未开源底层架构基于 LTX-2.3 + Gemma-3-12B,配对跨模态记忆库条件生成基于自研模型,具体技术细节披露较少JoyAI-Echo的应用场景虚拟故事创作与动漫制作:生成长达数分钟的连贯动画故事,保持角色外观、声音和性格在多镜头间高度一致,大幅降低传统动画制作成本。数字人内容生产与直播:为虚拟主播、数字人客服快速生成长视频内容,确保数字人的面容和音色在长时间输出中不漂移,提升真实感与专业度。品牌营销视频快速迭代:通过 Director Agent 的对话式编辑能力,营销团队可像聊天一样修改广告脚本和镜头,快速产出多版本品牌视频,缩短创意周期。影视前期预演与分镜制作:导演和制片方可用自然语言生成长片分镜与预演视频,在正式拍摄前验证镜头语言、角色走位和叙事节奏,降低试错成本。# AI工具# AI项目和框架©版权声明本站文章版权归AI工具集所有,未经允许禁止任何形式的转载。上一篇Kimi Work - 月之暗面推出的通用型本地 Agent下一篇ChatGPT Plus 和 Claude Pro 会员代充值 - 支持支付宝、微信支付相关文章unbounce – AI网站构建器,简单拖放定制功能全面的落地页AI小集3LHM – 阿里通义开源的单图生成可动画3D人体模型AI小集3LiveKit Agents – 创建实时与用户互动的多模态AI代理框架AI小集3Inciteful – AI学术文献搜索和分析工具,构建和分析引用网络快速掌握最新动态AI小集212个免费AI办公工具,Office办公智能化时代来了!AI小集6Picsman – AI图片编辑工具,提供多种智能图片处理功能AI小集2暂无评论再想想发表评论暂无评论…热门工具豆包LibTV秒哒AiPPT秘塔AI搜索TRAE编程堆友AI美图设计室绘蛙AI星流AI响指HaiSnap办公小浣熊最新收录立刻MV交织 WeaveHaimeta七色米AIKreneInteriorize最新文章ChatGPT Plus 和 Claude Pro 会员代充值 – 支持支付宝、微信支付31分钟前Kimi Work – 月之暗面推出的通用型本地 Agent33分钟前Toonflow – 开源的一站式 AI 短剧创作工具34分钟前Hermes Desktop – Nous Research 推出的 Hermes 桌面端17小时前Odysseus – 开源的本地自托管 AI 工作空间17小时前MAI-Code-1-Flash – 微软推出的轻量级代码生成模型18小时前MAI-Voice-2 – 微软推出的新一代文本转语音模型18小时前MAI Transcribe-1.5 – 微软 MAI 推出的语音转文本模型18小时前MAI-Thinking-1 – 微软推出的首款自研高级推理模型21小时前Science Skills – 谷歌 DeepMind 开源的科研技能工具包21小时前Bernini – 字节跳动开源的统一视频生成与编辑框架21小时前PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型21小时前ECC – 开源的跨平台 AI Agent 性能优化系统2天前Mellum2 – JetBrains 开源的混合专家模型2天前OpenClacky – 李亚飞团队开源的低成本 AI Agent2天前