图像生成、视频创作、照片精修需要找不同的模型完成也太太太太太麻烦了。
有没有这样一个" AI 创作大师",你只需要用一句话描述脑海中的灵感,它就能自动为你搭建流程、选择工具、反复修改,最终交付高质量的视觉作品呢?
这一切,现在通过一个由港科大(广州)和字节联合出品的全新的开源框架——ComfyMind实现了。

ComfyMind 是一个通用视觉生成框架,它旨在用一套系统,统一处理从文本到图像、从图像到视频等所有主流视觉生成任务。

在多个行业基准测试中,ComfyMind 的性能全面超越现有开源方法,达到了与闭源的GPT-4o-Image相媲美的水平。
从"手工作坊"到"智能工厂"
无论是让棱镜散射出物理精确的彩虹,还是给蛋糕切上一块,甚至将一个 Logo 无缝融入产品,ComfyMind 都能轻松胜任。
来看看效果。
结合光学知识,生成一张玻璃棱镜的光散射的图像:

给一张蛋糕的图像,将给定蛋糕切角:

给一张 Logo 图像,将 Logo 嵌入杯子:

生成一个长度为 8 秒的海边燃烧的篝火的视频:
虽然视觉生成模型突飞猛进,但真正能"一套系统包打所有任务"的开源框架依旧脆弱,难以支撑真实生产诉求;
相对地,闭源 GPT-Image-1(即 GPT-4o-Image)虽效果出众,却无法被社区自由扩展或调优。
ComfyUI 的节点式设计为"可视化、模块化"奠定了基础,理论上任何任务都能通过组合节点完成;
然而,当工作流跨越多模态、多阶段时,手工搭建不仅耗时费力,更对专业知识要求极高,成为创作的门槛。
ComfyAgent 等 LLM- 驱动方案已经开始尝试自动生成工作流,但它们依赖扁平 JSON 解码,既难以表达模块层级,又缺乏执行端反馈,导致节点缺漏与语义漂移。
人类艺术家在构建复杂流程时,会先拆解任务,再局部试错、局部修正。
借鉴这一策略,该团队提出 ComfyMind:以"原子工作流"为最小单位,以自然语言描述接口,结合树状规划加局部反馈执行,将视觉内容创作转化为分层决策问题,从而在保持灵活性的同时,显著提升稳健性与扩展性。
给 Comfyui 装上大脑,会规划,更会"返工"

上图展示了 ComfyMind 系统 pipeline。
整体架构:" ComfyUI × 多代理协同"
ComfyMind 将 ComfyUI 仅视为底层执行引擎:所有高层决策由规划 - 执行 - 评估三代理协作完成。
规划代理自顶向下拆解任务;
执行代理把每一步映射成 JSON 工作流并结合 ComfyUI 进行具体生成;
评估代理在生成流程结束时使用 VLM 判定生成质量与指令一致性,并把诊断信息返回给上一层级。
语义工作流接口:把节点图"函数化"
论文提出的语义工作流接口将社区验证的 T2I、I2V、Mask 生成等模板封装为"原子工作流",并以自然语言标注其功能和必选 / 可选参数。
规划代理因此能够在纯语义空间像调用高阶函数那样组合模块,无需接触易错的 JSON 语法,彻底消除"漏节点""拼接错误"等结构性故障。
所有 SWI 描述集中于单一文档直接注入 LLM 上下文,摆脱对 3200+ 节点检索数据集的依赖,实现零 -RAG 的快速扩展能力。
树状规划+局部反馈:「分块 - 修补」策略
复杂指令被递归拆分为子目标,形成 语义搜索树;每个节点代表局部规划,边对应一次 SWI 调用。
系统在节点处仅执行链首函数并即时评估——若失败,错误与重规划被限制在当前层级,已通过的分支原地保留,避免全链重跑与策略振荡。
全面的性能评估,在三大基准对比 ComfyBench 自动工作流构建

ComfyMind 在 ComfyBench 全难度任务上取得 100% 的通过率,消除 JSON 级失败。
同时,将问题解决率在 Vanilla、Complex、Creative 难度上分别较 ComfyAgent 提升 100%、292% 和 283%,凸显多代理 -ComfyUI 体系在通用生成与编辑任务上的卓越泛化能力与输出质量。
Geneval 文生图
在 GenEval 中,ComfyMind 获得 0.90 总分,较开源基线 SD3 与 Janus-Pro-7B 分别领先 0.16 和 0.10,并在六大维度中的五项及总体成绩超越 GPT-Image-1。
定性对比进一步显示,在各类约束下,本系统同时满足了指令并生成视觉连贯的高质量图像。


Reason-Edit 图像编辑
在 Reason-Edit 基准上,ComfyMind 以 0.906 的 GPT-score 较前开源 SOTA SmartEdit 提升 +0.334,并接近 GPT-Image-1(0.929)。
定性对比亦表明,ComfyMind 相较于在精准完成复杂编辑指令的同时还保持了非编辑区域的细节与风格一致。
而 GPT-Image-1 常出现纹理丢失、色调漂移或比例失真等瑕疵。

总结
论文提出了基于 ComfyUI 平台构建的全新框架 ComfyMind。
ComfyMind 将视觉内容创建概念化为一个模块化、语义结构化的规划流程,并将基于树的规划与局部反馈执行相结合。
ComfyMind 框架性能超越了之前的开源方法,并取得了与 GPT-Image-1 相当的结果。
相关论文,在线 Demo, 代码,项目主页等均已公开公布。
感兴趣的小伙伴可以进一步体验和探索。
论文链接 : https://arxiv.org/abs/2505.17908
项目主页链接 : https://litaoguo.github.io/ComfyMind.github.io/
在线 Demo 链接 : https://envision-research.hkust-gz.edu.cn/ComfyMind/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见