文章详情

EasyControl：赋予DiT模型与ControlNet相媲美的强大控制能力，支持将风格转换为吉卜力独特画风

在人工智能绘画领域，扩散模型（Diffusion Model）正经历从基于Unet架构向基于Transformer架构(

更新:

2025-04-28 12:46:14

文章详情介绍

在人工智能绘画领域，扩散模型（Diffusion Model）正经历从基于Unet架构向基于Transformer架构(DiT)的转变。然而，DiT生态系统在插件支持、效率以及多条件控制等方面仍面临挑战。近日，由Xiaojiu-z领衔的团队推出了名为EasyControl的创新框架，旨在为DiT模型提供高效且灵活的条件控制能力，犹如为DiT模型装上了强大的“ControlNet”。

EasyControl的核心优势

EasyControl并非简单的模型叠加，而是一套经过精心设计的统一条件DiT框架。其核心优势在于通过引入轻量级的条件注入LoRA模块（Condition Injection LoRA module）、位置感知训练范式（Position-Aware Training Paradigm）以及因果注意力机制（Causal Attention）与KV缓存(KV Cache)技术的结合，实现了显著的性能提升。这些创新设计使得EasyControl在模型兼容性（即插即用，风格无损控制）、生成灵活性（支持多种分辨率、宽高比和多条件组合）以及推理效率方面都表现出色。

强大的控制能力:不止于Canny和OpenPose

EasyControl最引人注目的特性之一是其强大的多条件控制能力。从其代码库中可以看出，EasyControl支持多种控制模型，包括但不限于Canny边缘检测、深度信息、HED边缘草图、图像修复（Inpainting）、人体姿态（Pose，可以类比OpenPose）以及语义分割（Seg）。

这意味着用户可以通过输入不同的控制信号，精确地引导DiT模型生成符合特定结构、形状和布局的图像。例如，通过Canny控制，用户可以指定生成物体的轮廓;通过姿态控制，可以引导生成具有特定人物动作的图像。这种细致的控制能力极大地拓展了DiT模型的应用场景。

令人惊艳的吉卜力画风转换

除了基础的结构控制，EasyControl还展现了强大的风格迁移能力，尤其是在吉卜力画风转换方面。据介绍，研究团队利用仅100张真实亚洲人脸和GPT-4o生成的吉卜力风格对应图像进行训练，开发出专门的LoRA模型。令人惊喜的是，该模型在将人像转化为经典吉卜力动画风格的同时，还能很好地保留原始面部特征。用户可以通过上传人像照片，并配合相应的提示词，轻松生成具有浓郁手绘动漫风格的艺术作品。项目方还提供了Gradio演示，方便用户在线体验这一功能。

EasyControl项目团队目前已经发布了推理代码和预训练权重。根据其Todo List，未来还将推出空间预训练权重、主体预训练权重以及训练代码，这将进一步完善EasyControl的功能，并为研究人员和开发者提供更全面的工具。

EasyControl的出现无疑为基于Transformer的扩散模型注入了强大的控制能力，有效地弥补了DiT模型在条件控制方面的不足。其对多种控制模式的支持，以及令人印象深刻的吉卜力画风转换能力，都预示着其在AI内容生成领域拥有广阔的应用前景。凭借其高效、灵活和易用的特点，EasyControl有望成为DiT模型生态中一个重要的组成部分。

项目入口：https://top.aibase.com/tool/easycontrol

文章详情

EasyControl的核心优势

强大的控制能力:不止于Canny和OpenPose

令人惊艳的吉卜力画风转换

最新星火攻略

最新星火智能

最新星火游戏