
注:如果想直接使用ComfyUI上手操作指南同学,可以直接跳过本节内容到ComfyUI体验章节。
虽然扩散模型在文本到图像生成领域已经展示出了卓越的性能。然而,大多数这些模型仍然使用CLIP作为文本编码器,这种方式限制了模型在复杂和大量提示Prompt下的理解能力。这些提示Prompt可能包含多个对象、详细的属性、复杂的关系、长文本对齐等。
因此腾讯在技术论文《ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment》中,介绍了一个高效的LLM大语言模型适配器,被称为ELLA。ELLA能为文本到图像生成扩散模型配备强大的大型语言模型(LLM),以增强提示文本对齐,而无需训练U-Net或LLM。为了无缝桥接两个预训练模型,研究团队研究了一系列语义对齐连接器设计,并提出了一个新颖的模块,称为时间感知语义连接器(TSC),能够从LLM动态提取时间步依赖的条件。ELLA方法适配了去噪过程中不同阶段的语义特征,帮助扩散模型在采样时间步骤上解释长文本和复杂提示Prompt。
此外,ELLA可以很容易地与社区模型和工具结合使用,以提高它们的提示遵循能力。为了评估文本到图像模型在复杂提示下的遵循方面的表现,研究团队还引入了密集提示图基准(DPG-Bench),这是一个包含1K个复杂提示的挑战性基准。广泛的实验表明,ELLA在复杂提示遵循方面优于当前最先进的方法,特别是在涉及多种属性和关系的多个对象组合中。
研究团队提出了一种新颖的轻量级方法ELLA,为现有的基于CLIP的扩散模型配备了强大的LLM。无需训练U-Net和LLM,ELLA提高了提示遵循能力,并使文本到图像模型能够理解长文本和密集文本。因此,研究团队设计了一个时间感知语义连接器,用于从预训练的LLM在不同去噪阶段提取时间步依赖的条件。并且提出的TSC动态适应采样时间步上的语义特征,有效地在不同语义层次上调节固定U-Net。


使用简短组合性提示在 T2I-CompBench 上的评估。加粗的分数表示最佳表现。分数越高表示表现越好。

DPG-Bench 的评估结果。平均分数是基于 DSG 规则的图形分数,分数越大越好。其他分数是同一类别中所有问题的平均值。VQA 答案由 mPLUG-large 生成。#Params 表示可训练参数。分数越高表示性能越好。加粗的分数代表最佳,加粗并划线的分数代表第二佳。

用户研究结果。条形图表明,ELLA模型在文本图像对齐能力方面超越了现有的开源模型,同时保持了可比的审美质量。



与 SDXL 和 DALL-E 3 的比较。这些提示来源于 PartiPrompts(彩色文本表示关键实体或属性)。

ELLA、SDXL、PixArt-alpha、Playground v2 和 DALL-E 3 之间的比较。左四列只包含1或2个实体,但右四列对应于包含超过2个实体的密集提示。所有提示均来自PartiPrompts。

SDXL、ELLA和DALL-E 3之间的比较揭示了它们在不同提示复杂性水平上的表现。提示从上到下从简单到复杂。结果表明,ELLA的模型能够遵循简单和复杂的提示,并生成细粒度的细节。
与此同时,ELLA可以无缝集成社区模型和下游工具,如LoRA和ControlNet,提高它们的文本图像对齐。

关于ELLA(SD1.5)与个性化模型的定性结果。从CivitAI选择了代表性的个性化模型,通过ELLA提高它们的提示遵循能力。
原始提示语:
Prompt: a racoon holding a shiny red apple over its head| SD1.5 | ELLA-SD1.5固定令牌长度 | ELLA-SD1.5灵活令牌长度 |
![]() | ||
Qwen-72B优化:
a mischievous raccoon standing on its hind legs, holding a bright red apple aloft in its furry paws. the apple shines brightly against the backdrop of a dense forest, with leaves rustling in the gentle breeze. a few scattered rocks can be seen on the ground beneath the raccoon's feet, while a gnarled tree trunk stands nearby.| SD1.5 | ELLA-SD1.5固定令牌长度 | ELLA-SD1.5灵活令牌长度 |
![]() | ||
原始提示语:
Crocodile in a sweater| SD1.5 | ELLA-SD1.5固定令牌长度 | ELLA-SD1.5灵活令牌长度 |
![]() | ||
GPT4优化:
a large, textured green crocodile lying comfortably on a patch of grass with a cute, knitted orange sweater enveloping its scaly body. Around its neck, the sweater features a whimsical pattern of blue and yellow stripes. In the background, a smooth, grey rock partially obscures the view of a small pond with lily pads floating on the surface.| ELLA-SD1.5固定令牌长度 | ELLA-SD1.5灵活令牌长度 | |
![]() | ||
在ELLA技术论文中提到,研究团队有计划研究将多模态大型语言模型(MLLM)与扩散模型集成,从而在图像生成过程中使用交错的图像-文本输入作为条件组件。以下是一些 EMMA-SD1.5 的非常早期的结果演示。

同时官方团队也提供了ComfyUI插件方便支持本地体验。对于 SD 模型的文本提示理解和遵循,对于SD1.5模型来说这是一件令人头疼的事。虽然sdxl模型已有不小的提示遵循提升,但是目前sd1.5模型仍大量被使用。因此ELLA提示遵循支持仍具有重要意义,并且ELLA同时兼容支Lora、ControlNet 、AYS等现有插件体系。注:AYS是英伟达最新文生图加速方法,具体参见:英伟达AlignYourSteps:加速SD和SVD推理速度,优化扩散模型采样计划(附体验源码和ComfyUI工作流)
• 首先通过ComfyUI插件管理器搜索ComfyUI-ELLA插件,选择TencentQQGYLab实现的这款插件,并安装。
• 下载对应模型:1:模型ella-sd1.5-tsc-t5xl.safetensors放置到ComfyUI/models/ella/目录下。2:模型models--google--flan-t5-xl--text_encoder放置到ComfyUI/models/ella_encoder/目录下。模型可以通过文末网盘获取或在线链接下载。
• 导入对应工作流,重启ComfyUI,便可以开始体验了。工作流可以Github 插件地址examples目录获取,或者文末网盘获取。
模型放置目录结构为:
ComfyUI/models/ella/
└── ella-sd1.5-tsc-t5xl.safetensors
ComfyUI/models/ella_encoder/
└── models--google--flan-t5-xl--text_encoder
├── config.json
├── model.safetensors
├── special_tokens_map.json
├── spiece.model
├── tokenizer_config.json
└── tokenizer.json• ComfyUI 插件:https://github.com/TencentQQGYLab/ComfyUI-ELLA
• 模型下载:https://huggingface.co/QQGYLab/ELLA/tree/main
也可以通过extra_model_paths.yaml文件自定义ella和ella_encoder目录。
• 使用SD1.5模型:majicMIX realistic 麦橘写实模型
• 使用SDXL模型:sd_xl_base_1.0.safetensors模型
• 图像宽高比:512*512
• 提示语:
Crocodile in a sweater





从图中效果能够明显的看见ELLA对于SD1.5模型的提示词遵守有显著的提升。
• 使用模型:majicMIX realistic 麦橘写实模型
• 使用Controlnet模型:sd15-tile模型(为了区分明显效果,也可以使用其他CN模型)
• 提示语:
Crocodile in a sweater

更多Controlnet模型、Lora、AYS等插件的兼容测试,笔者就不在这里细述了,可自行尝试。如有问题可以文末交流群沟通。
• Github:https://github.com/TencentQQGYLab/ELLA
• 项目主页:https://ella-diffusion.github.io/
• 技术论文:https://arxiv.org/pdf/2403.05135
• 模型网盘下载:关注公众号口令【ComfyUI-EELA】获取
更多推荐文章:
code/s?__biz=MjM5NTM1NDcyOQ==&mid=2651626111&idx=3&sn=edefc87ccd0670c138d95a1ffcb70fe8&chksm=bd01fb798a76726f4293e672f885fab93e5c148895650084b060fe00370fefcac74376c86b14#rd