腾讯ELLA来袭:大语言模型加持,增强扩散模型语义对齐能力,ComfyUI使用指南

ELLA: 为扩散模型配备大型语言模型以增强语义对齐

ELLA简介

注:如果想直接使用ComfyUI上手操作指南同学,可以直接跳过本节内容到ComfyUI体验章节。

虽然扩散模型在文本到图像生成领域已经展示出了卓越的性能。然而,大多数这些模型仍然使用CLIP作为文本编码器,这种方式限制了模型在复杂和大量提示Prompt下的理解能力。这些提示Prompt可能包含多个对象、详细的属性、复杂的关系、长文本对齐等。

因此腾讯在技术论文《ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment》中,介绍了一个高效的LLM大语言模型适配器,被称为ELLAELLA能为文本到图像生成扩散模型配备强大的大型语言模型(LLM),以增强提示文本对齐,而无需训练U-Net或LLM。为了无缝桥接两个预训练模型,研究团队研究了一系列语义对齐连接器设计,并提出了一个新颖的模块,称为时间感知语义连接器(TSC),能够从LLM动态提取时间步依赖的条件ELLA方法适配了去噪过程中不同阶段的语义特征,帮助扩散模型在采样时间步骤上解释长文本和复杂提示Prompt

此外,ELLA可以很容易地与社区模型和工具结合使用,以提高它们的提示遵循能力。为了评估文本到图像模型在复杂提示下的遵循方面的表现,研究团队还引入了密集提示图基准(DPG-Bench),这是一个包含1K个复杂提示的挑战性基准。广泛的实验表明,ELLA在复杂提示遵循方面优于当前最先进的方法,特别是在涉及多种属性和关系的多个对象组合中。

ELLA架构方法

研究团队提出了一种新颖的轻量级方法ELLA,为现有的基于CLIP的扩散模型配备了强大的LLM。无需训练U-Net和LLM,ELLA提高了提示遵循能力,并使文本到图像模型能够理解长文本和密集文本。因此,研究团队设计了一个时间感知语义连接器,用于从预训练的LLM在不同去噪阶段提取时间步依赖的条件。并且提出的TSC动态适应采样时间步上的语义特征,有效地在不同语义层次上调节固定U-Net

数据集信息:下表中所有数字都是数据集中每段文本的平均结果。令牌统计是通过 CLIP 分词器计算的。缩写来源于 NLTK。NN: 名词,包括单数、复数和专有名词。JJ: 形容词,包括比较级和最高级。RB: 副词,包括比较级和最高级。IN: 介词和从属连词。

ELLA评估结果

使用简短组合性提示在 T2I-CompBench 上的评估。加粗的分数表示最佳表现。分数越高表示表现越好。

DPG-Bench 的评估结果。平均分数是基于 DSG 规则的图形分数,分数越大越好。其他分数是同一类别中所有问题的平均值。VQA 答案由 mPLUG-large 生成。#Params 表示可训练参数。分数越高表示性能越好。加粗的分数代表最佳,加粗并划线的分数代表第二佳。

用户研究结果。条形图表明,ELLA模型在文本图像对齐能力方面超越了现有的开源模型,同时保持了可比的审美质量。

评估比较

与 SDXL 和 DALL-E 3 的比较。这些提示来源于 PartiPrompts(彩色文本表示关键实体或属性)。

ELLA、SDXL、PixArt-alpha、Playground v2 和 DALL-E 3 之间的比较。左四列只包含1或2个实体,但右四列对应于包含超过2个实体的密集提示。所有提示均来自PartiPrompts。

SDXL、ELLA和DALL-E 3之间的比较揭示了它们在不同提示复杂性水平上的表现。提示从上到下从简单到复杂。结果表明,ELLA的模型能够遵循简单和复杂的提示,并生成细粒度的细节。

与当前工具兼容性

与此同时,ELLA可以无缝集成社区模型和下游工具,如LoRA和ControlNet,提高它们的文本图像对齐。

关于ELLA(SD1.5)与个性化模型的定性结果。从CivitAI选择了代表性的个性化模型,通过ELLA提高它们的提示遵循能力。

更多演示

01. 手举苹果的浣熊

原始提示语:

Prompt: a racoon holding a shiny red apple over its head
SD1.5ELLA-SD1.5固定令牌长度ELLA-SD1.5灵活令牌长度

Qwen-72B优化:

a mischievous raccoon standing on its hind legs, holding a bright red apple aloft in its furry paws. the apple shines brightly against the backdrop of a dense forest, with leaves rustling in the gentle breeze. a few scattered rocks can be seen on the ground beneath the raccoon's feet, while a gnarled tree trunk stands nearby.
SD1.5ELLA-SD1.5固定令牌长度ELLA-SD1.5灵活令牌长度

02. 穿毛衣的鳄鱼

原始提示语:

Crocodile in a sweater
SD1.5ELLA-SD1.5固定令牌长度ELLA-SD1.5灵活令牌长度

GPT4优化:

a large, textured green crocodile lying comfortably on a patch of grass with a cute, knitted orange sweater enveloping its scaly body. Around its neck, the sweater features a whimsical pattern of blue and yellow stripes. In the background, a smooth, grey rock partially obscures the view of a small pond with lily pads floating on the surface.

ELLA-SD1.5固定令牌长度ELLA-SD1.5灵活令牌长度

下一步规划

在ELLA技术论文中提到,研究团队有计划研究将多模态大型语言模型(MLLM)与扩散模型集成,从而在图像生成过程中使用交错的图像-文本输入作为条件组件。以下是一些 EMMA-SD1.5 的非常早期的结果演示。

ELLA ComfyUI 体验

同时官方团队也提供了ComfyUI插件方便支持本地体验。对于 SD 模型的文本提示理解和遵循,对于SD1.5模型来说这是一件令人头疼的事。虽然sdxl模型已有不小的提示遵循提升,但是目前sd1.5模型仍大量被使用。因此ELLA提示遵循支持仍具有重要意义,并且ELLA同时兼容支LoraControlNet 、AYS等现有插件体系。注:AYS是英伟达最新文生图加速方法,具体参见英伟达AlignYourSteps:加速SD和SVD推理速度,优化扩散模型采样计划(附体验源码和ComfyUI工作流)

模型放置目录结构为:

ComfyUI/models/ella/
└── ella-sd1.5-tsc-t5xl.safetensors

ComfyUI/models/ella_encoder/
└── models--google--flan-t5-xl--text_encoder
    ├── config.json
    ├── model.safetensors
    ├── special_tokens_map.json
    ├── spiece.model
    ├── tokenizer_config.json
    └── tokenizer.json

01. SD模型体验

Crocodile in a sweater

SD1.5模型效果

SDXL模型效果

SD1.5+ELLA模型效果

从图中效果能够明显的看见ELLA对于SD1.5模型的提示词遵守有显著的提升。

02. ControlNet模型兼容

Crocodile in a sweater

模型效果

更多Controlnet模型、Lora、AYS等插件的兼容测试,笔者就不在这里细述了,可自行尝试。如有问题可以文末交流群沟通。

附录

本文由“公众号文章抓取器”生成,请忽略上文所有联系方式或指引式信息。有问题可以联系:五人工作室,官网:www.Wuren.Work,QQ微信同号1976.424.585