ELITE

ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation

背景

customized 文本到图像的生成问题:由于用户可能会使用难以形容的、个人的一些概念去创造一些有想象力的样本(例:“柯基”)。通常需要从用户提供的少量图片集合去学习特定的概念,现存工作使用一种基于优化的方法来学习 customized 概念,但是会带来过多的计算和内存负担。

基于GAN和VAE的方法不能很好的匹配用户的描述,大文生图模型也难以表达特定的或用户定义的概念。

贡献

为快速准确的 customized 文本到图像生成提出基于学习的编码器ELITE,由全局-局部映射网络组成,直接将视觉概念编码为文本嵌入。在将学习到的概念编辑到一个新的场景中时有较好的灵活性,同时保留图像特有的细节。

全局映射网络将给定图像的层级特征投射到文本的 word embedding 空间中的多个“新”的单词中(例:一个主词表示可编辑的概念,以及其他辅助词来排除不相关的干扰);局部映射网络将编码后的 patch 特征注入到交叉注意力层以提供遗漏的细节。

方法

预备

使用 Stable diffusion 作为文生图模型:首先训练一个autoencoder,encoder z=ε(x)z=\varepsilon(x) 将一张图像映射到低维空间,同时decoder D(ε(x))xD(\varepsilon(x))\approx x 将隐编码还原为一张图像;然后在隐空间上训练条件扩散模型 ϵθ()\epsilon_\theta(\cdot) ,基于条件 yy 生成隐编码。使用均方误差来训练:

LLDM=Ezε(x),y,ϵN(0,1),t[ϵϵθ(zt,t,τθ(y))22]L_{LDM}=\mathbb E_{z\sim\varepsilon(x),y,\epsilon\sim\mathcal N(0,1),t}\big[\left\|\epsilon-\epsilon_\theta(z_t,t,\tau_\theta(y))\right\|_2^2\big]

τθ()\tau_\theta(\cdot) 表示CLIP text-encoder。推理时,高斯噪声 zTz_T 逐渐去噪为 z0z_0 ,然后最终的图像通过decoder得到 x=D(z0)x'=\mathcal D(z_0)

交叉注意力 为了在生成过程中利用文本信息

Attention(Q,K,V)=Softmax(QKTd)VAttention(Q,K,V)=Softmax(\frac{QK^T}{\sqrt{d'}})V

Q=WQf,K=WKτθ(y),V=WVτθ(y)Q=W_Q\cdot f,K=W_K\cdot \tau_\theta(y),V=W_V\cdot\tau_\theta(y)ff 为隐图像特征,τθ(y)\tau_\theta(y) 为文本特征,dd' 为key和query的输出维度,隐图像特征通过注意力块更新。


全局映射网络

使用CLIP图像编码器 ψθ()\psi_\theta(\cdot) 作为特征提取器,全局映射网络 Mg()M^g(\cdot)特征投影到CLIP文本编码器的文本词嵌入 vv :

v=Mgψθ(x)v=M^g\circ\psi_\theta(x)

vRN×dv\in \mathbb R^{N\times d}NN 为单词数,dd 为词向量的维度,对特征使用全局平均池化来获得词嵌入。由于一张图像会有主体和其他不相关元素,编码为单个单词会损失主体的可编辑性,于是分别学习主词和辅助词:从CLIP最深层特征学到主要概念(主体),从其他层学到的辅助词描述其他不相关元素。从CLIP图像编码器中选择 NN 层,每一层 ψθLi()\psi_\theta^{L_i}(\cdot) 独立的学习一个单词 wiw_i

训练目标:

Lglobal=LLDM+λglobalv1L_{global}=L_{LDM}+\lambda_{global}\left\|v\right\|_1

训练时随机从CLIP ImageNet templates采样一个文本作为文本输入,key 和 value 分别通过 Mg()M^g(\cdot) 微调。Kg=WKgτθ(y),Vg=WVgτθ(y)K^g=W_K^g\cdot\tau_\theta(y),V^g=W_V^g\cdot\tau_\theta(y)


局部映射网络

局部映射网络 Ml()M^l(\cdot) 将多层CLIP特征编码到文本特征空间中(文本编码器的输出空间)。

e=Mlψθ(xm)e=M^l\circ\psi_\theta(x*m)

mm 是对象的mask,用来回避背景中不需要的细节,eRp×p×de\in\mathbb R^{p\times p\times d} 保持空间结构,pp 为特征的size。ee 的每个像素主要集中于给定图像的每个patch的局部细节,然后将得到的文本嵌入注入到交叉注意力层 Attention(Q,Kl,Vl),Kl=WKl(em),Vl=WVl(em)Attention(Q,K^l,V^l),K^l=W_K^l\cdot(e*m),V^l=W_V^l\cdot(e*m),与全局部分融合以改进局部细节:

Out=Attention(Q,Kg,Vg)+λAttention(Q,Kl,Vl)Out=Attention(Q,K^g,V^g)+\lambda Attention(Q,K^l,V^l)

为了强调目标区域,将得到的注意力图 QKlTQ{K^l}^T 通过 QKgTQ{K^g}^T 重新加权。

训练目标:

Llocal=LLDM+λlocalVl1L_{local}=L_{LDM}+\lambda_{local}\left\|V^l\right\|_1


实验

使用OpenImage的测试集进行训练,主体mask通过预训练的分割模型得到。映射网络使用3层MLP,选择{24,4,8,12,16}层的CLIP特征,采样器使用LMS采样器。

局限

不能处理涉及文本字符的图片:

参考

[1] Y. Wei, Y. Zhang, Z. Ji, J. Bai, L. Zhang, and W. Zuo, “ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation.” arXiv, Aug. 18, 2023. Accessed: Nov. 20, 2023. [Online]. Available: http://arxiv.org/abs/2302.13848

[2] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-Resolution Image Synthesis with Latent Diffusion Models,” in 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA, USA: IEEE, Jun. 2022, pp. 10674–10685. doi: 10.1109/CVPR52688.2022.01042.


ELITE
https://summerwrain.github.io/2023/11/28/ELITE/
作者
SummerRain
发布于
2023年11月28日
许可协议