IDEAS

  1. 使用大语言模型对退化图像生成文本描述,并想象正常场景,将该文本输入controlnet与LQ一起控制SD生成

  2. 使用预训练模型输出 LQ 与 GT 图像的文本特征,观察分析使得 LQ 与 GT 的文本特征之间可以建立一种映射

  3. 直接将退化信息输入,如 “no rain”, “no haze”

  4. 训练过程中采样 z~0\tilde z_0z0z_0 做损失

颜色漂移问题

在训练过程中发现重建图像与 GT 图像之间的颜色产生偏移:

解决方案(DiffBIR):

每一步去预测干净的图像 z0z_0

z~0=ztαˉt1αˉtϵθ(zt,c,ε(ILQ))αˉt(1)\tilde z_0 = \frac{z_t}{\sqrt{\bar\alpha_t}}-\frac{\sqrt{1-\bar\alpha_t}\epsilon_\theta(z_t,c,\varepsilon(I_{LQ}))}{\sqrt{\bar\alpha_t}}\tag{1}

Dlatent(x,ILQ)=L(z~0,ε(ILQ))=j1CjHjWjz~0ε(ILQ)22(2)\mathcal{D}_{latent}(x,I_{LQ})=\mathcal{L}(\tilde z_0,\varepsilon(I_{LQ}))=\sum_j\frac1{C_jH_jW_j}\left\|\tilde z_0-\varepsilon(I_{LQ})\right\|_2^2\tag{2}


https://summerwrain.github.io/2024/07/04/idea/
作者
SummerRain
发布于
2024年7月4日
许可协议