CLIP-LIT

Iterative Prompt Learning for Unsupervised Backlit Image Enhancement

CLIP不仅可以区分背光图像和正常光照图像，还可以感知不同亮度的异构区域，促进增强网络的优化。

问题：直接应用CLIP到增强任务难以找到准确的prompt

贡献：设计了一个学习框架，首先通过约束正/负prompt与背光/正常图像之间的相似度学习初始prompt，然后基于增强结果与初始prompt对之间的相似度训练增强网络。为了更进一步提高prompt的准确率，因此进一步的迭代微调prompt学习框架减小背光图像，增强结果，正常图像之间的gaps

Prompt Initialization：

Training the Initial Enhancement Network：

使用一个简单的Unet增强背光图像，受到Retinex模型的启发，增强网络预测一个光照图 $I_i\in\mathbb R^{H\times W\times 1}$ 然后通过 $I_t=I_b/I_i$ 生成最后的结果。

首先使用 identity loss 训练 self-reconstruction 使得增强结果和背光图像在像素空间上相近，然后，同时使用 indentity loss 和 CLIP-Enhance loss训练网络。在训练 self-reconstruction 期间， $\alpha_{l=0,1,2,3,4}=1.0$ 。在训练增强网络期间， $\alpha_{l=0,1,2,3}=1.0,\alpha_4=0.5$ ，这是因为作者发现最后一层与图像的颜色更相关，而这需要调整。