DeCo DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models 背景 Visual projector 可以融合视觉和语言模态并促进多模态之间的对齐。当前的研究利用中间的 projector 将视觉 patch 映射到 LLM 隐空间作为视觉 tokens,主要分为 2024-09-01 #CLIP
CLIP-LIT Iterative Prompt Learning for Unsupervised Backlit Image Enhancement CLIP不仅可以区分背光图像和正常光照图像,还可以感知不同亮度的异构区域,促进增强网络的优化。 问题:直接应用CLIP到增强任务难以找到准确的prompt 贡献:设计了一个学习框架,首先通过约束正/负prompt与背光/正常图像之间的相似度学习初始promp 2024-08-20 #CLIP
DiffBIR DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior 目标:使用一个统一的框架处理不同的盲图像恢复任务(BSR, BFR, BID) 背景 BSR:StableSR、PASD这些方法需要重新训练 BFR:这些方法只能在人脸图像上有较好性能,泛化性不好 BID:CBDNet、VDNet这些方法虽然能够去除未 2024-07-11 #Diffusion #CLIP
MiniGPT4 MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS 动机:大多数GPT-4的多模态生成能力可以理解为两项基础能力图像理解以及语言生成的组合技能。以根据图像生成诗歌为例,大多数LLM已经有了很好的语言生成能力,如果它们获得了图像理解能力,即使训练数据集中没有图像-诗歌数据对,它 2024-05-25 #GPT
CSEC Color Shift Estimation-and-Correction for Image Enhancement 背景 真实世界中往往会包含不均匀的曝光,很容易同时产生过曝和欠曝的情况。这些过曝和欠曝区域会有明显的色调失真。欠曝区域中相对较高的噪声会改变数据分布使得色调发生偏移,同时,过饱和的过曝区域会损失掉原来的颜色。因此,增强这些图像通常涉及到亮度调整以及色调偏移校正。 当前研究可以被 2024-05-17 #Low-level-vision
CCSR Improving the Stability of Diffusion Models for Content Consistent Super-Resolution 背景 过去方法的主要假设是简单已知的退化(双线性下采样、高斯模糊下采样),因此主要集中于改进网络骨干设计。(SRCNN,DnCNN) 真实世界应用中总是会有复杂未知的退化。 像素级的损失:L1 loss 与 MSE 2024-03-07 #Diffusion #SR
Refusion Refusion: Enabling Large-Size Realistic Image Restoration with Latent-Space Diffusion Models[1] IR-SDE 作者在 NTIRE 2023 Shadow Removal Challenge 中提出的算法,整体比较简单,不过其中的某些超参设置,网络结构,训练策略等值得 mark 一下. 贡献 使用 2024-01-13 #Diffusion #SDE
Diffusion GAN Tackling the Generative Learning Trilemma with Denoising Diffusion GANs 背景 生成式学习三困境:高质量采样,多样性,快速采样。 传统扩散每一步的高斯假设只在去噪步长非常小的时候成立,因此反向过程需要很多步,而反向过程中步长较大(更少的去噪步数)时,需要使用非高斯多峰分布来建模去噪分布。 贡献 将扩散模型缓慢采样的原因归结为 2023-12-12 #Diffusion #GAN
扩散模型总结 扩散模型总结(附代码) 最近在回顾之前写的Understanding Diffusion Models时,发现有个问题,文章太细了,每一步都是数学推导,于是,这篇对其进行一次总结,使得对模型理解一目了然。 前向过程 q(xt∣xt−1)=N(xt;αtxt−1,(1−αt)I)q(x_t|x_{t-1})=\mathcal N(x_t;\sqrt{\alpha_t}x_{t-1},(1-\a 2023-12-08 #Diffusion #Code
随机过程 随机过程 Brown运动(Wiener过程) 若随机过程 W(t)W(t)W(t) 满足以下三条性质: 轨线连续 W(0)=0,W(t)是关于t的连续函数W(0)=0, W(t)是关于 t 的连续函数W(0)=0,W(t)是关于t的连续函数 增量正态分布 对于固定 ttt 有 W(t)∼N(0,t)W(t)\sim \mathcal N(0,t)W(t)∼N(0,t),以及 W(t)−W(s) 2023-12-07 #math