DeCo

DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models

背景

Visual projector 可以融合视觉和语言模态并促进多模态之间的对齐。当前的研究利用中间的 projector 将视觉 patch 映射到 LLM 隐空间作为视觉 tokens,主要分为非压缩式(MiniGPT4、LLaVA)和压缩式(BLIP-2)

非压缩式:直接使用线性层映射,视觉 tokens 数不变,训练成本高

压缩式:压缩原始的视觉 tokens 为更少的 query tokens,(e.g.,Q-Former)将 visual patches 抽象为有限的语义概念,比如对象或描述,会导致“double abstraction”现象。

projector 参考预定义好的query 进行第一次视觉语义提取,LLM 基于文本指导进行第二次提取。

训练低效、累积性视觉语义损失

贡献

  • 使用 R-GAE 分析生成的文本 tokens,原始视觉 tokens 以及中间的投影输出的相关性,将 Text-to-Patch 解耦为 Text-to-query 和 Query-to-Patch
  • 提出 DeCo 在 patch 水平压缩视觉 token 的数量(2D Adaptive Pooling 下采样),然后使用线性层映射维度,允许 LLM 直接处理视觉语义信息
  • 两个发现:1. 在语义水平使用 query tokens 压缩视觉 tokens 的数量会使得细粒度特征和空间信息的损失,固定数目的 query 只能表达有限的视觉信息;2. 非压缩式的线性层 projector 允许 LLM 观察 patch 水平的视觉特征,并关注准确的空间位置

分析

Query-Patch 图可以解释通过 query(压缩)tokens 学到的视觉模式,而 Text-Patch 和 Text-Query 之间的差异揭示了 projector 对视觉-语言语义对齐的影响

  1. LLM 可以直接从 patch 特征中很好的抽取视觉信息
  2. 压缩式的 projector 只能提取有限的视觉概念,视觉上重复+语义上稀疏
  3. MLLM 系统的低效是因为 double abstraction

DeCo: Decoupling Vision Token Compression

集中于在 patch 水平降低视觉 tokens 的数量

1D->2D->Adaptive AvgPooling->Linear layer

N×diN12×N12×diM12×M12×diM12×M12×dτN\times d_i\\ \to N^\frac12\times N^\frac12\times d_i\\ \to M^\frac12\times M^\frac12\times d_i\\ \to M^\frac12\times M^\frac12\times d_\tau

实质上,Adaptive AvgPooling合并了空间上相邻的有较高视觉冗余的 patch tokens,有效+高效

实验

局限性

在较高压缩比下,也可能会造成视觉信息损失;在资源充足的情况下(足够多训练资源,训练数据),projector 结构改变的作用不明显;不局限于 AdaptiveAvgPool


DeCo
https://summerwrain.github.io/2024/09/01/DeCo/
作者
SummerRain
发布于
2024年9月1日
许可协议