DeCo

DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models

Visual projector 可以融合视觉和语言模态并促进多模态之间的对齐。当前的研究利用中间的 projector 将视觉 patch 映射到 LLM 隐空间作为视觉 tokens，主要分为非压缩式（MiniGPT4、LLaVA）和压缩式（BLIP-2）

非压缩式：直接使用线性层映射，视觉 tokens 数不变，训练成本高

压缩式：压缩原始的视觉 tokens 为更少的 query tokens，（e.g.,Q-Former）将 visual patches 抽象为有限的语义概念，比如对象或描述，会导致“double abstraction”现象。

projector 参考预定义好的query 进行第一次视觉语义提取，LLM 基于文本指导进行第二次提取。

训练低效、累积性视觉语义损失

使用 R-GAE 分析生成的文本 tokens，原始视觉 tokens 以及中间的投影输出的相关性，将 Text-to-Patch 解耦为 Text-to-query 和 Query-to-Patch
提出 DeCo 在 patch 水平压缩视觉 token 的数量（2D Adaptive Pooling 下采样），然后使用线性层映射维度，允许 LLM 直接处理视觉语义信息
两个发现：1. 在语义水平使用 query tokens 压缩视觉 tokens 的数量会使得细粒度特征和空间信息的损失，固定数目的 query 只能表达有限的视觉信息；2. 非压缩式的线性层 projector 允许 LLM 观察 patch 水平的视觉特征，并关注准确的空间位置