视觉言语 ViT 的细粒度才能被轻视了吗?CVPR 2026 UniRefiner:或许仅仅特征图太“脏”
--
--
导语:许多大规划 VLM 并非没有细粒度感知潜力,而是其视觉编码器输出的 feature map 中存在高份额、形式杂乱的伪特征,掩盖了模型原有的空间感知才能。
近年来,视觉言语模型(Vision-Language Models, VLM)在图文了解、零样本辨认和敞开词汇感知上体现越来越强。跟着模型参数规划和图文预练习数据不断增大,许多人天然会等候:这些大规划预练习视觉编码器也应该具有更强的细粒度感知才能。但在敞开词汇语义切割、深度估量等密布猜测使命(dense prediction tasks)中,许多模型的体现却常常不如预期。这是否意味着这些视觉编码器天然不拿手细粒度空间感知?
CVPR 2026 作业UniRefiner给出了一个不同的答案:许多大规划 VLM 并非没有细粒度感知潜力,而是其视觉编码器输出的 feature map 中存在高份额、形式杂乱的伪特征,掩盖了模型原有的空间感知才能。换句话说,问题并不满是“模型不会看细节”,而或许是:ViT 输出的 feature map 太“脏”了。
关于细粒度感知使命来说,仅用范数异常来界说 artifact 并不充沛。一个 token 即便范数正常,乃至包括很强的语义信息,只需它不再对应自身地点的空间方位,就会损坏下流使命所需求的细粒度信息。因而,UniRefiner 更重视的是它是否依然保存 location-aligned semantics,也便是:
每个 visual token 是否依然忠诚表达自己地点空间方位的语义。
:这类 tokens 在不同图画中呈现高度类似的固定形式,更多反映模型内部的非语义偏置,而不是当时图画部分区域的内容。
:这类 tokens 不再首要编码自身方位的部分依据,而是承载更大局的场景或图画级语义,导致部分 token 退化为大局信息的署理。
:这类 tokens 的部分语义遭到 attention 信息流主导,被更强的远景或附近语义掩盖,然后逐步失掉自身空间方位对应的表征。
一起,比照学习方针进一步摆开 image tokens 和 register tokens 的表征空间,强化两者分工。这样,本来混叠在图画区域的伪特征被面向 register tokens,而 image tokens 则被康复为编码对应图画区域信息的空间表征。
这也是 UniRefiner 的要害:它不是从头练习一个大模型,也不是等候 register tokens 的运用方法天然呈现,而是经过显式优化方针,让已有预练习 ViT 快速学会“自整理”。
许多大规划 VLM 视觉编码器在海量图文预练习中现已沉积了丰厚的敞开词汇语义和视觉概念常识。但在原始 feature map 中,这些常识往往更像是图画级语义,并不总能安稳落到对应的部分空间方位上。关于 dense prediction tasks 来说,这正是要害瓶颈:模型知道“这是什么”,并不等于每个 token 都知道“它在哪里”。
UniRefiner 的效果,正是整理视觉编码器 feature map 中的伪特征,让图文预练习中已有的敞开国际语义更好地回到部分空间方位上。因而,在一些敞开场景中,咱们咱们能够看到更有意思的现象:经过 refinement 后,模型不仅在 ADE20K 等规范数据集上获得更高 mIoU,也能定位杂乱城市场景中的特定修建、特定人物形象,以及遥感图画中的细粒度方针。
UniRefiner 并不是给视觉编码器灌入新的常识,而是让图文预练习中已有的敞开国际语义,从头找到它在图画中的方位。
在原始大规划 ViT 中,某些 tokens 不再对应实在图画结构:布景区域或许会呈现固定形式,部分区域或许变成大局语义署理,远景强语义也或许经过 attention 分散到周围 tokens。
VLM 视觉编码器的细粒度才能弱,究竟是才能自身缺乏,仍是特征图中的伪特征遮住了它?
曩昔,咱们或许轻视了大规划 VLM 视觉编码器的细粒度潜力。UniRefiner 经过系统分析高范数 token 之外更广泛的伪特征,并用显式 contrastive register 方针将其分流,阐明已有多模态视觉基座中仍有很多可开释的空间感知潜力。
中科大&智象未来:强模型打底、轻模型精修,重塑视频超分体会丨CVPR 2026
CVPR 2026|离别「一特点一练习」,美图&北交大提出一致特点修改结构 All-in-One Slider
CVPR 2026 视觉脑机迈向双向交互!神经流模型 NeuroFlow 打通视觉与神经的双向通道
CVPR 2026终极盘点:这5篇论文、1个讲演、3个展台,藏着计算机视觉下一个十年的答案
CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚
,九游下载app
