
在 InternVL-2.5 上杀青 10 倍蒙眬量提高偷拍走光,模子性能着实无耗费。 最新 1-bit 多模态大模子 KV cache 量化有计算CalibQuant来了。 通过连合后缩放和校准样貌,可显赫裁减显存与盘算推算资本,无需改变原模子即可径直使用。 
即插即用、无缝集成 多模态空话语模子在各式应用中展现出了超卓的性能。但是,它们在部署历程中的盘算推算支出仍然是一个舛误瓶颈。 天然 KV cache 通过用显存换盘算推算在一定进程上提高了推理闭幕,但跟着 KV cache 的增大,显存占用接续增多,蒙眬量受到了极大闭幕。 为了治理这一挑战,作家提议了 CalibQuant,一种简便却高效的视觉 KV cache 量化计谋,大要大幅裁减显存和盘算推算支出。具体来说,CalibQuant 引入了一种极点的 1 比特量化有计算,承袭了针对视觉 KV cache 内在模式遐想的后缩放和校准技巧,在保证高效性的同期,不就义模子性能。 作家通过愚弄 Triton 进行 runtime 优化,在 InternVL-2.5 模子上杀青了 10 倍的蒙眬量提高。这一样貌具有即插即用的特质,大要无缝集成到各式现存的多模态空话语模子中。 动机 刻下的多模态空话语模子在施行应用中时时需要处理大尺寸、高分辨率的图像或视频数据,KV cache 机制天然能提高闭幕,但其显存占用与输入长度(如视觉帧数、图像尺寸等)成正比。 当输入数据的范围增大(举例更多的视觉帧、更高的图像分辨率)时,KV 缓存的显存使用量马上增多,成为闭幕蒙眬量的瓶颈。尽管刻下有些针对 LLM KV cache 量化的样貌不错将其压缩至 2 比特,但这些样貌莫得针对多模态问题中稀奇的视觉冗余作念分析优化,导致其无法在极限情况 1 比特下被使用。 本文通过分析多模态空话语模子中的视觉 KV cache 的冗余,遐想了恰当多模态模子稀奇的 KV cache 量化有计算。 样貌 本文在通谈维度量化的基础上提议了针对反量化盘算推算限定的后缩放优化有计算和针对注目力权重优化的校准计谋。 1、通谈维度 KV cache 量化: 一种鄙俗使用的样貌是均匀整数目化。给定一个比特宽度 b>0 和一个输入值 x,它位于某个范围 [ α , β ] 内,则将其映射到一个碎裂整数 ,盘算推算历程为: 
这里的⌊⋅⌉示意取整运算符。最朴素的样貌是使用全局统计量来盘算推算这些极值,但是模子性能会受较大影响,作家遴选在通谈维度上细化统计范围。具体来说,令 示意一个 K cache,其中 n 和 d 别离示意 token 的数目和 head 的维度。界说两个向量 如下: 然后,通过上述历程对 K 中的每一溜向量进行量化,其中乘法操作是逐元素进行的。作家相通将这种按通谈的量化样貌应用于 V cache。 2、后缩放 KV cache 照看计谋: 量化后的 K cache 不错用碎裂化的整数值、一个缩放因子(scale factor)和一个偏置项(bias term)来示意。在解码阶段,这些值被用于对 K cache 进行反量化,并随后与 Q 相乘。但是,通谈维度的量化需要为每个通谈别离指定不同的缩放因子和偏置向量,这将导致产生大王人不同的数值,增多了反量化历程中的盘算推算支出。此外,这种形态也使得 CUDA 内核中的盘算推算闭幕裁减。作家不雅察到量化后的 K 仅具有有限数目的碎裂取值(举例,关于 2 比特量化,其取值仅为 0、1、2、3),于是提议愚弄简便的盘算推算限定重排来减少存储需求,并提高盘算推算闭幕。具体历程如下: 设 是 K cache 矩阵 中的任性一溜向量, 为其进行 b 比特整数目化后的闭幕,并陪同有逐通谈的缩放因子 α , β。给定一个查询向量 ,在生成 token 历程中注目力盘算推算如下: 
其中,标志⋅和⊙别离示意向量之间的内积和逐元素乘积。通谈维度上的反量化操作 被蔓延奉行,并高效地集成到后续的向量乘法运算中。因此,这种样貌仅存储经过 b 比特整数目化后的数值,何况幸免了全精度反量化盘算推算历程。这种样貌确保了低比特反量化奉行的高效性。这种后缩放样貌也不错天然地应用到 V cache 的反量化历程中。 3、量化后的校准: 性感学生妹1 比特量化的一个闭幕是经过反量化之后的数值通常会包含大王人的极点值。这是因为 1 比特量化的码本老是包含了最小值和最大值,导致那些接近领域的输入值在反量化后径直映射到了极点值。 因此,重建后的 KV cache 时常包含过多的大弥散值,最终导致注目力分数产生较着的失真。为了治理这个问题,作家提议了一种量化后校准样貌,用于障碍 softmax 之前注目力分数的峰值。具体来说,假定 中的所有元素王人位于区间 内。给定 ,界说一个线性变换 g 将区间 映射到 ,其抒发式如下: 
随后对注目力分数进行如下障碍: 
如下图所示,校准样貌(Quant-C,红色)灵验削弱了极点值的影响,使障碍后的注目分数分散相较于未经校准的量化样貌(Quant,蓝色)更接近全精度(Exact)分散。 
实验闭幕 作家将提议的量化样貌别离应用在 LLaVA 和 InternVL model 上,测试了其在 captioning,VQA,Video QA 三个不同的任务上的性能。以 captioning 任务为例,下图展示了本文所提议的样貌在 cococaption benchmark 下和其他样貌如 KIVI,VLCache 的对比。 在不同比特数(8,4,2,1)下,本文提议的样貌在大部分测试贪图上王人优于其他两种样貌。举例关于 llava-1.5-7b,本文的样貌在 8 比特下达到最高的 CIDEr 分数 1.105,与全精度握平,并在 1 比特下提高至 1.109,跳动了 VLCache(1.053)。相通地,关于 InternVL-2.5-26B,本文的样貌在 4 比特和 2 比特下别离得到了最高的 CIDEr 分数 1.32 和 1.313,均优于 VLCache 和 KIVI。 
Runtime 分析 为了展示本文提议的量化样貌对解码闭幕的影响,作家使用 InternVL-2.5 系列模子,将所提议的 1 比特量化样貌与 16 比特基线进行了蒙眬量评估(即每秒生成的 token 数)。作家沟通了两种视觉 token 长度的情况:n=3328 和 8192。作家将 GPU 最大内存从 5GB 变化到 30GB,并在每种内存闭幕下,寻找大要容纳的最大 batch size,测量解码阶段的蒙眬量。 如下图展示,1 比特量化样貌在所有显存预算下经久优于基线样貌。举例,当 n=3329 且使用 80 亿参数模子时,本文的样貌在 5GB 显存下杀青了 126.582tokens/s 的蒙眬量(基线为 11.628tokens/s),在 30GB 下提高至 459.016tokens/s(基线为 40.816tokens/s)。这意味着比拟基线,本文样貌的蒙眬量提高约为 9.88 × 到 11.24 ×,充分展示了该样貌在受限显存条目下显赫提高解码速度。 
淡雅 本文探讨了多模态空话语模子中视觉 KV cache 的压缩样貌。简便地将量化应用到极低比特数时时会激发分散偏移,导致模子性能着落。为了治理这一问题,本文提议了一种新颖的校准计谋,作用于 softmax 之前的注目力分数,灵验缓解了量化带来的失真。此外,本文还引入了一种高效的通谈维度后缩放技巧以提高盘算推算和存储闭幕。 作家在 InternVL 和 LLaVA 模子系列上,针对 COCO Caption、MMBench-Video 和 DocVQA 等基准任务进行了实验,闭幕考证了所提议样貌的灵验性。作家愚弄 Triton 杀青了本文所提议的样貌,runtime 分析标明本文提议的样貌相较于全精度模子有浅薄 10 倍的蒙眬量提高。 论文标题:CalibQuant:1-Bit KV Cache Quantization for Multimodal LLMs 论文地址:https://arxiv.org/abs/2502.14882 代码地址:https://github.com/insuhan/calibquant 一键三连「点赞」「转发」「防范心」 接待在评述区留住你的思法! — 完 — 学术投稿请于使命日发邮件到: ai@qbitai.com 标题注明【投稿】,告诉咱们: 你是谁,从哪来,投稿内容 附上论文 / 神情主页一语气,以及联系形态哦 咱们会(尽量)实时回话你 
� � 点亮星标 � � 科技前沿通晓逐日见偷拍走光
|