好色客偷拍自拍

偷拍图片 视觉Token无缝对王人LLMs词表!V²Flow:基于LLMs完了高保真自顾虑图像生成

         发布日期:2025-07-06 11:47    点击次数:168

偷拍图片 视觉Token无缝对王人LLMs词表!V²Flow:基于LLMs完了高保真自顾虑图像生成

视觉 Token 不错与 LLMs 词表无缝对王人了!偷拍图片

V ² Flow,基于 LLMs 不错完了高保真自顾虑图像生成。

跟着 ChatGPT 掀翻自顾虑建模立异后,连年来揣度者们脱手探索自顾虑建模在视觉生成任务的应用,将视觉和文本数据调和在" next-token prediction "框架下。

完了自顾虑图像生成的要津是假想向量化 ( Vector-Quantization ) 的视觉 Tokenizer,将视觉内容闹翻化成访佛于大说话模子词表的闹翻 Token。

现存门径虽取得施展,却恒久面对两大镣铐:

1、传统视觉 tokenizer 生成的闹翻表征与 LLM 词表存在显贵的分散偏差。

2、维度吊问:图像的二维结构迫使大说话模子以逐管事貌瞻望视觉 token,与一维文本的连贯语义瞻望存在践诺冲突。

结构性与特征分散性的双重割裂,涌现了刻下自顾虑视觉生成的紧要残障:短少无意既保证高保真图像重建,又能与预查考 LLMs 词汇表在结构上和特征分散上调和的视觉 tokenizer。贬责这一问题关于完了存效的多模态自顾虑建模和增强的指示遵照材干至关迫切。

因此,一个中枢问题是:

能否假想一种视觉 tokenizer,使生成的闹翻视觉 token 在保证高质地视觉重建的同期,与预查考 LLMs 词汇表完了无缝交融?

调和视觉 Token 与大说话模子词表

最新开源的 V ² Flow tokenizer,初次完了了将视觉内容胜利镶嵌现存大说话模子的词汇空间,在保证高质地视觉重建的同期从根底上贬责模态对王人问题。总体而言,V ² Flow 主要包括三点中枢孝敬:

视觉词汇重采样器。

如图 1 ( a ) ,将图像压缩成紧凑的一维闹翻 token 序列,每个 token 被浮现为大说话模子(举例 Qwen、LLaMA 系列)词汇空间上的软类别分散。这一假想使得视觉 tokens 不错无缝地镶嵌现存 LLM 的词汇序列中。换言之,图像信息被胜利翻译成 LLM "听得懂"的说话,完了了视觉与说话模态的对王人。

在图 1 ( b ) 中,经由重采样器处理后,视觉 tokens 的潜在分散与大型说话模子(LLM)的词汇表高度一致。这种在结构和潜在分散上的高度兼容性,无意裁汰视觉 tokens 胜利融入已有 LLM 的复杂性。

△  图 1 视觉词汇重采样器的中枢假想。

掩码自顾虑流匹配编码器。

为了完了闹翻化视觉 token 的高保真视觉重建,V ² Flow 提议了掩码自顾虑流匹配解码器。该解码器给与掩码 Transformer 编码 - 解码结构,为视觉 tokens 补充丰富的坎坷文信息。增强后的视觉 tokens 用于条目化一个异常假想的速率场模子,从尺度正态先验分散中重建出连气儿的视觉特征。在流匹配采样阶段,该解码器给与访佛 MA 的模样,以" next-set prediction "的模样渐渐完成视觉重建。

比拟于近期提议的仅依赖掩码编码器 - 解码器结构的 TiTok,V2Flow 自顾虑采样的上风是无意在更少的视觉 token 数目下完了更高的重建质地,灵验升迁了压缩适度。

△  图 2 掩码自顾虑流匹配解码器暗示图以及采样阶段算法经过

端到端自顾虑视觉生成。

图 3 展示了 V ² Flow 协同 LLMs 完了自顾虑视觉生成的经过。为促进两者无缝交融偷拍图片,在已有 LLM 词汇表基础上彭胀了一系列特定视觉 tokens,并胜利期骗 V ² Flow 中的码本进走运滚动。查考阶段构建了包含文本 - 图像对的单轮对话数据,文本辅导当作输入指示,而闹翻的视觉 tokens 则当作瞻望意见反应。

在推理阶段,经过预查考的 LLM 证实文本指示瞻望视觉 tokens,直至瞻望到   token 为止。随后,闹翻视觉 tokens 被送入 V ² Flow 解码器,通过流匹配采样重建出高质地图像。

△  图 3 V ² Flow 与预查考 LLMs 交融完了自顾虑视觉生成的举座经过。实验适度

重建质所在面,V ² Flow 不管是在 ImageNet-1k 测试数据集的 256 和 512 分歧率下均取得了竞争性的重建性能。

比拟于字节提议的一维闹翻化 tokenizer TiTok 比拟,V ² Flow 期骗更少的闹翻 tokens 完了了更高质地的图像重建,显贵升迁了举座压缩适度。

文本领导图像生成方面,实验适度标明,比拟于刻下两种起首进的自顾虑生成模子 Janus-Pro-7B 和 Lumina-mGPT-7B,V ² Flow+LLaMA2-7B 无意愈加准确地捕捉文本辅导中的语义细节,展示了极具竞争力的生成性能。

开源生态与团队招募:共建多模态曩昔

开源愉快:让技能普惠每一位探索者

开源是鼓励 AI 技能进化的中枢能源。本次发布的 V ² Flow 框架已齐备公开查考与推理代码库,确立者可基于现存代码快速复现论文中的中枢实验。更令东说念主期待的是,团队预报将于近期不绝发布:

512/1024 分歧率预查考模子:守旧高清图像重建与生成

自顾虑生成模子:集成 LLaMA 等主流大说话模子的开箱即用有臆想打算

多模态彭胀器具包:曩昔将守旧视频、3D、语音等跨模态生成任务

加入咱们:共创下一代多模态智能

V ² Flow 作家团队现招募多模态生成算法揣度型实习生!要是你渴慕站在 AI 内容生成的最前沿,参与界说自顾虑架构的曩昔,这里将是你完了冲突的绝佳舞台。

咱们作念什么?

探索文本、图像、视频、语音、音乐的调和自顾虑生成范式

构建守旧高清、长序列、强语义关联的多模态大模子

攻克数字东说念主、3D 生成、实时交互创作等产业级应用艰苦

咱们需要你具备:

硬核技能力

精明 Python,老练使用 PyTorch/TensorFlow 等框架

长远逢迎 Diffusers、DeepSpeed 等 AIGC 器具链

在 CV/NLP 限度顶级会议(CVPR、ICML、NeurIPS 等)发表论文者优先

极致创新欲

对多模态生成、自顾虑架构、扩散模子等技能有浓厚兴味

曾在 Kaggle、ACM 竞赛等获取 Top 排名者优先

有开源神色孝敬或颓落确立教养者优先

    送达模样:zhangguiwei@duxiaoman.com

论文联贯:

https://arxiv.org/abs/2503.07493

开源神色联贯:

https://github.com/Davinci-XLab/V2Flow

日本学生妹

一键三连「点赞」「转发」「留意心」

宽饶在批驳区留住你的思法!

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 神色主页联贯,以及相关模样哦

咱们会(尽量)实时回话你

� � 点亮星标 � �

科技前沿施展逐日见偷拍图片



 
友情链接:

Powered by 色表姐 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有