
AI 能像东说念主类相似认知长视频qvod成人动漫。 港理工、新加坡国立团队推出 VideoMind 框架,中枢变嫌在于变装化推理(Role-based Reasoning)和链式 LoRA(Chain-of-LoRA)计谋。 关连论文已上传 arXiv,代码和数据一齐开源。 
跟着视频数据量的激增,怎样认知和推理长视频中的复杂场景和事件成为了多模态东说念主工智能探求的热门。不同于静态图像,视频不仅包含视觉信息,还包含时代维度上的动态变化,这条件模子在认知视频时不仅要识别画面中的物体和场景,还要认知这些物体和场景怎样随时代变化和互相作用。 传统的基于文本和图像的推理模子(如 OpenAI o1, DeepSeek R1 等)接续无法支吾这种复杂的时代维度推理任务。 VideoMind 框架 区别于文本和图片,长视频认知难以用传统的单次感知 + 纯笔墨推理终了。 少妇白洁全集比拟之下,东说念主类在认知长视频(如训诲视频、故事类视频)时接续会寻找关连片断并反复不雅看,以此获取更可靠的论断。 受该表象启发,作家凭证视频认知所需要的 4 种中枢智商(制定计划、搜索片断、考据片断、回答问题),为 VideoMind 界说了 4 个变装,并构建了一个变装化的使命流,灵验地处分了长视频中的时序推理问题。 规划者(Planner) 凭证问题动态制定计划,决定怎样调用其他变装(如先定位,再考据,终末回答问题); 定位器(Grounder) 凭证给定的问题或查询,精笃信位与之关连的视频片断 ; 考据器(Verifier) 对定位得到的多个时代片断进行考据,确保其准确性 ; 回答者(Answerer) 基于选用的视频片断进行认知,生成最终谜底。 
△图 1:传统纯笔墨推理和 VideoMind 的变装化推理 为了高效整合以上变装,作家进一步建议了链式 LoRA(Chain-of-LoRA)计谋,在一个调治的 Base 模子(如 Qwen2-VL)上同期加载多个轻量的 LoRA Adapter,并在推理时凭证需要进行动态切换,以终了不同变装间的休养。该计谋仅需要在 Base 模子上添加极少可学习参数,即可终了多个变装 / 功能间的无缝切换,既获取了比单一模子显赫更优的性能,也幸免了多模子并行带来的打算支出,从而在确保性能的同期大幅提高了打算效果。 
△图 2: VideoMind 的全体架构和推理经过 VideoMind 推理经过 如图 2 所示,模子领受一个视频和一个用户建议的问题看成输入,通过切换多个变装来推理出最终谜底。其中,Planner 领先对视频和问题进行分析,实施后续推理的计划,其戒指以 JSON list 的体式呈现。推理计划主要可分为以下三种: 
△图 3:VideoMind 的三种推理模式 其中(i)主要针对长视频问答任务(Grounded VideoQA),需要使用 Grounder + Verifier + Answerer 三个变装进行功课;(ii)针对视频时序定位任务(Video Temporal Grounding),使用 Grounder + Verifier 来进行关连片断的精确查找;(iii)针对短视频问答,该场景下由于视频较短,无需对其进行剪辑,故径直使用 Answerer 进行推理。 
△图 4:Timestamp Decoder 模块 Grounder 崇拜领受一个当然讲话查询,并在视频中定位关连片断。针对这一复杂任务,探求团队建议了 Timestamp Decoder 模块,将龙套的 Token 掂量任务和一语气的时代总结任务解耦开来,并使 LLM 通过 Special Token 进行调用,终昭彰宽绰的 Zero-shot 时序定位性能。 
△图 5:Verifier 的考据计谋 为保证时代折柳率,Grounder 接续使命在较低的空间折柳率下,因此获取的时代片断可能会不准确。针对此问题,作家想象了 Verifier 变装来对每个片断进行放大考据,并从多个候选片断中选取置信度最高的看成想法片断。检修诠释该计谋不错进一步显赫提高 Temporal Grounding 任务的性能。 
△表 1:VideoMind 的教练数据集 为教练 VideoMind,作家针对不同变装会聚 / 制作了多个数据集,忖度包含接近 50 万个样本。不同变装使用不同数据集进行教练,并在推理时兼并加载,以确保每个变装的性能最大化。所有这个词教练数据(包括前期探索使用的更无数据集)一齐公开可用。 履行与评估 为了考据 VideoMind 的灵验性,作家在14 个公开基准测试集上进行了普通的履行,涵盖了长视频定位 + 问答(Grounded VideoQA)、视频时序定位 ( Video Temporal Grounding ) 和普通视频问答 ( General VideoQA ) 等任务。 
△表 2:用于 VideoMind 评测的基准测试集 (1)视频定位 + 问答(Grounded VideoQA) 在 CG-Bench、ReXTime、NExT-GQA 等长视频基准上,VideoMind 在谜底精确度和时序定位准确性方面施展出了跨越上风。荒谬的,在平均视频长度约为 27 分钟的 CG-Bench 中,较小的 VideoMind-2B 模子在时序定位和问答任务上高出了 GPT-4o、Gemini-1.5-Pro 等开头进的模子。 
△表 3:CG-Bench 数据集的测试戒指 
△表 4:NExT-GQA 数据集的测试戒指 (2)视频时序定位(Video Temporal Grounding) VideoMind 的 Grounder 通过变嫌的 Timestamp Decoder 和 Temporal Feature Pyramid 想象,显赫提高了视频时序定位的准确性。Verifier 的想象进一步栽培了高精度定位的性能。VideoMind 在 Charades-STA、ActivityNet-Captions、QVHighlights 等基准上齐取得了最好性能。此外,VideoMind 亦然首个赈济多片断 grounding 的多模态大模子,因此不错在 QVHighlights 数据集上跟现存模子平允对比。 
△表 5:Charades-STA 数据集的测试戒指 
△表 6:ActivityNet Captions 数据集的测试戒指 
△表 7:QVHighlights 数据集的测试戒指 (3)一般视频问答(General VideoQA) 关于通用的视频认知问题,VideoMind 也施展出了宽绰的泛化智商。在 Video-MME、MVBench、MLVU、LVBench、LongVideoBench 等基准上,VideoMind 收货于其 Planner 的想象,不错自顺应地决定是否需要 grounding,其性能高出了好多先进的视频问答模子,通晓了其在不同视频长度下的优胜施展。 
△表 8:Video-MME、MLVU 和 LVBench 数据集的测试戒指 
△表 9:LongVideoBench 数据集的测试戒指 以下例子展现了 VideoMind 在实质场景中的推理经过。给定一个视频和一个问题,该模子不错拆解问题、指定计划、搜索片断、考据戒指,并凭证获取的片断推理最终谜底。该计谋比拟传统的纯笔墨推理(左下部分)愈加合适东说念主类行动,戒指也愈加可靠。 
△图 6:VideoMind 的推理经过可视化总结 VideoMind 的建议不仅在于视频认知性能的冲破,更在于建议了一个模块化、可扩张、可解释的多模态推理框架。该框架初度终昭彰访佛东说念主类行动的"指定计划、搜索片断、考据戒指、回答问题"经过,信得过让 AI 能"像东说念主类相似认知视频",为往常的视频认知和多模态智能系统带域奠定了基础。 神色主页:https://videomind.github.io/ 论文通顺:https://arxiv.org/abs/2503.13444 开源代码:https://github.com/yeliudev/VideoMind 开源数据:https://huggingface.co/datasets/yeliudev/VideoMind-Dataset 在线 Demo:https://huggingface.co/spaces/yeliudev/VideoMind-2B 一键三连「点赞」「转发」「提神心」 迎接在批驳区留住你的思法! — 完 — 学术投稿请于使命日发邮件到: ai@qbitai.com 标题注明【投稿】,告诉咱们: 你是谁,从哪来,投稿内容 附上论文 / 神色主页通顺,以及商酌方式哦 咱们会(尽量)实时酬金你 
� � 点亮星标 � � 科技前沿进展逐日见qvod成人动漫
|