Skip to main content

MUPA


MUPA: Towards Multi-Path Agentic Reasoning for Grounded Video Question Answering

MUPA(MUlti- Path A gentic)是一种协同多路径智能体推理框架,旨在解决Grounded Video Question Answering (Grounded VideoQA) 任务中答案准确性与视觉证据定位不一致的问题。现有最先进的多模态模型在VideoQA中常依赖语言先验和虚假关联,导致预测结果缺乏可靠的视觉依据。

MUPA采用合作式多路径智能体推理方法,整合了视频定位、问答和答案反思与聚合,通过三种独特的推理路径(包括定位优先、回答优先和联合推理)生成候选答案-证据对,并利用一个反思智能体进行验证和融合。

alt text

MUPA的核心思想是引入多路径推理和反射机制。该框架包含四个协作智能体:

  • Grounder(定位智能体):负责定位视频中的候选事件时刻。
  • Answerer(问答智能体):负责预测问题的答案。
  • GQA Agent(Grounded QA智能体):同时进行问答和证据定位。
  • Reflective Agent(反射智能体):评估和整合不同路径的输出。

MUPA设计了三条独立的推理路径来处理Grounded VideoQA任务,每条路径都采用不同的推理策略:

  1. Path-1 (Ground-first-answer-second):遵循“先定位后回答”的策略。首先,将问题转换为查询(例如,去除疑问词和助动词 “The moment when [core clause]”),由Grounder选择K个最匹配的时间片段。然后,这些片段与原始问题一起送入Answerer以生成答案。
  2. Path-2 (Answer-first-ground-second):采用“先回答后验证”的策略。Answerer首先从完整视频和问题中预测一个初步答案。然后,这个答案被标准化并与问题的核心子句结合,形成一个更具体的查询,传递给Grounder以检索支持性的时间片段。这种路径通过答案信息缩小文本与视频之间的语义鸿沟,提高定位准确性,并能通过降低Grounder的置信度来指示反射智能体处理不可靠证据。
  3. Path-3 (GQA Agent):通过GQA智能体执行联合推理,以单次传递的方式同时解码答案和证据对。GQA智能体以Qwen2作为骨干模型,将视频帧和文本问题编码为多模态特征,并并行地通过Answer Head和Grounder Head

alt text

MUPA 中的每个 agent 都是使用 VideoMind [20] 提出的 Chain-of-LoRA 策略,针对特定角色数据独立训练的。 这种方法允许我们在所有 agent 之间共享一个冻结的视觉-语言 backbone,同时附加轻量级的 LoRA adapters.

GQA Agent

Answer Head 和 Grounder Head 通过加权组合进行同步优化:

  • Answer head将[CLS] token映射到答案 logits,使用交叉熵损失Lans=c=1Kyclogpc\mathcal{L}_{ans} = -\sum_{c=1}^{K} y_c \log p_c进行优化
  • Grounder Head 遵循VideoMind设计,通过线性投影和层归一化处理VLM帧嵌入和<REG> token,然后通过自注意力模块和前馈网络生成分类特征,以及通过时间金字塔编码器回归开始和结束时间戳,综合分类损失Lcls\mathcal{L}_{cls}、回归损失Lreg\mathcal{L}_{reg}和一致性损失Lcon\mathcal{L}_{con})。整体定位损失为Lloc=Lcls+Lreg+Lcon\mathcal{L}_{loc} = \mathcal{L}_{cls} + \mathcal{L}_{reg} + \mathcal{L}_{con},GQA智能体总损失为LGQA=λansLans+λlocLloc\mathcal{L}_{GQA} = \lambda_{ans}\mathcal{L}_{ans} + \lambda_{loc}\mathcal{L}_{loc}

最终GQA智能体的总损失为下面:

LGQA=λansLans+λlocLlocL_{GQA} = \lambda_{ans}L_{ans} + \lambda_{loc}L_{loc}

alt text

Reflective Agent

**反射智能体(Reflective Agent)**是MUPA的关键组成部分,它负责对多路径输出进行事后验证和整合,确保最终结果的可靠性。它分两个阶段工作:

单路径验证(Single-Path Verification): 验证器(Verifier):评估Grounder生成的N个候选时间片段(N=5N=5)。每个片段会向两侧扩展50%,并在边界插入<SEG_START>和<SEG_END>特殊token。验证器处理标记的片段和问题,输出yes\ell_{yes}no\ell_{no} logits,计算一致性分数vik=σ(yesno)v_{ik} = \sigma(\ell_{yes} - \ell_{no})。训练时,IoU > 0.5的片段被视为正例。 PoE重评分(PoE Re-scoring):将Grounder的原始置信度cikc_{ik}与验证器的一致性分数vikv_{ik}结合,使用Product-of-Experts (PoE) 机制获得融合置信度pik=cikvikp_{ik} = c_{ik} v_{ik}。然后,根据pikp_{ik}对片段进行重新排序,并保留最高置信度的片段S^i\hat{S}_i及其置信度pip_i。PoE机制在路径和验证器都自信时才提升片段,抑制了来自任何单一来源的假阳性。

多路径融合(Multi-Path Fusion): 答案整合(Answer Consolidation):通过加权多数投票机制确定最终共识答案A^\hat{A}A^=argmaxaikpik1[Ai=a]\hat{A} = \arg \max_a \sum_i \sum_k p_{ik} \mathbb{1}[A_i = a]𝟙。 MoE加权(MoE Weighting):将每个片段的置信度标准化为wik=pik/j,pjw_{ik} = p_{ik} / \sum_{j, \ell} p_{j\ell},作为后续融合中的专家可靠性权重。 加权k-means聚类(Weighted k-means Clustering):将每个时间片段Sik=(sik,eik)S_{ik} = (s_{ik}, e_{ik})映射到二维点xik=(sik,eik)R2x_{ik} = (s_{ik}, e_{ik}) \in \mathbb{R}^2。通过解决加权聚类问题min{Cj},{c(ik)}i,kwikxikCc(ik)2\min_{\{C_j\}, \{c(ik)\}} \sum_{i,k} w_{ik} \|x_{ik} - C_{c(ik)}\|^2来发现K个共享时刻(聚类中心CjC_j),其中c(ik)c(ik)将每个片段分配给一个聚类。 边界细化(Boundary Refinement):对于每个聚类jj,通过加权最小二乘问题细化中心C~j=(i,k)Ijwikxik(i,k)Ijwik\tilde{C}_j = \frac{\sum_{(i,k)\in I_j} w_{ik} x_{ik}}{\sum_{(i,k)\in I_j} w_{ik}},其中IjI_j是分配给该聚类的所有片段索引集合。最终的证据集由K个精炼后的时间片段{S~j}j=1K\{\tilde{S}_j\}_{j=1}^K组成。

alt text