Hierarchical Event Memory for Accurate and Low-latency Online Video Temporal Grounding
本文提出了一种名为 Hierarchical Event Memory(分层事件记忆,HEM)的新型在线视频时序定位(Online Video Temporal Grounding, OnVTG)方法。OnVTG 任务旨在根据给定的自然语言查询,在视频流中实时定位目标事件的开始和结束时间,且不能预见未来的帧。现有 OnVTG 模型存在两个主要限制:
- 缺乏有效的事件建模 (lack effective event modeling):它们通常采用逐帧分数预测方法,难以有效处理不同持续时间的事件,导致性能不佳。
- 无法保留长期历史信息 (cannot retain long-term historical information):由于存储容量有限,现有方法通常采用先进先出 (first-in-first-out, FIFO) 策略更新内存,导致有价值的长期历史事件信息容易被冲刷掉。