DaG: Cross-Modal-Guided Token Compression

Training-free token compression for long-context AV-LLM inference.

DaG 面向长上下文音视频多模态推理场景,目标是在尽量保持精度的前提下,降低推理延迟与显存开销。

我主导了以下核心设计:

  • 文本/音频引导的视觉 token 压缩策略
  • 动态音频保留预算(adaptive retained-audio budgeting)
  • video-level feature caching,减少重复问答的预处理成本

评测侧覆盖 accuracy、throughput、TTFT、prefill latency 与 GPU memory 等指标,并完成评测 pipeline 的工程适配。

相关论文:(Yan & Luo, 2026)