DaG: Cross-Modal-Guided Token Compression

DaG 面向长上下文音视频多模态推理场景，目标是在尽量保持精度的前提下，降低推理延迟与显存开销。

我主导了以下核心设计：

评测侧覆盖 accuracy、throughput、TTFT、prefill latency 与 GPU memory 等指标，并完成评测 pipeline 的工程适配。