Yuhan Yan

AI Infra Engineer | Efficient Inference & Model Compression

yuhan-profile.jpg

你好,我是 Yuhan,专注于 AI 基础设施与高效推理系统的设计与落地。

我目前主要关注以下方向:

  • 模型推理优化:长上下文推理、Token 压缩、缓存复用,以及时延与吞吐优化
  • 模型压缩与部署优化:结构化剪枝、量化,以及 ONNX / TensorRT 部署
  • 训练与服务工程化:分布式训练、平台能力建设和生产环境落地

工作之外,我也享受运动和文化生活。普拉提🧘、美式橄榄球🏈和户外徒步🏞️让我保持活力与专注;电影🎬、播客🎧和阅读📖则不断带来新的感受和灵感。 我很享受与不同背景的人交流、碰撞想法,也常常因为好奇心驱动,去深入研究一个问题。

publications

  1. ACM MM
    DaG: Cross-Modal-Guided Token Compression with Adaptive Retained-Audio Budgeting for AV-LLMs
    Yuhan Yan and Fei Luo
    Unique first author submission. , 2026
    Under review
  2. ICML
    ActTaylor: Rethinking Taylor-Based Structured Pruning via Activations
    Wenwen Hou, Yuhan Yan, Fei Luo, and 1 more author
    2026
    Under review

patents

  • Training method of frame classification model, testing method and device of application performance CN114898265A