Yuhan Yan
AI Infra Engineer | Efficient Inference & Model Compression
你好,我是 Yuhan,专注于 AI 基础设施与高效推理系统的设计与落地。
我目前主要关注以下方向:
- 模型推理优化:长上下文推理、Token 压缩、缓存复用,以及时延与吞吐优化
- 模型压缩与部署优化:结构化剪枝、量化,以及 ONNX / TensorRT 部署
- 训练与服务工程化:分布式训练、平台能力建设和生产环境落地
工作之外,我也享受运动和文化生活。普拉提🧘、美式橄榄球🏈和户外徒步🏞️让我保持活力与专注;电影🎬、播客🎧和阅读📖则不断带来新的感受和灵感。 我很享受与不同背景的人交流、碰撞想法,也常常因为好奇心驱动,去深入研究一个问题。
publications
- ACM MMDaG: Cross-Modal-Guided Token Compression with Adaptive Retained-Audio Budgeting for AV-LLMsUnique first author submission. , 2026Under review
- ICML
patents
- Training method of frame classification model, testing method and device of application performance CN114898265A