T-Rex Label

模型冷启动

模型冷启动是指推理服务启动后首次处理请求时的状态,此时模型尚未加载到内存或硬件加速设备中,会导致首次请求的延迟显著高于后续请求,是影响推理服务首屏响应时间的重要因素。