SoCC'20 | InferLine: latency-aware provisioning and scaling for prediction serving pipelines
在本文中介绍了 InferLine ,一个提供和管理预测流水线各个阶段的系统,以满足端到端的尾部延迟(tail latency)约束,同时最小化成本。
该论文是MobiSys 2021的最佳论文。该论文提出了nn-Meter。nn-Meter 是一个模型推理时间预测系统。该系统可高效、准确地预测 DNN 模型在不同边缘设备上的推理延迟,其关键思想是将整个模型划分为内核(kernel),即设备上的执行单元,然后执行内核级预测。