SoCC'20 | InferLine: latency-aware provisioning and scaling for prediction serving pipelines Weile Luo 发布于 2021-12-27 收录于 论文笔记在本文中介绍了 InferLine ,一个提供和管理预测流水线各个阶段的系统,以满足端到端的尾部延迟(tail latency)约束,同时最小化成本。
MobiSys'21 | nn-Meter: Towards Accurate Latency Prediction of Deep-Learning Model Inference on Diverse Edge Devices Weile Luo 发布于 2021-12-20 收录于 论文笔记简介 该论文是MobiSys 2021的最佳论文。该论文提出了nn-Meter。nn-Meter 是一个模型推理时间预测系统。该系统可高效、准确地