从 CoT 与类比提示到 Self-Consistency、ORM/PRM 验证、思维树,再到多轮自反思与 token 预算分配,呼应 Bitter Lesson。
从 reward 设计、policy gradient、PPO 到 RLHF/RLVR,再讲推理阶段多采样与验证、Archon 架构搜索,以及何时用 RL 何时用 test-time scaling。
从预训练与算力、提示工程、微调到强化学习,概览大模型训练与使用的核心方法。
本文解析了大模型推理系统(LLM Serving)在不同并行策略下计算与通信的开销规律。
在本文中介绍了 InferLine ,一个提供和管理预测流水线各个阶段的系统,以满足端到端的尾部延迟(tail latency)约束,同时最小化成本。
介绍和学习docker的容器和镜像的基础知识与用法