大模型推理：Prompting、多路径搜索与迭代自改进

Author 发布于 2026-03-08 收录于博客

从 CoT 与类比提示到 Self-Consistency、ORM/PRM 验证、思维树，再到多轮自反思与 token 预算分配，呼应 Bitter Lesson。

RLHF 与 Test-Time 算力：大模型强化学习与推理时优化

Author 发布于 2026-03-08 收录于博客

从 reward 设计、policy gradient、PPO 到 RLHF/RLVR，再讲推理阶段多采样与验证、Archon 架构搜索，以及何时用 RL 何时用 test-time scaling。

Author 发布于 2026-03-08 收录于博客

从预训练与算力、提示工程、微调到强化学习，概览大模型训练与使用的核心方法。

Author 发布于 2025-11-18 收录于博客

本文解析了大模型推理系统（LLM Serving）在不同并行策略下计算与通信的开销规律。

Author 发布于 2021-12-27 收录于论文笔记

在本文中介绍了 InferLine ，一个提供和管理预测流水线各个阶段的系统，以满足端到端的尾部延迟（tail latency）约束，同时最小化成本。

Author 发布于 2021-12-22 收录于博客

介绍和学习docker的容器和镜像的基础知识与用法