Terminal-Bench：把命令行“真活儿”量成分-夜雨聆风

本文最后更新于2025-08-12，某些文章具有时效性，若有错误或已失效，请在下方留言或联系老夜。

Terminal-Bench：把命令行“真活儿”量成分

Terminal-Bench 是由 Stanford × Laude 团队推出的开源基准与评测框架，专门衡量 AI 代理在真实终端环境里完成复杂任务的能力（编译/部署、数据与安全操作、模型训练等）。首发包含 80 个人工校验任务，随后持续扩展（当前 “head” 版已 117 题），并提供统一的执行与打分工具链与公开排行榜。
它和以往“工具/电脑用法”基准有何不同
真环境、可回放：每道题都配Docker 环境 + 测试脚本 + 参考解，按单测通过与否计分，不靠提示词匹配或主观评语。
任务更贴近工程：从“编内核并用 QEMU 启动”“配置 Git → 自动部署到 8080 端口”，到“FastText 训练需达隐测阈值”“OpenSSL 生成自签证书并校验”等，覆盖系统、开发、数据科学与安全。
反污染与版本化：站点强调基准数据不得进入训练集，并带有可追踪的 canary GUID；任务集按版本与注册表发布，便于长期演进与对比。
评测怎么跑
框架分两部分：任务集（datasets）与执行框架（harness）。安装 terminal-bench CLI 后，一条命令即可拉起沙箱、连接代理并跑题，例如：tb run –dataset terminal-bench-core==head –agent terminus –model-name <模型> –task-id hello-world。首发文档与“First Steps”给出了从安装到自定义代理（实现 BaseAgent 接口）的最短路径。
Terminus：官方“中性”代理
为避免把第三方成品代理当作“测量仪”，团队提供了Terminus：只给模型一个tmux 交互窗口，其控制回路运行在容器外部，不受环境依赖的安装约束；完全自治、无人工干预，适合作为模型间的可比测试台。
排行榜与最新进展（截至 2025-08-11）
Top 表现：Warp 的终端代理以 52.0% ±1.0 位居榜首；Engine Labs（Claude 4 Sonnet）44.8%；Claude Code（Opus 4）43.2%；Letta 的开源代理 42.5%。官方榜单要求在 terminal-bench-core==0.1.1 上提交。
社区侧记：Warp 公布了登顶经验；Letta 展示了仅 ~200 行代码、基于自家 SDK 的开源高分代理（42.5%）。
任务注册表（Registry）：一处跑多基准
Terminal-Bench 不仅有自建任务，还把外部热门评测适配进同一框架：已上线 SWE-Bench Verified、AppWorld、DevEval、EvoEval 等适配，并给出了对等性验证（用原生评分脚本比对，数值基本一致）。开发者接一次接口，即可一处评多基准。
对研究与落地的价值
工程可复现：每题都是“能不能把活儿干成”的客观判据（文件、端口、精度阈值等），非常适合做代理迭代回归与A/B。

Terminal-Bench：把命令行“真活儿”量成分

wang

猜你喜欢