Terminal-Bench:把命令行“真活儿”量成分
Terminal-Bench 是由 Stanford × Laude 团队推出的开源基准与评测框架,专门衡量 AI 代理在真实终端环境里完成复杂任务的能力(编译/部署、数据与安全操作、模型训练等)。首发包含 80 个人工校验任务,随后持续扩展(当前 “head” 版已 117 题),并提供统一的执行与打分工具链与公开排行榜。
它和以往“工具/电脑用法”基准有何不同
真环境、可回放:每道题都配Docker 环境 + 测试脚本 + 参考解,按单测通过与否计分,不靠提示词匹配或主观评语。
任务更贴近工程:从“编内核并用 QEMU 启动”“配置 Git → 自动部署到 8080 端口”,到“FastText 训练需达隐测阈值”“OpenSSL 生成自签证书并校验”等,覆盖系统、开发、数据科学与安全。
反污染与版本化:站点强调基准数据不得进入训练集,并带有可追踪的 canary GUID;任务集按版本与注册表发布,便于长期演进与对比。
评测怎么跑
框架分两部分:任务集(datasets)与执行框架(harness)。安装 terminal-bench CLI 后,一条命令即可拉起沙箱、连接代理并跑题,例如:tb run –dataset terminal-bench-core==head –agent terminus –model-name <模型> –task-id hello-world。首发文档与“First Steps”给出了从安装到自定义代理(实现 BaseAgent 接口)的最短路径。
Terminus:官方“中性”代理
为避免把第三方成品代理当作“测量仪”,团队提供了Terminus:只给模型一个tmux 交互窗口,其控制回路运行在容器外部,不受环境依赖的安装约束;完全自治、无人工干预,适合作为模型间的可比测试台。
排行榜与最新进展(截至 2025-08-11)
Top 表现:Warp 的终端代理以 52.0% ±1.0 位居榜首;Engine Labs(Claude 4 Sonnet)44.8%;Claude Code(Opus 4)43.2%;Letta 的开源代理 42.5%。官方榜单要求在 terminal-bench-core==0.1.1 上提交。
社区侧记:Warp 公布了登顶经验;Letta 展示了仅 ~200 行代码、基于自家 SDK 的开源高分代理(42.5%)。
任务注册表(Registry):一处跑多基准
Terminal-Bench 不仅有自建任务,还把外部热门评测适配进同一框架:已上线 SWE-Bench Verified、AppWorld、DevEval、EvoEval 等适配,并给出了对等性验证(用原生评分脚本比对,数值基本一致)。开发者接一次接口,即可一处评多基准。
对研究与落地的价值
工程可复现:每题都是“能不能把活儿干成”的客观判据(文件、端口、精度阈值等),非常适合做代理迭代回归与A/B。
它和以往“工具/电脑用法”基准有何不同
真环境、可回放:每道题都配Docker 环境 + 测试脚本 + 参考解,按单测通过与否计分,不靠提示词匹配或主观评语。
任务更贴近工程:从“编内核并用 QEMU 启动”“配置 Git → 自动部署到 8080 端口”,到“FastText 训练需达隐测阈值”“OpenSSL 生成自签证书并校验”等,覆盖系统、开发、数据科学与安全。
反污染与版本化:站点强调基准数据不得进入训练集,并带有可追踪的 canary GUID;任务集按版本与注册表发布,便于长期演进与对比。
评测怎么跑
框架分两部分:任务集(datasets)与执行框架(harness)。安装 terminal-bench CLI 后,一条命令即可拉起沙箱、连接代理并跑题,例如:tb run –dataset terminal-bench-core==head –agent terminus –model-name <模型> –task-id hello-world。首发文档与“First Steps”给出了从安装到自定义代理(实现 BaseAgent 接口)的最短路径。
Terminus:官方“中性”代理
为避免把第三方成品代理当作“测量仪”,团队提供了Terminus:只给模型一个tmux 交互窗口,其控制回路运行在容器外部,不受环境依赖的安装约束;完全自治、无人工干预,适合作为模型间的可比测试台。
排行榜与最新进展(截至 2025-08-11)
Top 表现:Warp 的终端代理以 52.0% ±1.0 位居榜首;Engine Labs(Claude 4 Sonnet)44.8%;Claude Code(Opus 4)43.2%;Letta 的开源代理 42.5%。官方榜单要求在 terminal-bench-core==0.1.1 上提交。
社区侧记:Warp 公布了登顶经验;Letta 展示了仅 ~200 行代码、基于自家 SDK 的开源高分代理(42.5%)。
任务注册表(Registry):一处跑多基准
Terminal-Bench 不仅有自建任务,还把外部热门评测适配进同一框架:已上线 SWE-Bench Verified、AppWorld、DevEval、EvoEval 等适配,并给出了对等性验证(用原生评分脚本比对,数值基本一致)。开发者接一次接口,即可一处评多基准。
对研究与落地的价值
工程可复现:每题都是“能不能把活儿干成”的客观判据(文件、端口、精度阈值等),非常适合做代理迭代回归与A/B。