从 Prompt Engineering 到 Harness Engineering:我们不是在「发明新学科」,而是在给旧透镜配新对象
摘要
「AI 只用了三年就从 Prompt Engineering 走到 Harness Engineering」这句话之所以抓人,是因为它暗示了一种技术路线的成熟:从会说话,到会系统工程。更精细的说法是:这些工程实践并不会 magically 变成某一门「古老学科」的翻版;更准确的是——我们被迫重新调用人类已经积累的语言学、信息论、控制论、组织理论、认知科学与逻辑传统,去描述和约束一类新的人工行为体(agent)系统。
本文给出一套更可操作的定义、边界与映射表,帮助你把隐喻写成可讨论、可教学、可落地的框架。
1. 先把词说清楚:六个概念的操作性定义
下面定义偏工程实践,而不是学术教科书定义;目的是让团队对齐「我们在讨论什么」。
1.1 Prompt Engineering(提示工程)
定义:通过自然语言(或结构化指令)影响模型输出分布的一组方法,包括模板、约束、角色、示例、输出格式、反例、分解任务等。
核心问题:在模型能力与任务结构给定的情况下,如何把「意图」编码成可执行的文本接口。
常见误区:把 Prompt 当成「咒语」;忽视数据与评测;把一次性 demo 当成生产方案。
1.2 Context Engineering(上下文工程)
定义:为模型构造可计算、可检索、可裁剪、可验证的输入边界,包括:系统提示、工具返回、RAG 片段、记忆策略、窗口预算、结构化字段、引用与溯源等。
核心问题:在给定上下文预算与延迟约束下,如何最大化任务相关信息并最小化噪声与幻觉燃料。
常见误区:堆上下文等于更聪明;把「更多 token」当成「更多信息」。
1.3 Reasoning Engineering(推理/过程工程)
定义:把复杂任务拆成可检查的中间态,并用显式过程(链式思考、树搜索、验证器、形式化检查、对偶模型互审等)提高可靠性与可解释性。
核心问题:如何把「一次性生成」变成「可审计的推理轨迹」。
常见误区:把长思维链当可靠;忽视错误传播与验证成本。
1.4 Skill Engineering(技能工程)
定义:把可重复、可版本化、可组合的能力封装为「可被模型稳定调用的规程」:检查单、工作流片段、工具协议、领域规则、失败恢复策略、质量门槛等。
核心问题:如何把隐性经验变成可分发、可回归测试的能力包。
常见误区:把 Skill 当成「分类标签」;忽视运行态约束与失败模式。
1.5 Multi-Agent / Orchestration(多智能体与编排)
定义:多个模型实例、工具与人在权限边界内协作完成目标:角色分工、消息路由、状态共享、冲突解决、并行与回滚。
核心问题:如何把「智能」变成「可协调的系统」。
常见误区:Agent 越多越好;忽视通信复杂度与责任链。
1.6 Harness Engineering(约束/挽具工程)
定义:把模型与工具放进可运行的「挽具」里:沙箱、策略、观测、护栏、成本与配额、数据边界、审计日志、人在回路、回滚与发布。
核心问题:如何在开放环境里让系统可控、可停、可追责、可演进。
常见误区:把 Harness 当成「写更多 if」;忽视观测性与实验设计。
一句话串起来:Prompt/Context 解决「输入」;Reasoning 解决「过程」;Skill/Tool 解决「能力」;Agent/Orchestration 解决「协作」;Harness 解决「系统」。
2. 「映射到古老学科」哪里对、哪里需要加限定
你提出的对应关系很有传播力;更精细的版本应当加两类限定:
- 学科不是互斥的:现实问题几乎都是交叉学科。
- 工程对象是新的人工行为体系统:旧学科提供语言与工具,但不能替代新现象里长出来的约束(合规、责任、供应链、组织政治等)。
下面给出「更细」的映射:每一行都写 强相关 / 弱相关 / 容易误读。
| 工程概念 | 强相关传统领域 | 还应叠加的领域(常被忽略) | 典型误读 |
|---|---|---|---|
| Prompt | 语言学(语用、语义、话语分析)、修辞学 | 教育学(支架式教学)、技术写作 | 只谈「措辞」不谈任务结构与评测 |
| Context | 信息科学、信息论、检索 | 图书馆学/情报学、HCI、隐私与安全 | 把上下文当无限黑板 |
| Reasoning | 认知心理学(人类偏差)、逻辑学 | 计算复杂性、概率推理、形式化方法 | 把「像人思考」当「更正确」 |
| Skill | 分类学(信息架构) | 教育学(规程/训练)、软件工程(接口与版本) | Skill = 标签 |
| Multi-Agent | 管理学、组织理论 | 分布式系统、博弈论、社会学(权力与激励) | Agent = 团队人数 |
| Harness | 控制论(反馈与稳态) | 系统工程、可靠性工程、风险治理、法学合规 | Harness = 写规则 if |
更稳的总命题(可作为文章中心句):
不是「AI 工程最终会变成某一门旧学科」,而是「AI 工程会迫使我们把旧学科里那些本来就很硬核的东西重新严肃化:语言、信息、过程、组织与系统约束」。新的是对象与风险外溢速度;旧的是人类用来驯服复杂性的知识传统。
3. 为什么「三年」叙事成立:它描述的是责任边界的外移
从 Prompt 到 Harness,本质上不是模型突然更会了,而是责任从个人技巧外移到系统:
- Prompt 时代:成败更像「个人与模型的对话艺术」。
- Harness 时代:成败更像「组织能否定义可运行系统」:观测、回滚、审计、权限、成本、SLA。
所以三年里变化最快的往往不是「模型智商曲线」,而是把 AI 放进生产环境后,世界向你索要的那套工程证据。
4. 一套可用于团队对齐的「分层模型」(比学科映射更利于落地)
如果你要把文章写得「可执行」,建议加一张分层图(文字版如下):
- 接口层:Prompt / UI / API(人类意图如何进入系统)
- 信息层:Context / RAG / Memory(系统读什么、信什么、忘什么)
- 过程层:Reasoning / Planning / Verification(系统如何走到答案)
- 能力层:Tools / Skills / Policies(系统能做什么、不能做什么)
- 协作层:Agents / Humans / Roles(谁负责什么、如何交接)
- 系统层:Harness(观测、护栏、发布、成本、合规、追责)
强调:学科映射适合启发;分层模型适合排期。两者并不冲突。
5. 给读者的三条结论
- 隐喻的价值:把 Prompt 想成语言学、把 Harness 想成控制论,能帮助你快速借用成熟概念来沟通。
- 隐喻的边界:它们不是定义;一旦写成「等于」,就会漏掉工程里真正昂贵的部分:评测、数据、权限、组织与法律责任。
- 更精细的一句话:AI 工程正在把「会说话」扩展为「会运行」——于是我们必须同时成为技术写作者、信息架构师、过程设计师、系统工程师与治理者。