从 Prompt Engineering 到 Harness Engineering：我们不是在「发明新学科」，而是在给旧透镜配新对象

摘要

「AI 只用了三年就从 Prompt Engineering 走到 Harness Engineering」这句话之所以抓人，是因为它暗示了一种技术路线的成熟：从会说话，到会系统工程。更精细的说法是：这些工程实践并不会 magically 变成某一门「古老学科」的翻版；更准确的是——我们被迫重新调用人类已经积累的语言学、信息论、控制论、组织理论、认知科学与逻辑传统，去描述和约束一类新的人工行为体（agent）系统。

本文给出一套更可操作的定义、边界与映射表，帮助你把隐喻写成可讨论、可教学、可落地的框架。

1. 先把词说清楚：六个概念的操作性定义

下面定义偏工程实践，而不是学术教科书定义；目的是让团队对齐「我们在讨论什么」。

1.1 Prompt Engineering（提示工程）

定义：通过自然语言（或结构化指令）影响模型输出分布的一组方法，包括模板、约束、角色、示例、输出格式、反例、分解任务等。

核心问题：在模型能力与任务结构给定的情况下，如何把「意图」编码成可执行的文本接口。

常见误区：把 Prompt 当成「咒语」；忽视数据与评测；把一次性 demo 当成生产方案。

1.2 Context Engineering（上下文工程）

定义：为模型构造可计算、可检索、可裁剪、可验证的输入边界，包括：系统提示、工具返回、RAG 片段、记忆策略、窗口预算、结构化字段、引用与溯源等。

核心问题：在给定上下文预算与延迟约束下，如何最大化任务相关信息并最小化噪声与幻觉燃料。

常见误区：堆上下文等于更聪明；把「更多 token」当成「更多信息」。

1.3 Reasoning Engineering（推理/过程工程）

定义：把复杂任务拆成可检查的中间态，并用显式过程（链式思考、树搜索、验证器、形式化检查、对偶模型互审等）提高可靠性与可解释性。

核心问题：如何把「一次性生成」变成「可审计的推理轨迹」。

常见误区：把长思维链当可靠；忽视错误传播与验证成本。

1.4 Skill Engineering（技能工程）

定义：把可重复、可版本化、可组合的能力封装为「可被模型稳定调用的规程」：检查单、工作流片段、工具协议、领域规则、失败恢复策略、质量门槛等。

核心问题：如何把隐性经验变成可分发、可回归测试的能力包。

常见误区：把 Skill 当成「分类标签」；忽视运行态约束与失败模式。

1.5 Multi-Agent / Orchestration（多智能体与编排）

定义：多个模型实例、工具与人在权限边界内协作完成目标：角色分工、消息路由、状态共享、冲突解决、并行与回滚。

核心问题：如何把「智能」变成「可协调的系统」。

常见误区：Agent 越多越好；忽视通信复杂度与责任链。

1.6 Harness Engineering（约束/挽具工程）

定义：把模型与工具放进可运行的「挽具」里：沙箱、策略、观测、护栏、成本与配额、数据边界、审计日志、人在回路、回滚与发布。

核心问题：如何在开放环境里让系统可控、可停、可追责、可演进。

常见误区：把 Harness 当成「写更多 if」；忽视观测性与实验设计。

一句话串起来：Prompt/Context 解决「输入」；Reasoning 解决「过程」；Skill/Tool 解决「能力」；Agent/Orchestration 解决「协作」；Harness 解决「系统」。

2. 「映射到古老学科」哪里对、哪里需要加限定

你提出的对应关系很有传播力；更精细的版本应当加两类限定：

学科不是互斥的：现实问题几乎都是交叉学科。
工程对象是新的人工行为体系统：旧学科提供语言与工具，但不能替代新现象里长出来的约束（合规、责任、供应链、组织政治等）。

下面给出「更细」的映射：每一行都写 强相关 / 弱相关 / 容易误读。

工程概念	强相关传统领域	还应叠加的领域（常被忽略）	典型误读
Prompt	语言学（语用、语义、话语分析）、修辞学	教育学（支架式教学）、技术写作	只谈「措辞」不谈任务结构与评测
Context	信息科学、信息论、检索	图书馆学/情报学、HCI、隐私与安全	把上下文当无限黑板
Reasoning	认知心理学（人类偏差）、逻辑学	计算复杂性、概率推理、形式化方法	把「像人思考」当「更正确」
Skill	分类学（信息架构）	教育学（规程/训练）、软件工程（接口与版本）	Skill = 标签
Multi-Agent	管理学、组织理论	分布式系统、博弈论、社会学（权力与激励）	Agent = 团队人数
Harness	控制论（反馈与稳态）	系统工程、可靠性工程、风险治理、法学合规	Harness = 写规则 if

更稳的总命题（可作为文章中心句）：

不是「AI 工程最终会变成某一门旧学科」，而是「AI 工程会迫使我们把旧学科里那些本来就很硬核的东西重新严肃化：语言、信息、过程、组织与系统约束」。新的是对象与风险外溢速度；旧的是人类用来驯服复杂性的知识传统。

3. 为什么「三年」叙事成立：它描述的是责任边界的外移

从 Prompt 到 Harness，本质上不是模型突然更会了，而是责任从个人技巧外移到系统：

Prompt 时代：成败更像「个人与模型的对话艺术」。
Harness 时代：成败更像「组织能否定义可运行系统」：观测、回滚、审计、权限、成本、SLA。

所以三年里变化最快的往往不是「模型智商曲线」，而是把 AI 放进生产环境后，世界向你索要的那套工程证据。

4. 一套可用于团队对齐的「分层模型」（比学科映射更利于落地）

如果你要把文章写得「可执行」，建议加一张分层图（文字版如下）：

接口层：Prompt / UI / API（人类意图如何进入系统）
信息层：Context / RAG / Memory（系统读什么、信什么、忘什么）
过程层：Reasoning / Planning / Verification（系统如何走到答案）
能力层：Tools / Skills / Policies（系统能做什么、不能做什么）
协作层：Agents / Humans / Roles（谁负责什么、如何交接）
系统层：Harness（观测、护栏、发布、成本、合规、追责）

强调：学科映射适合启发；分层模型适合排期。两者并不冲突。

5. 给读者的三条结论

隐喻的价值：把 Prompt 想成语言学、把 Harness 想成控制论，能帮助你快速借用成熟概念来沟通。
隐喻的边界：它们不是定义；一旦写成「等于」，就会漏掉工程里真正昂贵的部分：评测、数据、权限、组织与法律责任。
更精细的一句话：AI 工程正在把「会说话」扩展为「会运行」——于是我们必须同时成为技术写作者、信息架构师、过程设计师、系统工程师与治理者。

FEATURED TAGS

Git PHP Redis Swoole 消息推送 Redis List 线程 Swoole task Nginx MySQL Python 分布式系统 array 负载均衡 Python3.7 分流压缩静态文件 Centos7 Nginx 1.15 redis HyperLogLog 统计 UV Laravel go func 团队目标共同挑战 Go LeetCode 动态规划计算至少是其他数字两倍的最大数二分查找最小覆盖子串滑动窗口算法递归二叉树回溯算法双指针环形链表 LeetCode 01.05 字符串比较阿里云续费

模型变强并不会减少工程；它把工程从『措辞』推向『世界』