Harness Engineering — 缰绳工程

围绕 AI Agent 构建约束、反馈和质量保障的系统工程实践。
来源:花叔《Harness Engineering又他妈是啥?》
最后更新:2026年3月

概述

Harness(缰绳/马具)指的是套在 AI 身上让它能被引导的那整套东西——没有它,AI 就是乱跑的野马,能力再强也白搭。Harness Engineering 是围绕 AI Agent 设计这套系统的工程实践。

三层递进关系

层次 类比 管什么
Prompt Engineering 你对马说的话(向左转、跑快点) 你问什么
Context Engineering 帮马看路的一切(地图、路标、地形) 你给模型看什么
Harness Engineering 缰绳、马鞍、围栏和道路本身 整个系统怎么运转

Context 是 Harness 的一部分,Harness 还多管了约束、反馈和质量检查

核心证据

LangChain 案例

  • Terminal Bench 2.0:成绩从 52.8% → 66.5%,排名 Top 30 → Top 5
  • 模型完全没换,只改了:系统提示词、工具配置、中间件钩子
  • 结论:模型可能已经不是瓶颈,瓶颈是你给它搭的环境

OpenAI Codex 实验

  • 3→7 个工程师,5 个月,100 万行代码 beta 产品,零行手写
  • ~1500 个 PR,每人每天 3.5 个 PR,速度约传统 10 倍
  • 隐忧:速度快 ≠ 质量好,长期维护成本未知

Martin Fowler 的三块拆解

1. 上下文工程(Context Engineering)

  • 给模型一张地图,不是 1000 页的说明书
  • 维护持续更新的代码库知识库 + agent 能实时看到的系统状态
  • 上下文是稀缺资源,塞太多反而挤占干活的空间

2. 架构约束(Architectural Constraints)

  • 不光靠 AI 自检,还有 linter、结构测试在旁边盯着
  • 硬规则,不遵守就编译不过

3. 垃圾回收(Garbage Collection)

  • 专门一个 agent 周期性运行,只干一件事:找文档矛盾和架构违规
  • 一个专职找茬的 AI

Anthropic 的三 Agent 架构

角色 职责
Planner(规划者) 把简单指令扩展成详细的产品规格
Generator(生成者) 按迭代一次做一个功能
Evaluator(评估者) 跑端到端测试,持续挑刺

灵感来自生成对抗网络(GAN):训练一个专门的评估者让它一直挑刺,比让生成者自己检查自己管用得多。

额外发现:Claude Sonnet 4.5 有上下文焦虑——上下文太多表现反而变差,必须定期清空重来。Harness 不是越大越好。

实践要素

配置文件(活的规则)

  • CLAUDE.md / .cursorrules / CONVENTIONS.md 都是 harness 的一部分
  • 每次 agent 犯错,就工程化一个方案,让它再也犯不了同样的错(Mitchell Hashimoto 方法)
  • 文件是活的,一直在长

Hooks(物理拦截)

  • 在 agent 关键操作前后注入脚本
  • 编辑文件前自动跑 linting,生成代码后自动做类型检查
  • 这不是 prompt 里写的"请注意规范",是物理上拦住它

Skills(按需加载)

  • 每个 skill 是独立能力包,平时不占 context,需要时才调

让 AI 查 AI

  • 写完后开新对话,把结果贴进去:“找出所有问题”
  • 第二个 AI 能发现第一个漏掉的很多问题

三条起步建议

  1. 给地图不给说明书CLAUDE.md 应该像地图(项目结构、文件关系、关键约束),不要把每步写死
  2. 每次犯错加一条规则 — 空文件开始,三个月后就是你的 harness,高度定制
  3. 让 AI 查 AI — 别让 AI 自己查自己,用独立的评估者

Martin Fowler 的警告

如果太早把人类从「in the loop」移到「on the loop」,将来可能没人真正懂得怎么回事,也就没人能设计好的 harness。

现在能设计好 harness 的人,都是有丰富经验的老手。问题在于:不管积累的是什么经验,足够多的经验本身就是设计 harness 的前提。没有捷径,换了个赛道而已。

与历史工程实践的联系

  • 航天工程 — 60 年前 NASA 就在做类似的事:约束、反馈循环、冗余检查、异常处理
  • 工业控制 — PLC 编程里的安全联锁机制就是一种 harness
  • AI 圈不是发明了 harness engineering,是终于意识到自己需要学几十年前就有的工程纪律

与其他概念的关系

  • OpenSpec — 规范驱动开发,是 harness 中"约束"层面的具体实践
  • CLAUDE.md — Claude Code 的项目配置文件,是 harness 的核心载体之一
  • .cursorrules — Cursor 的项目配置文件

OpenSpec — 规范驱动开发 (Spec-Driven Development)

AI 编程助手的规范驱动开发框架,让人类与 AI 在写代码之前先对齐需求。
最后更新:2026年3月

概述

OpenSpec 是一个轻量级的规范层,核心理念是 先达成共识,再编写代码。它通过结构化的 Markdown 规范文档,让人类和 AI 在编码前就需求、设计和实现计划达成一致,从而解决 AI 编码中"需求模糊、结果不可预测"的问题。

核心理念

1
2
3
4
5
→ 流式而非僵化 (fluid not rigid)
→ 迭代而非瀑布 (iterative not waterfall)
→ 简单而非复杂 (easy not complex)
→ 支持棕地项目,不限于绿地 (built for brownfield not just greenfield)
→ 从个人项目到企业级可扩展 (scalable from personal projects to enterprises)

工作流程

OpenSpec 的核心是一个三阶段循环:Propose → Apply → Archive

1. Propose(提案)

通过斜杠命令让 AI 生成规范文档:

1
/opsx:propose "add-dark-mode"

AI 会自动创建 openspec/changes/add-dark-mode/ 目录,包含:

  • proposal.md — 为什么要做、改变什么
  • specs/ — 需求和场景
  • design.md — 技术方案
  • tasks.md — 实现清单

2. Apply(实施)

确认规范后,让 AI 按照任务清单执行:

1
/opsx:apply

AI 会按 tasks.md 中的清单逐步实现,完成后标记每个任务。

3. Archive(归档)

实施完成后归档,将变更合并到源规范中:

1
/opsx:archive

归档后,delta 规范合并到主规范,保持单一信息源(Single Source of Truth)。

快速开始

1
2
3
4
5
6
7
8
9
# 全局安装
npm install -g @fission-ai/openspec@latest

# 在项目中初始化
cd your-project
openspec init

# 告诉 AI 开始
/opsx:propose "your feature idea"

斜杠命令

简化工作流(推荐)

命令 说明
/opsx:propose 创建变更提案
/opsx:apply 按规范实施
/opsx:archive 归档已完成的变更

扩展工作流

通过 openspec config profile 切换到扩展模式后可用:

命令 说明
/opsx:new 创建新提案(扩展版)
/opsx:continue 继续未完成的任务
/opsx:ff 快速推进
/opsx:verify 验证实现
/opsx:sync 同步规范状态
/opsx:bulk-archive 批量归档
/opsx:onboard 项目入门引导

三种规范文档

1. Delta Specs(变更规范)

标记为 ADDEDMODIFIEDREMOVED,清晰传达提案内容,无需对比整个文档。

2. Source of Truth(源规范)

系统当前状态的唯一权威参考,所有 delta 变更最终合并到此文档。

3. Archived Specs(归档规范)

已合并的 delta 规范历史记录,保留决策脉络和审计轨迹。

支持的 AI 工具

OpenSpec 支持 20+ AI 编程助手,包括但不限于:

  • Claude Code
  • Cursor
  • GitHub Copilot
  • Windsurf
  • Aider
  • OpenCode
  • ChatGPT
  • Replit Agent

与同类工具对比

特性 OpenSpec Spec Kit (GitHub) Kiro (AWS)
重量级 轻量 较重 中等
阶段门控 无,自由迭代 严格阶段门控
工具锁定 无,支持 20+ 工具 GitHub 生态 Kiro IDE + Claude
安装 npm(简单) Python(较复杂) IDE 内置
棕地项目支持 原生支持 有限 有限
定制性 高(自定义 Profile/Schema)

适用场景

  • 需求频繁变化 — 需要快速迭代规范
  • AI 编码结果不可预测 — 需要事先对齐需求
  • 棕地项目 — 现有项目需要增量引入规范
  • 团队协作 — 需要统一的信息源
  • 功能交互复杂 — 需要检测功能间 unintended interactions

最佳实践

  1. 推荐模型:使用高推理能力模型(如 Opus 4.5、GPT 5.2)效果最佳
  2. 上下文管理:开始实施前清空上下文窗口,保持干净的上下文
  3. 小步迭代:每次提案保持小范围、聚焦的变更
  4. 及时归档:完成后尽快归档,保持源规范的准确性

CLI 常用命令

1
2
3
4
5
6
7
8
9
10
11
# 初始化项目
openspec init

# 配置 Profile
openspec config profile

# 更新 agent 指令
openspec update

# 升级 OpenSpec
npm install -g @fission-ai/openspec@latest

相关资源

Claude Code:核心功能与配置域

精简说明常用能力:做什么、怎么用。细节与版本差异以 code.claude.com 与本地 claude --help 为准。


三种权限模式

作用: 控制 Claude 执行工具(读写文件、Bash 等)前是否询问你。

模式(设置键) 描述 典型用法
default 多数敏感操作需确认 日常、不信任目录
acceptEdits 自动接受编辑类权限,减少打断 大批量改代码
plan 先只读分析与出方案,再让你批准改动 重构、摸陌生代码库
dontAsk / bypassPermissions 预批准或跳过权限(高风险) 仅隔离沙箱、自动化流水线

使用方式:

  • CLI: 启动时 claude --permission-mode plan;会话中 Shift+Tab 循环切换(是否含 auto 等取决于版本与订阅)。
  • VS Code / Desktop / Web: 提示框旁的模式选择器(名称与上述键对应)。

后台任务管理

作用: 长任务不阻塞你离开;多会话并行。

使用方式:

  • CLI: /tasks 查看与管理后台任务(以当前版本列表为准)。
  • 云端: claude --remote "…"(若本版 CLI 支持)或网页 claude.ai/code 发起任务,稍后查看。
  • 并行本地: claude -w <worktree名> 在独立 git worktree 里开会话;桌面端可多窗口会话。

回滚(Checkpoint / Rewind)

作用: 按「轮」撤销 Claude 编辑工具造成的文件变更,或同时回退对话;也可从某条消息起做摘要以省上下文。不跟踪纯 Bash 改盘、会话外手工改文件。

使用方式:

  • 连按 Esc Esc,或输入 /rewind(别名 /checkpoint)。
  • 在列表中选检查点:恢复代码+对话 / 仅对话 / 仅代码,或 Summarize from here(从该点起压缩对话,不动磁盘文件)。

添加 MCP Server

作用: 通过 Model Context Protocol 连接外部工具与数据(Figma、DB、Slack 等)。

使用方式:

  • CLI: claude mcp add --transport http <名> <URL>;stdio:claude mcp add -e KEY=val <名> -- npx …;JSON:claude mcp add-json <名> '<json>';管理:claude mcp list | get | remove;会话内 /mcp 做连接与 OAuth。
  • 作用域: -s local|user|project(CLI 默认多为 localproject 常写入 .mcp.json,团队共享,首次使用往往需单独批准)。

恢复会话

作用: 接着上次对话与上下文继续。

使用方式:

  • claude -c / claude --continue:当前目录最近一次会话。
  • claude -r / claude --resume [id或名]:指定会话或打开选择器。
  • 会话内:/resume/continue
  • 分支尝试:--fork-session--resume 同用,保留原会话 ID。

上下文压缩

作用: 对话过长时保留要点、丢掉逐字历史,腾出 token。

使用方式:

  • /compact [可选说明]:按你的侧重点生成摘要替换尾部消息。
  • /rewind → Summarize from here:从选中消息起向前压缩,前面细节保留更完整。

清空上下文

作用: 丢弃当前对话历史(不等价于撤销文件);释放上下文,从零开聊。

使用方式:

  • /clear,或别名 /reset/new

CLAUDE.md/memory

作用: 项目级长期说明(栈、命令、禁忌、架构),每次会话自动注入;可配 auto-memory 让 Claude 自动记下构建命令等。

使用方式:

  • 在项目根(及子目录)放 CLAUDE.md;复杂项目可拆 .claude/rules/ 按路径加载。
  • /memory:编辑记忆文件、开关 auto-memory、查看自动记忆条目;/init 可生成初始 CLAUDE.md

Hook

作用: 在固定生命周期(如工具执行前后)跑确定性脚本(格式化、Lint、通知),不经过模型

使用方式:

  • 配置写在项目 .claude/(或用户级 ~/.claude/)的 hooks 定义中;会话内 /hooks 查看。
  • 详见 Hooks

Agent Skills(Skills)

作用: 可复用的说明 / 流程 / 知识;可 /命令名 触发,也可由模型按描述自动选用(可配置为仅手动触发以省上下文)。

使用方式:

  • 放在 .claude/skills/ 等约定目录;插件可带 命名空间 命令(如 /plugin:cmd)。
  • 会话内 /skills 列出;官方 Skills

Agents(Subagents)

作用: 独立上下文里的子代理:大量读文件、专项任务只把摘要写回主会话,避免主对话被撑爆。

使用方式:

  • 配置在 .claude/ 下 agent 定义;claude agents 列出;会话内 /agents 管理;启动时可用 --agents '<json>' 临时注入。

Skills vs Agents(对比)

维度 Skills Agents(Subagents)
本质 知识 + 可触发工作流 单独一轮 agent 循环的工人
上下文 进入当前会话(或 skill 指定 fork) 隔离上下文,主会话只看到结果摘要
适合 规范、检查清单、/deploy 类重复流程 大范围检索、并行子任务、只要结论不要过程
组合 Skill 可描述何时 spawn;子代理可 预载 指定 skills 主代理分配子任务并合并摘要

Plugin

作用:skills、agents、hooks、MCP 等打成可安装包,经 marketplace 分发,团队统一环境。

使用方式:

  • claude plugin install <名>[@marketplace]list / enable / disable / update / uninstallplugin marketplace 管理源;会话内 /plugin/reload-plugins
  • 详见 Plugins

配置文件与保存域(Scope)

配置会落在 用户全局 / 项目 / 本地(常 gitignore) 等不同层级,合并与覆盖规则以官方为准;下列便于自查「改的是哪一台、哪一个仓库」。

内容 常见位置 / 机制 域说明
用户全局 ~/.claude/(如 settings.json、全局 skills、hooks) 当前用户所有项目可见
项目 仓库内 .claude/settings.jsonCLAUDE.md.mcp.json、项目级插件列表 随 Git 分享(勿提交密钥)
本地(local) 同仓库下本地覆盖配置、claude mcp add -s local 仅本机,常不提交
MCP 服务器 `claude mcp add -s user project
插件 `claude plugin install -s user project
设置加载 启动标志 --setting-sources user,project,local 控制本次会话读哪些来源
托管/企业 组织下发的 managed 策略 可能覆盖部分用户/项目项

实用建议: 密钥用环境变量或 local scope;团队共识放 project;个人偏好放 user


另见

Cursor

简介

Cursor 是目前最流行的 AI 原生代码编辑器,基于 VS Code 构建。被 NVIDIA、Stripe、OpenAI 等顶级公司的工程师广泛使用。

Cursor 本质不是 IDE + AI,而是一个可编程的 AI Agent 系统。


核心能力架构(4层模型)

1
2
3
4
① 模型层(LLM)
② 上下文层(Rules / Memory / Agents.md)
③ 能力层(Skills)
④ 工具层(MCP)

一句话总结:

  • Rules = 约束 & 长期记忆
  • Skills = 可复用能力模块
  • MCP = 外部工具系统

一、Rules(规则系统)——“长期记忆 + 行为约束”

1. 本质

Rules 是 Cursor 最核心能力之一,解决:

  • 每次都要重复 prompt
  • AI 风格不一致
  • 不理解项目约定

Rules = Prompt 工程化

2. Rules 类型

(1)Project Rules(最重要)

  • 存在:.cursor/rules/*.mdc
  • 特点:
    • 跟代码库绑定
    • 可 version control
    • 支持作用域(目录级)

用途:

  • 代码规范
  • 架构约束
  • 业务知识

(2)User Rules

  • 全局规则(类似 ChatGPT 的 system prompt)
  • 例如:
    • “回答用中文”
    • “写 Go 代码必须加 context”

(3)Agent / AGENTS.md(轻量替代)

  • 用 markdown 定义 agent 行为
  • 比 rules 更简单

(4)Memory(自动生成规则)

  • 从聊天中自动提取规则
  • 类似"隐式规则"

3. Rule 的执行机制

Rules 会被插入到 prompt 最前面(system context),并按策略加载:

类型 触发方式
Always 永远加载
Auto Attached 按文件匹配
Agent Requested AI 自己决定
Manual 手动 @

4. .cursorrules 示例

1
2
3
4
5
# 项目编码规范
- 使用 TypeScript
- 遵循 Airbnb 风格指南
- 所有函数必须有 JSDoc 注释
- 测试覆盖率 > 80%

二、Skills(技能系统)——“可复用能力插件”

1. 本质

Skills 是一组"结构化 prompt + workflow",让 AI 会做某件事。

Skills = 函数化 Prompt / Playbook

2. 官方内置技能

  • /code-review → 代码审查
  • /test → 生成单测
  • /fix-merge-conflicts → 修复合并冲突
  • /pr → 自动生成 PR

3. Skills 核心特点

特性 说明
按需加载 不像 rules 常驻
可组合 可以 chaining
可复用 跨项目使用
任务导向 一次解决一个问题

4. 心智模型

  • Rules = “法律 / 公司制度”
  • Skills = “员工技能包”

或者:

  • Rules = “长期人格”
  • Skills = “临时能力”

三、MCP(Model Context Protocol)——“工具扩展系统”

1. 本质

MCP 是一种标准协议,用来把外部工具接入 AI。

LLM + Tool = Agent

2. 能做什么

通过 MCP,Cursor 可以直接:

  • 调 GitHub
  • 调 Figma
  • 调数据库
  • 调内部 API

3. MCP vs Skills(核心区别)

对比 Skills MCP
本质 Prompt Tool
是否执行代码
是否标准化
可跨平台
是否有 schema

4. MCP 核心价值

(1)结构化工具调用

  • 参数 schema
  • 返回格式
  • 错误定义

AI 不用猜怎么调用

(2)安全性

  • 权限控制
  • 不暴露 token

(3)生态化

  • 一次开发,多 agent 复用

5. 配置示例

1
2
3
4
5
6
7
8
{
"mcpServers": {
"github": {
"command": "npx",
"args": ["@modelcontextprotocol/server-github"]
}
}
}

四、三者关系(最重要总结)

1. 统一心智模型

1
2
3
Rules → 决定"怎么做"
Skills → 决定"做什么"
MCP → 决定"用什么工具做"

2. 类比现实世界

系统 类比
Rules 公司制度
Skills 员工技能
MCP 外部工具 / API

3. 实际工作流

一个复杂任务:“帮我修 bug 并提 PR”

执行链路:

1
2
3
Rules → 约束风格/架构
Skills → /fix-bug /pr workflow
MCP → 调 git / GitHub API

五、Cursor 真正的核心能力

1. 代码库理解能力

  • 全局索引
  • 跨文件推理

2. Agent 化执行

  • 多步任务拆解
  • 自动修改代码

3. Context Engineering(核心)

Cursor 真正厉害的点:不是模型,而是上下文管理

包括:

  • Rules(显式)
  • Memory(隐式)
  • Skills(任务化)
  • MCP(工具化)

六、其他核心功能

Agent 模式

  • Cloud Agents - 云端自主运行,可并行处理多个任务
  • Composer 2 - 新一代代码生成引擎,支持跨文件大规模修改
  • 自主开发 - 独立完成规划、编码、测试、部署全流程

编辑器功能

  • Tab 补全 - 智能代码补全,支持多行生成
  • Cmd+K 编辑 - 选中代码后通过自然语言描述修改
  • Chat 对话 - 与 AI 对话,询问代码问题、调试、解释
  • @符号引用 - 引用文件、文件夹、文档等作为上下文
  • Apply 功能 - 一键将 AI 代码应用到当前文件

多平台集成

  • BugBot - GitHub PR 自动代码审查
  • Slack 集成 - 在 Slack 中直接调用 Cursor
  • CLI 工具 - 命令行中的 AI 助手
  • Mobile Agent - 移动端访问云端代理

核心特性

  • 最新模型 - GPT-5.4、Opus 4.6、Gemini 3 Pro、Grok Code
  • 代码库理解 - RAG 技术索引整个项目
  • 隐私模式 - 代码不会被存储用于训练
  • Marketplace - 丰富的插件生态
  • 企业级 - SOC 2 认证,自托管 Cloud Agents

最新动态

  • Mar 2026 - 自托管 Cloud Agents
  • Mar 2026 - Composer 2 发布
  • Feb 2026 - 自驾驶代码库研究预览

定价

  • Hobby(免费) - 基础 AI 功能
  • Pro($20/月) - 无限快速请求,高级模型
  • Business($40/用户/月) - 团队管理,隐私控制

相关链接


总结

Cursor 的本质:

  • Rules = Prompt 工程化
  • Skills = 能力模块化
  • MCP = 工具协议化

一个可编程的 AI Agent 系统

GitHub Copilot

简介

GitHub Copilot 是业界标准的 AI 编程助手,已从简单的代码补全发展为完整的 AI 开发平台。现在提供免费计划,支持多种模型和自主编程代理。

核心功能

编辑器集成

  • 实时代码补全 - 编写代码时自动提供智能建议
  • Copilot Chat - 在 IDE 内与 AI 对话交互
  • Agent Mode - 自主编程模式,可独立完成复杂任务
  • 代码解释 - 选中代码后让 AI 解释其功能
  • 单元测试生成 - 自动为函数生成单元测试
  • 内联编辑 - 直接在代码中进行 AI 辅助修改

平台功能

  • Copilot Spaces - 创建项目专属知识库,共享代码库上下文
  • Copilot Code Review - 自动代码审查,在 PR 中提供反馈
  • Copilot CLI - 命令行中的 AI 助手
  • 第三方 Agent 支持 - 集成 Claude (Anthropic)、Codex (OpenAI) 等

GitHub 集成

  • Issues 处理 - Agent 可以直接处理 GitHub Issues
  • PR 自动创建 - 自主创建 Pull Request
  • 代码审查 - 自动审查代码变更
  • MCP Registry - 集成外部工具和服务

核心特性

  • 免费计划 - 每月 50 次聊天 + 2000 次补全
  • 多模型支持 - GPT-5 mini、Claude、Gemini 等
  • Premium Requests - 使用最新模型的配额系统
  • 企业级安全 - 完善的隐私保护和 IP indemnification
  • 广泛 IDE 支持 - VS Code、Visual Studio、JetBrains、Neovim、Xcode 等
  • 深度 GitHub 集成 - 原生集成到 GitHub 平台

最新动态

  • 2026 - 多模型选择,可优化速度、准确性或成本
  • 2026 - 第三方 Agent (Claude、Codex)
  • 2026 - Copilot Spaces 项目知识库
  • 2026 - MCP 集成

定价

  • Free($0/月) - 50 次聊天,2000 次补全
  • Pro($10/月) - Copilot Agent, Code Review, 300 次 Premium Requests
  • Pro+($39/月) - 所有模型访问,5× Premium Requests
  • Business($19/用户/月) - 团队管理

相关链接

OpenCode

简介

OpenCode 是目前最流行的开源 AI 编程 Agent,拥有 131K+ GitHub Stars。支持终端、桌面应用和 IDE,完全免费且开源。

OpenCode 本质不是 IDE,而是一个 Agent Framework。


核心能力架构(4层模型)

1
2
3
4
① 模型层(LLM)
② 上下文层(Context / Instructions)
③ Agent层(Task / Plan / Execution)
④ 工具层(Tool / Function Calling)

一句话总结:

  • Instructions = 行为约束
  • Tasks/Plan = 任务规划
  • Tools = 外部能力

一、Instructions(指令系统)——“行为约束”

1. 本质

持久化 Prompt + Agent 行为定义,类似:

  • system prompt
  • 项目约束
  • 行为规范

2. 形态

OpenCode 通常是:

  • instructions.md
  • 或 config 内定义 system prompt

3. 能力点

  • 约束输出格式
  • 约束编码风格
  • 定义 agent 行为(比如:必须先分析再改代码)

二、Tasks / Plan(任务规划)——“任务拆解执行”

1. 本质

把复杂任务拆解成步骤,并执行。

2. 能力点

  • 自动拆解任务(Plan)
  • 多步骤执行(Chain-of-Thought / ReAct)
  • 状态推进(step by step)

3. 示例

1
2
3
4
5
6
7
8
用户:修复这个 bug

OpenCode:
1. 分析代码
2. 找问题
3. 提修改
4. 写 patch
5. 验证

三、Tools(工具系统)——“外部能力”

1. 本质

LLM 调用外部能力(函数 / API)。

2. 支持能力

  • function calling
  • shell 执行
  • 文件操作
  • HTTP API

3. 示例

1
2
3
4
{
"name": "read_file",
"args": { "path": "main.go" }
}

四、Context(上下文系统)——“信息提供”

1. 本质

给模型提供"当前需要理解的信息"。

2. 包括

  • 当前文件
  • 选中代码
  • 历史对话
  • 检索内容(RAG)

五、Agent Runtime(核心差异点)

这是 OpenCode 很关键的一层:真正的"Agent 执行引擎"

能力

  • 循环执行(loop)
  • tool 调用决策
  • 状态管理
  • 错误重试

核心特性

  • 完全开源 - GitHub 开源,社区驱动
  • 隐私优先 - 不存储任何代码或上下文数据
  • 免费使用 - 基础功能完全免费
  • 灵活部署 - 支持隐私敏感环境
  • 社区活跃 - 800+ 贡献者,10,000+ commits
  • 多模型 - 支持几乎所有主流 AI 模型

安装方式

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# curl
curl -fsSL https://opencode.ai/install | bash

# npm
npm install -g opencode

# bun
bun install -g opencode

# brew
brew install opencode

# paru (Arch Linux)
paru -S opencode

使用场景

  • 日常编程开发
  • 代码审查
  • 调试问题
  • 学习新技术
  • 团队协作
  • 隐私敏感项目
  • 自动修 bug
  • 批量改代码
  • DevOps 自动化
  • 生成项目

统计数据

  • 131,000+ GitHub Stars
  • 800+ Contributors
  • 10,000+ Commits
  • 5M+ 每月活跃开发者

定价

  • Free - 开源免费,基础功能
  • Zen - 优化模型服务(付费)
  • Enterprise - 企业级支持和部署

相关链接

Replit Agent

简介

Replit Agent 是 Replit 平台的 AI 编程代理,支持在云端快速生成全栈应用。基于 Agent 4 引擎,可以并行处理多个任务,从设计到部署的完整流程。

核心功能

Agent 4 引擎

  • Infinite Canvas - 无限画布,可视化设计和探索
  • Parallel Agents - 并行代理,同时处理多个任务
  • Multiple Artifacts - 多种产物,支持移动应用、Web 应用、视频等
  • Team Support - 团队支持,多用户协作

开发功能

  • 全栈生成 - 前后端一体化生成
  • 实时预览 - 实时查看应用运行效果
  • 一键部署 - 自动部署到生产环境
  • 数据库集成 - 内置数据库支持
  • 用户认证 - 内置认证系统
  • API 开发 - 快速构建 API 接口

平台集成

  • Authentication - 内置认证
  • Database - 内置数据库
  • Hosting - 自动托管
  • Monitoring - 应用监控
  • Integrations - 100+ 集成 (OpenAI、Stripe 等)

核心特性

  • 云端 IDE - 完全在浏览器中运行
  • 快速原型 - 从想法到产品几分钟内完成
  • 团队协作 - 实时多人协作
  • 企业级 - SOC 2、SSO/SAML 支持
  • 全功能 - 开发所需的一切内置
  • 自动扩展 - 自动扩展应用规模

使用场景

  • 快速原型开发
  • 全栈应用开发
  • 团队协作项目
  • 在线演示
  • 教学培训
  • 黑客马拉松
  • 内部工具开发

定价

  • Starter(免费) - 免费每日 Agent credits
  • Core($20/月) - $25 每月 credits,5 协作者
  • Pro($100/月) - $100 每月 credits,15 协作者,高级模型
  • Enterprise - 企业定制,SSO/SAML

相关链接

Windsurf

简介

Windsurf 是 Codeium (现 Cognition, Inc.) 开发的 AI 原生 IDE,是首个"Agentic IDE"。以 Cascade 为核心,提供流畅的 AI 辅助编程体验,是 Cursor 的主要竞争对手。

核心功能

Cascade (核心特性)

  • 深度上下文理解 - 理解整个代码库结构
  • 多步骤推理 - 处理复杂的编程任务
  • 实时感知 - 感知用户操作,智能响应
  • Flow 模式 - 开发者与 AI 协作的流畅体验
  • 自动修复 - 代码不符合 linter 时自动修复

Tab 补全

  • Autocomplete - 智能代码补全
  • Supercomplete - 预测下一个动作,不只是插入代码
  • Tab to Jump - 预测光标下一个位置,无缝导航

编辑器功能

  • Windsurf Previews - 实时预览网站,点击元素直接修改
  • In-line Command - Cmd+I 内联代码生成和重构
  • Command in Terminal - 终端中的自然语言命令
  • Codelenses - 代码透镜,快速理解或重构代码
  • @ mentions - 引用函数、文件、目录作为上下文

高级特性

  • Linter 集成 - 自动修复 linter 错误
  • MCP 支持 - Model Context Protocol,连接自定义工具
  • JetBrains 插件 - 也可作为 JetBrains 插件使用

核心特性

  • Cascade Flow - 独特的多步骤推理和协作流程
  • 免费额度慷慨 - 免费版提供较多使用额度
  • 实时预览 - 直接在编辑器中预览和修改网页
  • 上下文感知 - 深度理解代码库和项目结构
  • 无缝迁移 - 可从 VS Code 一键导入设置
  • 高采用率 - 59% 的 Fortune 500 公司使用

数据统计

  • 70M+ - 每天由 AI 编写的代码行数
  • 1M+ - 活跃用户
  • 94% - AI 编写的代码占比
  • 59% - Fortune 500 公司采用

定价

  • Free - 基础 Cascade 功能,无限补全
  • Pro - 完整 Cascade,高级模型访问
  • Teams - Pro 功能 + 团队协作
  • Enterprise - 自托管,企业级安全

相关链接

AI Coding Agents 概览

本目录汇总了当前主流的 AI 编程助手和 Agent 工具。
最后更新:2026年3月

快速对比

Agent 类型 核心特性 定价 最适合
Cursor AI IDE Cloud Agents、Composer 2、.cursorrules Free ~ $40/月 端到端开发、团队协作
GitHub Copilot 平台+插件 Copilot Spaces、免费计划、多模型 Free ~ $39/月 VS Code 用户、企业团队
Claude 对话助手 Opus 4.6、CLAUDE.md、Claude Code Free ~ $200/月 复杂推理、长任务
ChatGPT 对话助手 GPT-4o/5、GPTs生态 Free ~ $200/月 通用编程、学习
Windsurf AI IDE Cascade Flow、实时预览 Free ~ 企业 多文件编辑、前端开发
Aider CLI 工具 开源、Git集成、CONVENTIONS.md 开源免费 终端用户、自动化
OpenCode 开源 Agent 131K+ Stars、多模型 开源免费 开发者、隐私优先
Replit Agent 云端 IDE Agent 4、全栈生成 Free ~ Pro 快速原型、团队协作

分类说明

AI IDE(AI 原生编辑器)

深度集成 AI 能力的代码编辑器,提供沉浸式的 AI 编程体验:

  • Cursor - 最流行的 AI 编辑器,支持 Cloud Agents、Composer 2、.cursorrules 配置
  • Windsurf - Cascade Flow 功能强大,实时预览特色鲜明

IDE 插件 + 平台

在现有 IDE 和平台中添加 AI 能力:

  • GitHub Copilot - 业界标准,深度 GitHub 集成,现在有免费计划

对话式助手

通过对话方式进行编程辅助:

  • Claude - 推理能力最强,支持 CLAUDE.md 配置,Claude Code 终端工具
  • ChatGPT - 通用性强,生态丰富,GPTs 商店

命令行工具

在终端中使用的 AI 编程工具:

规范驱动开发

让 AI 编码助手在写代码前先对齐需求的规范框架:

  • OpenSpec - 轻量级 SDD 框架,支持 20+ AI 工具,Propose → Apply → Archive 工作流

工程方法论

围绕 AI Agent 构建约束、反馈和质量保障的方法论:

  • Harness Engineering - 缰绳工程:Prompt → Context → Harness 三层递进,让 AI Agent 安全高效运行的系统工程实践

Web 开发工具

基于浏览器的 AI 开发工具:

  • Replit Agent - 云端 IDE,支持全栈应用快速生成

核心功能对比

项目配置文件

工具 配置文件 用途
Cursor .cursorrules 定义编码规范、最佳实践
Claude Code CLAUDE.md 项目规范、架构决策、编码标准
Aider CONVENTIONS.md 编码约定和风格指南

模型支持

工具 Claude GPT Gemini DeepSeek 本地模型
Cursor ✓ Opus 4.6 ✓ GPT-5.4 ✓ Gemini 3 - -
GitHub Copilot ✓ GPT-5 mini - -
Claude Code ✓ Opus 4.6 - - - -
Aider ✓ 3.7 Sonnet ✓ o3-mini - ✓ R1 & V3 ✓ Ollama
OpenCode -

选择建议

🎯 日常开发首选

  • CursorWindsurf - 如果想要 AI 深度集成到编辑器
  • GitHub Copilot Free - 预算有限时的入门选择

💰 预算有限

  • GitHub Copilot Free - 免费计划,功能足够入门
  • Aider - 开源免费,只需 API 费用
  • OpenCode - 开源免费,多模型支持

🧠 复杂任务

  • Claude Opus 4.6 - 超强推理,适合架构设计
  • Cursor Agent 模式 - 端到端自主开发

⌨️ 终端爱好者

  • OpenCode - 多平台,免费模型,社区活跃
  • Aider - CLI 原生,Git 集成,高度可控
  • Claude Code - Anthropic 官方终端工具

🏢 企业团队

  • GitHub Copilot Business - 团队管理成熟
  • Cursor Business - 隐私控制完善,企业级功能
  • Windsurf Enterprise - 支持自托管

🚀 快速原型

  • Replit Agent - 云端快速开发,团队协作

🎨 前端开发

  • Windsurf - 实时预览,Cascade 模式
  • Cursor/Windsurf - 全栈前端开发

趋势与展望 (2026)

  1. Agent 化 - 从辅助工具到自主执行者的发展趋势
  2. 多模型支持 - 越来越多的工具支持多种 LLM
  3. 上下文增强 - RAG 技术让 AI 更好理解代码库
  4. 开源化 - OpenCode、Aider 等开源工具越来越受欢迎
  5. 免费计划 - GitHub Copilot Free 等免费计划降低门槛
  6. 云端化 - Cloud Agents 允许可并行处理任务
  7. 配置文件 - 项目级配置文件(.cursorrules、CLAUDE.md)成为标准

相关资源

Aider

简介

Aider 是开源的 AI 结对编程命令行工具,在终端中与 AI 协作编辑代码。在 OpenRouter 上排名第一,是终端用户的首选 AI 编程工具。Aider 88% 的新代码由 Aider 自己编写。

核心功能

文件管理

  • /add - 添加文件到聊天会话
  • /drop - 从会话中移除文件
  • 多文件编辑 - 同时编辑多个相关文件
  • 自动上下文 - 自动拉取相关文件的上下文

Git 集成

  • 自动 commit - 自动生成 git commit
  • 语义化提交 - 生成语义化的 commit message
  • /undo - 撤销 AI 的更改
  • diff 查看 - 清晰展示每次代码变更

代码操作

  • 代码重构 - 批量重命名变量、函数等
  • 测试生成 - 自动生成测试代码
  • 代码库地图 - 自动创建整个代码库的地图
  • 100+ 语言支持 - Python, JavaScript, Rust, Go, C++ 等

高级特性

  • 图像支持 - 添加截图、设计图等视觉上下文
  • 网页支持 - 添加网页作为参考文档
  • 语音输入 - 语音命令进行编程
  • 自动 Lint 和测试 - 每次修改后自动运行
  • Watch 模式 - 监听文件变化,自动响应
  • 复制粘贴模式 - 与任何 Web Chat 配合使用
  • CONVENTIONS.md - 指定编码规范

模型支持

  • Claude 3.7 Sonnet - 效果最好
  • DeepSeek R1 & Chat V3 - 高性价比
  • OpenAI o1, o3-mini, GPT-4o - OpenAI 系列
  • 本地模型 - 支持 Ollama 等本地模型
  • 75+ LLM 提供商 - 几乎所有主流模型

核心特性

  • 完全开源 - Apache 2.0 许可,可自托管
  • 终端原生 - 适合命令行用户,高效快捷
  • 精确控制 - 清晰展示每次代码变更
  • 轻量级 - 无需安装 IDE,适合服务器环境
  • 隐私可控 - 可使用本地模型,代码不出境
  • 88% 自身代码 - Aider 88% 的新代码由 Aider 自己编写

使用示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
# 安装
python -m pip install aider-install
aider-install

# 进入项目
cd /to/your/project

# 使用 Claude 3.7 Sonnet
aider --model sonnet --api-key anthropic=<key>

# 使用 DeepSeek
aider --model deepseek --api-key deepseek=<key>

# 添加文件
aider factorial.py

# 在聊天中使用
> Make a program that asks for a number and prints its factorial

# 添加文件
> /add file1.py file2.py

# 移除文件
> /drop file1.py

# 撤销更改
> /undo

CONVENTIONS.md 示例

1
2
3
4
5
6
# 编码规范

- 使用 4 空格缩进
- 函数名使用 snake_case
- 类名使用 PascalCase
- 所有公共函数必须有 docstring

统计数据

  • 42.4k GitHub Stars
  • 5.7M+ 安装次数
  • 15B tokens/周
  • OpenRouter Top 20 应用排名

定价

  • 开源免费 - 软件本身完全免费
  • API 费用 - 需要自行承担 LLM API 费用

相关链接