summary: "从 12-Agent 蓝图出发，讨论多 Agent 系统如何通过控制层拆分、前移质量门、量化进化与分层记忆，演化成可验证、可回退、可长期维护的 AI-OS。"

自进化 Multi-Agent AI-OS 架构：从 12-Agent 蓝图到可稳定进化的工程实现

这篇文章讨论的不是“再多加几个 Agent”，而是：怎样把一个能工作的多 Agent 系统，改造成一个能持续进化、可验证、可回退、可长期维护的工程系统。

核心问题并不在 Agent 数量，而在于四件事：

控制是否单点集中
质量检查是否太晚
优化是否有量化依据
记忆是否会无限膨胀

如果这些问题不解决，Agent 越多，系统越容易变成一个复杂但脆弱的黑箱。

原始架构的六个结构性隐患

原始 12-Agent 方案方向没错，但落地时有几个非常典型的工程问题：

Orchestrator 单点故障
- 同时负责目标理解、任务拆解、调度、结果整合、状态维护
- 一旦上下文爆炸或逻辑跑偏，整个系统一起偏
进化循环没有量化标准
- Learning Agent 只能“凭感觉总结经验”
- 优化方向不可验证，容易陷入随机漂移
质量控制纯后验
- 任务全做完才检查
- 如果方向错了，前面的成本全部白费
记忆无限膨胀
- 所有经验都堆进一个长期记忆池
- 上下文窗口迟早失控
同层 Agent 不能直接协作
- 一切都要经由 Orchestrator 中转
- 简单协作也变成重调度
零容错
- 某个 Agent 一旦超时、答非所问、拒答，流程就断

一句话总结：

原始架构更像“演示级 Agent 编排”，不是“生产级 AI 操作系统”。

优化后的总体方向

优化目标不是单纯“多加两个 Agent”，而是把系统重构成四层：

控制层：把规划和调度分开
核心工作层：让专业 Agent 并行协作
质量门：让检查前移，而不是事后验尸
进化引擎：用量化评估驱动优化，并通过 Staging 验证后再生效

这个改法把原系统从“任务执行器”，提升成“能学习、能纠错、能稳定迭代的 AI-OS”。

第一层：控制层双核分离

原来的 Orchestrator 被拆成两个角色：

1）Planner

负责：

理解用户目标
拆任务
建依赖图
设置中间检查点

它的工作不是执行，而是生成结构化计划。

2）Coordinator

负责：

调度各 Agent
收集中间结果
处理失败、重试、降级
输出最终整合结果

它的工作不是理解目标，而是执行和收口。

为什么这很重要？

因为“理解目标”和“调度执行”是两种完全不同的负担。把它们塞进一个单点角色里，迟早失稳。

拆开以后：

Planner 出问题，不会直接污染调度流
Coordinator 出问题，不会直接污染目标建模
两者还能互相校验

控制分离，是让多 Agent 系统从单脑过载走向结构化协作的第一步。

第二层：核心工作层从“孤岛”变成“协作层”

核心工作层保留六类专业角色：

Researcher：资料搜集、技术背景、事实收集
Analyst：数据分析、推理、方案比较
Programmer：代码实现、脚本、调试
Architect：系统设计、边界划分、技术选型
Editor：文案结构、表达、报告整理
Designer：视觉、图示、界面概念

改进不在于角色名单，而在于协作方式：

原先的方式是：

每个人都只和 Orchestrator 讲话

优化后：

同层 Agent 允许直接通信
但所有协作结果必须同步到统一记忆系统

这样一来：

Researcher 和 Analyst 可以直接对齐证据和推理
Architect 和 Programmer 可以快速协作
Editor 和 Designer 可以直接统一内容与视觉

不需要所有信息都回主协调一遍再转发。

同层直连让系统从“排队办事”升级成“真正并行工作”。

第三层：质量门必须前移（Shift-Left）

这是整套架构里我最认同的一刀。

传统多 Agent 系统的常见做法是：

全部做完
最后让 Critic/Verifier 看一眼

这个做法的问题是：

错误发现太晚
大任务返工成本巨大
中间路径错误时根本没有刹车

优化后，质量检查变成三段：

1）计划审查

Planner 输出计划后，Critic 先检查：

逻辑是否通
是否漏关键步骤
是否存在明显风险

2）中间验证

关键中间产物出来时，Verifier 就要介入：

架构设计是否自洽
代码初版是否能跑
草稿引用是否准确

3）终态检查

最后才是完整交付前的收口验证。

这等于把“质量控制”从终点后置，变成过程内嵌。

真正成熟的系统，不是最后检查得多严格，而是中途就不让错误滚雪球。

第四层：进化引擎必须量化，不然就是玄学

原始设计里有：

Learning Agent
Optimizer

听起来很先进，但如果没有量化评估，这种“学习”和“优化”很容易退化成：

总结一些模糊经验
然后盲目调 prompt
再用感觉判断是不是更好了

这不叫进化，这叫调参碰运气。

所以必须新增一个角色：Evaluator

Evaluator 的作用是：

把每次任务表现量化
输出标准化评分
提供优化依据

可量化的指标包括：

正确性：有没有通过 Critic / Verifier
效率：步骤数、耗时、token 消耗
稳定性：重试次数、降级次数、熔断次数
质量：输出质量评分或用户反馈

有了 Evaluator，Learning Agent 才能真正回答：

哪种 Agent 组合更稳
哪套提示词更可靠
哪种调度方式更省资源

更关键的是：优化不能直接生效

Optimizer 给出的方案，必须先进入 Staging：

先在低风险任务试跑
对比旧策略与新策略
用 Evaluator 量化结果
通过后再正式合并

这一步特别重要。

没有 Staging 的自进化系统，本质上是在拿线上系统做随机实验。

记忆系统必须分层，不然最后一定爆

很多 Agent 系统都会掉进一个坑：

“把所有有用的信息都存起来。”

看起来聪明，实际上非常危险。

正确方式应该是三层：

1）Working Memory

当前任务上下文
任务结束就清理
保持轻量

2）Project Memory

项目级长期状态
保留跨任务有用的信息
项目结束后归档或清理

3）Knowledge Base

从多个项目中提炼出的通用策略
只收高置信度经验
定期做去重和衰减

记忆流动规则应该是：

当前任务里反复复用的东西 → 提升到 Project Memory
多项目反复成立的规律 → 提升到 Knowledge Base
长期不用的内容 → 降权或归档

记忆不是越多越强，关键在于分层、筛选和淘汰。

容错、降级、熔断：必须是内建机制

LLM 系统不稳定是常态，不是例外。

所以一个能上线的多 Agent 架构，至少要内建三种机制：

1）重试

第一次失败后自动重试，但不能原样重试，应该：

简化 prompt
增加约束
缩小任务范围

2）降级

如果某 Agent 持续失败，要允许降级：

Analyst 不可用时，Researcher 先做粗分析
Designer 不可用时，Editor 给出结构替代方案

3）熔断

如果某 Agent 连续失败：

暂时移出可用池
进入冷却期
避免系统反复把任务扔给一个坏掉的角色

容错不是锦上添花，而是让多 Agent 系统能长期运行的底盘。

原始架构 vs 优化架构

可以概括成下面这几组差异：

| 维度 | 原始架构 | 优化架构 | |---|---|---| | 控制中心 | 单点 Orchestrator | Planner + Coordinator 双核 | | 质量检查 | 纯后验 | 阶段性前移 | | 进化依据 | 模糊经验 | Evaluator 量化评分 | | 优化上线 | 直接覆盖 | Staging → 验证 → 合并 | | 记忆 | 单层 MEMORY.md | 三层分级记忆 | | 协作方式 | 全部经中转 | 同层直连 + 记录同步 | | 容错 | 几乎没有 | 重试 / 降级 / 熔断 |

一句话：

原始版是“能工作”，优化版是“能长期工作”。

推荐部署路线：别一步到位

如果真要把这套系统落地，我不建议一上来就 14 Agent 全开。

Phase 1：最小可用系统（7 Agents）

优先保留：

Planner
Coordinator
Researcher
Programmer
Editor
Critic
Evaluator

目的：

先把控制分离、阶段检查、量化评估跑起来

Phase 2：完整工作系统（11 Agents）

再补：

Analyst
Architect
Designer
Verifier

目的：

把执行层和质量门补完整

Phase 3：自进化完整体（14 Agents）

最后再补：

Memory Manager
Learning Agent
Optimizer

目的：

让系统真正具备自我改进能力

这套顺序的好处是：

每一阶段都能独立产生价值
风险可控
出问题时容易定位

复杂系统最怕一次性上满配置。渐进部署，才是工程理性。

最后总结：这套架构真正解决了什么？

它不是简单“让 Agent 更多”，而是把多 Agent 系统从以下状态：

单点集中
后验检查
模糊进化
记忆堆积
零容错

升级成：

控制分离
过程质检
量化驱动
分层记忆
可回退进化
容错降级

如果要给这套架构一个核心原则，我会总结成五句：

控制分离优于单点集中
量化评估优于模糊直觉
阶段检查优于终态审查
Staging 验证优于直接覆盖
渐进部署优于一步到位

这不是“理论上更优雅”的改造，而是让多 Agent 从 Demo 走向生产可用的关键步骤。

如果你真的想做一个能长期演化的 AI-OS，这些机制不是加分项，是地基。