中文研究综述 — 智能体操作系统
Chinese-language academic survey: agentic OS, multi-agent systems, tool learning, memory, sandboxing, benchmarks.
中文研究综述:智能体操作系统与自主智能体
本文综述2024-2026年智能体操作系统(Agentic Operating Systems)及大语言模型驱动的自主智能体领域中英文高水平学术成果,重点关注中国研究团队的贡献。
一、智能体操作系统
1.1 AIOS:LLM Agent Operating System
| 论文 | AIOS: LLM Agent Operating System |
|---|---|
| 作者 | Kai Mei, Zelong Li, Shuyuan Xu, Ruosong Ye, Yingqiang Ge, Yongfeng Zhang |
| 机构 | 南京大学 / UCLA |
| 会议 | NeurIPS 2024 |
| arXiv | 2403.16971 |
首次系统提出将LLM嵌入操作系统内核的架构。LLM内核包含六大模块:
| 模块 | 功能 | 设计洞见 |
|---|---|---|
| Agent Scheduler | 基于FIFO/RR的LLM资源调度 | 智能体即进程,需要调度 |
| Context Manager | 上下文快照与中断恢复 | 上下文即状态,需要持久化 |
| Memory Manager | 短期记忆管理 | 活跃任务的工作记忆 |
| Storage Manager | 长期记忆持久化 | 情景知识库 |
| Tool Manager | 外部API编排 | 工具即OS服务 |
| Access Manager | 基于权限组的访问控制 | 智能体间的安全边界 |
实验结果:多智能体并发吞吐量提升2.1倍;上下文切换延迟降低60-70%;2000并发智能体效率提升3倍。
开源地址:https://github.com/agiresearch/AIOS
1.2 ACOS:Agent-Centric Operating System
| 论文 | Agent Centric Operating System |
|---|---|
| 作者 | Shian Jia, Xinbo Wang, Mingli Song, Gang Chen |
| 机构 | 浙江大学计算机科学与技术学院 |
| arXiv | 2411.17710 |
提出以Agent为中心的操作系统(ACOS)概念,将所有系统组件抽象为智能体。核心贡献:
- 分析现有OS架构演进路径,提出面向AI时代的下一代OS设计方向
- 核心差异:资源管理粒度从进程级→智能体级;任务调度从确定性→概率-确定性混合
- 引入"智能体间协议"作为新型IPC机制
1.3 大语言模型智能体操作系统研究综述
| 论文 | 国防科技大学,2025 |
|---|---|
| 期刊 | Computer Science, DOI: 10.11896/jsjkx.xx |
目前最全面的中文Agent OS综述:
- 分层架构理论:应用层-服务层-内核层
- 7个关键体系的实验数据汇总,提炼可复用评估指标
- 三大开放挑战:扩展性、安全和跨模态整合
性能数据:KAOS使会议智能体等待时间从60.2秒降至3.14秒;AutoForma基础CAD任务评分66.5(GPT-4仅17分)。
1.4 Architecting AgentOS(2026)
| arXiv | 2602.20934 |
将经典OS抽象(内存分页、中断处理、进程调度)映射到LLM原生构造:
- 深度上下文管理:上下文窗口重新定义为"可寻址语义空间"
- 语义切片:时间对齐的上下文分区以减轻多智能体协作中的认知漂移
二、多智能体协作系统
2.1 MACNet:协作扩展定律
| 论文 | 基于大型语言模型的多智能体协作扩展研究 |
|---|---|
| 作者 | Chen Qian, Zihao Xie, Maosong Sun |
| 机构 | 清华大学、鹏城实验室 |
| 会议 | ICLR 2025 |
核心问题:智能体数量增加是否也能带来类似神经扩展定律的性能提升?
关键发现:
- 性能随智能体数量呈逻辑增长(Logistic Growth),饱和点约100个
- 不规则拓扑(如随机图)性能优于规则拓扑,因小世界特性缩短交互路径
- 协作涌现早于神经涌现:传统神经扩展需十亿级参数,协作涌现仅需百级智能体
2.2 MegaAgent
| 论文 | MegaAgent: A Large-Scale Autonomous LLM-based Multi-Agent System Without Predefined SOPs |
|---|---|
| 作者 | Qian Wang, Tianyu Wang, et al. |
| 机构 | 华中科技大学 |
| 会议 | ACL 2025 Findings |
无需预定义SOP的大规模自主多智能体系统。通过任务复杂度动态生成智能体,实现自动任务分解、并行执行、高效通信和系统级监控。在国家政策模拟中成功扩展至590个智能体。
2.3 Puppeteer:动态编排
| 论文 | Multi-Agent Collaboration via Evolving Orchestration |
|---|---|
| 作者 | Yufan Dang, Chen Qian, et al. |
| 机构 | 清华大学 |
| arXiv | 2505.19591 |
中央编排器(“puppeteer”)动态选择和排序智能体激活。通过强化学习(REINFORCE)不断更新编排策略,趋向更紧凑的循环推理结构。
2.4 中科大:多智能体协同综述
| 论文 | 多智能体协同研究进展综述: 博弈和控制交叉视角 |
|---|---|
| 作者 | 秦家虎、马麒超、李曼、张聪、付维明、刘轻尘、郑卫新 |
| 机构 | 中国科学技术大学 |
| 期刊 | 自动化学报, 2025, 51(3): 489−509 |
从博弈与控制融合视角系统梳理多智能体协同进展。建立协同控制与估计领域的进展回顾框架,分析微分博弈下的多智能体协同建模方法,总结强化学习算法求解博弈均衡的路径。
三、工具调用与工具学习
3.1 ToolACE(ICLR 2025)
自动化函数调用数据生成流水线:
| 模块 | 功能 |
|---|---|
| 工具自演化合成(TSS) | LLM作为评估器,生成26,507个多样化API |
| 自引导复杂化策略 | 多智能体交互生成四种调用类型 |
| 双层验证系统 | 规则验证+模型验证 |
仅用8B参数即超越GPT-4。
3.2 ToolCoder(2025)
| arXiv | 2502.11404 |
将工具学习重构为代码生成任务。成功执行的代码片段存储到函数仓库供复用,利用错误回溯机制系统化调试。中国科学院大学、阿里巴巴合作。
3.3 InfTool(2025)
| arXiv | 2512.23611 |
完全自主、无需人工标注的自我演化框架。三类协作智能体从原始API规范生成多样化、已验证的轨迹。闭环:合成数据训练模型 → 改进模型生成更高质量数据。InfTool-7B(61.7)超越GPT-5.2(60.4)在BFCL基准上。
3.4 Tool-R1(2025)
| arXiv | 2509.12867 |
通过强化学习训练LLM实现通用、组合式、多步骤工具使用。基于结果的奖励函数结合LLM判断和代码执行成功率。在GAIA基准上提升约10%准确率。
四、代码执行沙箱
4.1 OpenSandbox(阿里巴巴)
开源地址:https://github.com/alibaba/OpenSandbox
通用安全沙箱运行时:
- 多语言SDK(Python, Java/Kotlin, TypeScript/C#, Go)
- 支持gVisor、Kata Containers和Firecracker microVM
- 统一入口网关,多种路由策略
- 覆盖编码智能体、GUI智能体、RL训练等场景
4.2 AgentBay(阿里云)
面向AI Agent的云原生操作环境,提供安全且高度隔离的沙箱:
- 硬件虚拟化隔离:每个沙箱运行在独立VM中(内核级隔离)
- VPC网络隔离:沙箱实例无公网IP,默认拒绝所有入站连接
- 会话临时性设计:超时或终止后自动回收销毁
- 记忆隔离:同一租户内多会话间上下文和历史记录相互隔离
4.3 Fault-Tolerant Sandboxing(2025)
| arXiv | 2512.12806 |
事务性原子执行方案:100%高风险命令拦截率,100%失败状态回滚成功率,性能开销约14.5%(每次事务约1.8秒)。
五、人机协同系统
5.1 ReHAC(EMNLP 2024 Findings)
| 机构 | 清华大学、中国人民大学 |
首篇系统性研究LLM基础的人机协作范式。基于强化学习训练策略模型决定人类干预的最优时机。核心发现:有限、计划性的人类干预是关键——过多干预反而降低效果。HotpotQA上平均相对提升25.8%。
5.2 DPT-Agent(ACL 2025)
| 机构 | 上海交通大学 |
首次实现自主实时同步人机协作的语言智能体框架。双过程理论:
- 系统1:基于有限状态机(FSM)和代码即策略的快速决策
- 系统2:集成心理理论(ToM)和异步反思的深度推理
六、评估基准
6.1 OSWorld(NeurIPS 2024)
| 机构 | 上海人工智能实验室、University at Buffalo等 |
首个可扩展的真实计算机环境多模态智能体基准:369个真实计算机任务,支持Ubuntu/Windows/macOS。人类完成率72.36%,最佳模型仅12.24%。主要短板在GUI定位和操作知识。
6.2 OAgents(EMNLP 2025 Findings)
| 机构 | 多个中国高校联合 |
对GAIA基准的系统实证研究。核心发现:缺乏标准评估协议导致以前工作无法复现;通过实证研究揭示哪些组件是构建有效智能体的关键。
七、开源智能体系统对比
| 框架 | 开发方 | 语言 | 核心特色 | 许可证 |
|---|---|---|---|---|
| OpenCode | Anomaly | TypeScript/Bun | 75+提供商、事件总线 | MIT |
| Hermes Agent | Nous Research | Python | GEPA自进化、15+消息平台 | MIT |
| AgentScope | 阿里/高校联盟 | Python | 零代码工作站、Actor分布式 | Apache 2.0 |
| LightAgent | — | Python | ~1000行极简实现 | 开源 |
| Gormes | Trebuchet Dynamics | Go | 单二进制、零Python依赖 | MIT |
八、研究空白与未来方向
- 大规模长期运行Agent的稳定性:“灵魂侵蚀”(Soul Erosion)问题研究不足
- 异构多智能体资源调度:动态环境下实时调度算法仍需突破
- Agent OS标准化接口:工具、记忆、协作协议尚未统一
- 中文领域系统性梳理:相比英文综述的丰富性,中文领域尚缺全栈技术系统性综述
本综述基于2024-2026年公开学术成果整理。因研究领域发展迅速,建议关注各论文arXiv最新版本。