Gormes

中文研究综述 — 智能体操作系统

Chinese-language academic survey: agentic OS, multi-agent systems, tool learning, memory, sandboxing, benchmarks.

中文研究综述:智能体操作系统与自主智能体

本文综述2024-2026年智能体操作系统(Agentic Operating Systems)及大语言模型驱动的自主智能体领域中英文高水平学术成果,重点关注中国研究团队的贡献。

一、智能体操作系统

1.1 AIOS:LLM Agent Operating System

论文AIOS: LLM Agent Operating System
作者Kai Mei, Zelong Li, Shuyuan Xu, Ruosong Ye, Yingqiang Ge, Yongfeng Zhang
机构南京大学 / UCLA
会议NeurIPS 2024
arXiv2403.16971

首次系统提出将LLM嵌入操作系统内核的架构。LLM内核包含六大模块:

模块功能设计洞见
Agent Scheduler基于FIFO/RR的LLM资源调度智能体即进程,需要调度
Context Manager上下文快照与中断恢复上下文即状态,需要持久化
Memory Manager短期记忆管理活跃任务的工作记忆
Storage Manager长期记忆持久化情景知识库
Tool Manager外部API编排工具即OS服务
Access Manager基于权限组的访问控制智能体间的安全边界

实验结果:多智能体并发吞吐量提升2.1倍;上下文切换延迟降低60-70%;2000并发智能体效率提升3倍。

开源地址:https://github.com/agiresearch/AIOS


1.2 ACOS:Agent-Centric Operating System

论文Agent Centric Operating System
作者Shian Jia, Xinbo Wang, Mingli Song, Gang Chen
机构浙江大学计算机科学与技术学院
arXiv2411.17710

提出以Agent为中心的操作系统(ACOS)概念,将所有系统组件抽象为智能体。核心贡献:

  • 分析现有OS架构演进路径,提出面向AI时代的下一代OS设计方向
  • 核心差异:资源管理粒度从进程级→智能体级;任务调度从确定性→概率-确定性混合
  • 引入"智能体间协议"作为新型IPC机制

1.3 大语言模型智能体操作系统研究综述

论文国防科技大学,2025
期刊Computer Science, DOI: 10.11896/jsjkx.xx

目前最全面的中文Agent OS综述:

  • 分层架构理论:应用层-服务层-内核层
  • 7个关键体系的实验数据汇总,提炼可复用评估指标
  • 三大开放挑战:扩展性、安全和跨模态整合

性能数据:KAOS使会议智能体等待时间从60.2秒降至3.14秒;AutoForma基础CAD任务评分66.5(GPT-4仅17分)。


1.4 Architecting AgentOS(2026)

| arXiv | 2602.20934 |

将经典OS抽象(内存分页、中断处理、进程调度)映射到LLM原生构造:

  • 深度上下文管理:上下文窗口重新定义为"可寻址语义空间"
  • 语义切片:时间对齐的上下文分区以减轻多智能体协作中的认知漂移

二、多智能体协作系统

2.1 MACNet:协作扩展定律

论文基于大型语言模型的多智能体协作扩展研究
作者Chen Qian, Zihao Xie, Maosong Sun
机构清华大学、鹏城实验室
会议ICLR 2025

核心问题:智能体数量增加是否也能带来类似神经扩展定律的性能提升?

关键发现

  1. 性能随智能体数量呈逻辑增长(Logistic Growth),饱和点约100个
  2. 不规则拓扑(如随机图)性能优于规则拓扑,因小世界特性缩短交互路径
  3. 协作涌现早于神经涌现:传统神经扩展需十亿级参数,协作涌现仅需百级智能体

2.2 MegaAgent

论文MegaAgent: A Large-Scale Autonomous LLM-based Multi-Agent System Without Predefined SOPs
作者Qian Wang, Tianyu Wang, et al.
机构华中科技大学
会议ACL 2025 Findings

无需预定义SOP的大规模自主多智能体系统。通过任务复杂度动态生成智能体,实现自动任务分解、并行执行、高效通信和系统级监控。在国家政策模拟中成功扩展至590个智能体


2.3 Puppeteer:动态编排

论文Multi-Agent Collaboration via Evolving Orchestration
作者Yufan Dang, Chen Qian, et al.
机构清华大学
arXiv2505.19591

中央编排器(“puppeteer”)动态选择和排序智能体激活。通过强化学习(REINFORCE)不断更新编排策略,趋向更紧凑的循环推理结构。


2.4 中科大:多智能体协同综述

论文多智能体协同研究进展综述: 博弈和控制交叉视角
作者秦家虎、马麒超、李曼、张聪、付维明、刘轻尘、郑卫新
机构中国科学技术大学
期刊自动化学报, 2025, 51(3): 489−509

从博弈与控制融合视角系统梳理多智能体协同进展。建立协同控制与估计领域的进展回顾框架,分析微分博弈下的多智能体协同建模方法,总结强化学习算法求解博弈均衡的路径。


三、工具调用与工具学习

3.1 ToolACE(ICLR 2025)

自动化函数调用数据生成流水线:

模块功能
工具自演化合成(TSS)LLM作为评估器,生成26,507个多样化API
自引导复杂化策略多智能体交互生成四种调用类型
双层验证系统规则验证+模型验证

仅用8B参数即超越GPT-4。


3.2 ToolCoder(2025)

| arXiv | 2502.11404 |

将工具学习重构为代码生成任务。成功执行的代码片段存储到函数仓库供复用,利用错误回溯机制系统化调试。中国科学院大学、阿里巴巴合作。


3.3 InfTool(2025)

| arXiv | 2512.23611 |

完全自主、无需人工标注的自我演化框架。三类协作智能体从原始API规范生成多样化、已验证的轨迹。闭环:合成数据训练模型 → 改进模型生成更高质量数据。InfTool-7B(61.7)超越GPT-5.2(60.4)在BFCL基准上。


3.4 Tool-R1(2025)

| arXiv | 2509.12867 |

通过强化学习训练LLM实现通用、组合式、多步骤工具使用。基于结果的奖励函数结合LLM判断和代码执行成功率。在GAIA基准上提升约10%准确率。


四、代码执行沙箱

4.1 OpenSandbox(阿里巴巴)

开源地址:https://github.com/alibaba/OpenSandbox

通用安全沙箱运行时:

  • 多语言SDK(Python, Java/Kotlin, TypeScript/C#, Go)
  • 支持gVisor、Kata Containers和Firecracker microVM
  • 统一入口网关,多种路由策略
  • 覆盖编码智能体、GUI智能体、RL训练等场景

4.2 AgentBay(阿里云)

面向AI Agent的云原生操作环境,提供安全且高度隔离的沙箱:

  • 硬件虚拟化隔离:每个沙箱运行在独立VM中(内核级隔离)
  • VPC网络隔离:沙箱实例无公网IP,默认拒绝所有入站连接
  • 会话临时性设计:超时或终止后自动回收销毁
  • 记忆隔离:同一租户内多会话间上下文和历史记录相互隔离

4.3 Fault-Tolerant Sandboxing(2025)

| arXiv | 2512.12806 |

事务性原子执行方案:100%高风险命令拦截率,100%失败状态回滚成功率,性能开销约14.5%(每次事务约1.8秒)。


五、人机协同系统

5.1 ReHAC(EMNLP 2024 Findings)

| 机构 | 清华大学、中国人民大学 |

首篇系统性研究LLM基础的人机协作范式。基于强化学习训练策略模型决定人类干预的最优时机。核心发现:有限、计划性的人类干预是关键——过多干预反而降低效果。HotpotQA上平均相对提升25.8%。


5.2 DPT-Agent(ACL 2025)

| 机构 | 上海交通大学 |

首次实现自主实时同步人机协作的语言智能体框架。双过程理论:

  • 系统1:基于有限状态机(FSM)和代码即策略的快速决策
  • 系统2:集成心理理论(ToM)和异步反思的深度推理

六、评估基准

6.1 OSWorld(NeurIPS 2024)

| 机构 | 上海人工智能实验室、University at Buffalo等 |

首个可扩展的真实计算机环境多模态智能体基准:369个真实计算机任务,支持Ubuntu/Windows/macOS。人类完成率72.36%,最佳模型仅12.24%。主要短板在GUI定位和操作知识。


6.2 OAgents(EMNLP 2025 Findings)

| 机构 | 多个中国高校联合 |

对GAIA基准的系统实证研究。核心发现:缺乏标准评估协议导致以前工作无法复现;通过实证研究揭示哪些组件是构建有效智能体的关键。


七、开源智能体系统对比

框架开发方语言核心特色许可证
OpenCodeAnomalyTypeScript/Bun75+提供商、事件总线MIT
Hermes AgentNous ResearchPythonGEPA自进化、15+消息平台MIT
AgentScope阿里/高校联盟Python零代码工作站、Actor分布式Apache 2.0
LightAgentPython~1000行极简实现开源
GormesTrebuchet DynamicsGo单二进制、零Python依赖MIT

八、研究空白与未来方向

  1. 大规模长期运行Agent的稳定性:“灵魂侵蚀”(Soul Erosion)问题研究不足
  2. 异构多智能体资源调度:动态环境下实时调度算法仍需突破
  3. Agent OS标准化接口:工具、记忆、协作协议尚未统一
  4. 中文领域系统性梳理:相比英文综述的丰富性,中文领域尚缺全栈技术系统性综述

本综述基于2024-2026年公开学术成果整理。因研究领域发展迅速,建议关注各论文arXiv最新版本。