中文研究综述 — 智能体操作系统

Chinese-language academic survey: agentic OS, multi-agent systems, tool learning, memory, sandboxing, benchmarks.

中文研究综述：智能体操作系统与自主智能体

本文综述2024-2026年智能体操作系统（Agentic Operating Systems）及大语言模型驱动的自主智能体领域中英文高水平学术成果，重点关注中国研究团队的贡献。

一、智能体操作系统

1.1 AIOS：LLM Agent Operating System

论文	AIOS: LLM Agent Operating System
作者	Kai Mei, Zelong Li, Shuyuan Xu, Ruosong Ye, Yingqiang Ge, Yongfeng Zhang
机构	南京大学 / UCLA
会议	NeurIPS 2024
arXiv	2403.16971

首次系统提出将LLM嵌入操作系统内核的架构。LLM内核包含六大模块：

模块	功能	设计洞见
Agent Scheduler	基于FIFO/RR的LLM资源调度	智能体即进程，需要调度
Context Manager	上下文快照与中断恢复	上下文即状态，需要持久化
Memory Manager	短期记忆管理	活跃任务的工作记忆
Storage Manager	长期记忆持久化	情景知识库
Tool Manager	外部API编排	工具即OS服务
Access Manager	基于权限组的访问控制	智能体间的安全边界

实验结果：多智能体并发吞吐量提升2.1倍；上下文切换延迟降低60-70%；2000并发智能体效率提升3倍。

开源地址：https://github.com/agiresearch/AIOS

1.2 ACOS：Agent-Centric Operating System

论文	Agent Centric Operating System
作者	Shian Jia, Xinbo Wang, Mingli Song, Gang Chen
机构	浙江大学计算机科学与技术学院
arXiv	2411.17710

提出以Agent为中心的操作系统（ACOS）概念，将所有系统组件抽象为智能体。核心贡献：

分析现有OS架构演进路径，提出面向AI时代的下一代OS设计方向
核心差异：资源管理粒度从进程级→智能体级；任务调度从确定性→概率-确定性混合
引入"智能体间协议"作为新型IPC机制

1.3 大语言模型智能体操作系统研究综述

论文	国防科技大学，2025
期刊	Computer Science, DOI: 10.11896/jsjkx.xx

目前最全面的中文Agent OS综述：

分层架构理论：应用层-服务层-内核层
7个关键体系的实验数据汇总，提炼可复用评估指标
三大开放挑战：扩展性、安全和跨模态整合

性能数据：KAOS使会议智能体等待时间从60.2秒降至3.14秒；AutoForma基础CAD任务评分66.5（GPT-4仅17分）。

1.4 Architecting AgentOS（2026）

| arXiv | 2602.20934 |

将经典OS抽象（内存分页、中断处理、进程调度）映射到LLM原生构造：

深度上下文管理：上下文窗口重新定义为"可寻址语义空间"
语义切片：时间对齐的上下文分区以减轻多智能体协作中的认知漂移

二、多智能体协作系统

2.1 MACNet：协作扩展定律

论文	基于大型语言模型的多智能体协作扩展研究
作者	Chen Qian, Zihao Xie, Maosong Sun
机构	清华大学、鹏城实验室
会议	ICLR 2025

核心问题：智能体数量增加是否也能带来类似神经扩展定律的性能提升？

关键发现：

性能随智能体数量呈逻辑增长（Logistic Growth），饱和点约100个
不规则拓扑（如随机图）性能优于规则拓扑，因小世界特性缩短交互路径
协作涌现早于神经涌现：传统神经扩展需十亿级参数，协作涌现仅需百级智能体

2.2 MegaAgent

论文	MegaAgent: A Large-Scale Autonomous LLM-based Multi-Agent System Without Predefined SOPs
作者	Qian Wang, Tianyu Wang, et al.
机构	华中科技大学
会议	ACL 2025 Findings

无需预定义SOP的大规模自主多智能体系统。通过任务复杂度动态生成智能体，实现自动任务分解、并行执行、高效通信和系统级监控。在国家政策模拟中成功扩展至590个智能体。

2.3 Puppeteer：动态编排

论文	Multi-Agent Collaboration via Evolving Orchestration
作者	Yufan Dang, Chen Qian, et al.
机构	清华大学
arXiv	2505.19591

中央编排器（“puppeteer”）动态选择和排序智能体激活。通过强化学习（REINFORCE）不断更新编排策略，趋向更紧凑的循环推理结构。

2.4 中科大：多智能体协同综述

论文	多智能体协同研究进展综述: 博弈和控制交叉视角
作者	秦家虎、马麒超、李曼、张聪、付维明、刘轻尘、郑卫新
机构	中国科学技术大学
期刊	自动化学报, 2025, 51(3): 489−509

从博弈与控制融合视角系统梳理多智能体协同进展。建立协同控制与估计领域的进展回顾框架，分析微分博弈下的多智能体协同建模方法，总结强化学习算法求解博弈均衡的路径。

三、工具调用与工具学习

3.1 ToolACE（ICLR 2025）

自动化函数调用数据生成流水线：

模块	功能
工具自演化合成（TSS）	LLM作为评估器，生成26,507个多样化API
自引导复杂化策略	多智能体交互生成四种调用类型
双层验证系统	规则验证+模型验证

仅用8B参数即超越GPT-4。

3.2 ToolCoder（2025）

| arXiv | 2502.11404 |

将工具学习重构为代码生成任务。成功执行的代码片段存储到函数仓库供复用，利用错误回溯机制系统化调试。中国科学院大学、阿里巴巴合作。

3.3 InfTool（2025）

| arXiv | 2512.23611 |

完全自主、无需人工标注的自我演化框架。三类协作智能体从原始API规范生成多样化、已验证的轨迹。闭环：合成数据训练模型 → 改进模型生成更高质量数据。InfTool-7B（61.7）超越GPT-5.2（60.4）在BFCL基准上。

3.4 Tool-R1（2025）

| arXiv | 2509.12867 |

通过强化学习训练LLM实现通用、组合式、多步骤工具使用。基于结果的奖励函数结合LLM判断和代码执行成功率。在GAIA基准上提升约10%准确率。

四、代码执行沙箱

4.1 OpenSandbox（阿里巴巴）

开源地址：https://github.com/alibaba/OpenSandbox

通用安全沙箱运行时：

多语言SDK（Python, Java/Kotlin, TypeScript/C#, Go）
支持gVisor、Kata Containers和Firecracker microVM
统一入口网关，多种路由策略
覆盖编码智能体、GUI智能体、RL训练等场景

4.2 AgentBay（阿里云）

面向AI Agent的云原生操作环境，提供安全且高度隔离的沙箱：

硬件虚拟化隔离：每个沙箱运行在独立VM中（内核级隔离）
VPC网络隔离：沙箱实例无公网IP，默认拒绝所有入站连接
会话临时性设计：超时或终止后自动回收销毁
记忆隔离：同一租户内多会话间上下文和历史记录相互隔离

4.3 Fault-Tolerant Sandboxing（2025）

| arXiv | 2512.12806 |

事务性原子执行方案：100%高风险命令拦截率，100%失败状态回滚成功率，性能开销约14.5%（每次事务约1.8秒）。

五、人机协同系统

5.1 ReHAC（EMNLP 2024 Findings）

| 机构 | 清华大学、中国人民大学 |

首篇系统性研究LLM基础的人机协作范式。基于强化学习训练策略模型决定人类干预的最优时机。核心发现：有限、计划性的人类干预是关键——过多干预反而降低效果。HotpotQA上平均相对提升25.8%。

5.2 DPT-Agent（ACL 2025）

| 机构 | 上海交通大学 |

首次实现自主实时同步人机协作的语言智能体框架。双过程理论：

系统1：基于有限状态机（FSM）和代码即策略的快速决策
系统2：集成心理理论（ToM）和异步反思的深度推理

六、评估基准

6.1 OSWorld（NeurIPS 2024）

| 机构 | 上海人工智能实验室、University at Buffalo等 |

首个可扩展的真实计算机环境多模态智能体基准：369个真实计算机任务，支持Ubuntu/Windows/macOS。人类完成率72.36%，最佳模型仅12.24%。主要短板在GUI定位和操作知识。

6.2 OAgents（EMNLP 2025 Findings）

| 机构 | 多个中国高校联合 |

对GAIA基准的系统实证研究。核心发现：缺乏标准评估协议导致以前工作无法复现；通过实证研究揭示哪些组件是构建有效智能体的关键。

七、开源智能体系统对比

框架	开发方	语言	核心特色	许可证
OpenCode	Anomaly	TypeScript/Bun	75+提供商、事件总线	MIT
Hermes Agent	Nous Research	Python	GEPA自进化、15+消息平台	MIT
AgentScope	阿里/高校联盟	Python	零代码工作站、Actor分布式	Apache 2.0
LightAgent	—	Python	~1000行极简实现	开源
Gormes	Trebuchet Dynamics	Go	单二进制、零Python依赖	MIT

八、研究空白与未来方向

大规模长期运行Agent的稳定性：“灵魂侵蚀”（Soul Erosion）问题研究不足
异构多智能体资源调度：动态环境下实时调度算法仍需突破
Agent OS标准化接口：工具、记忆、协作协议尚未统一
中文领域系统性梳理：相比英文综述的丰富性，中文领域尚缺全栈技术系统性综述

本综述基于2024-2026年公开学术成果整理。因研究领域发展迅速，建议关注各论文arXiv最新版本。