Cradle 是由 BAAI‑Agents 团队开源的一款面向 通用计算机控制(GCC) 的多模态 AI Agent 框架,可以让大型多模态模型,通过截图输入和键鼠输出,像人一样使用各种软件和游戏。
- 通用目标:支持任意本地软件(如游戏、Office、图像/视频编辑工具)
- 多模态输入:以截图为输入,支持键盘鼠标操作输出
- 自主能力:内置“认知反思+技能更新”模块,能不断自我优化
- 模块化设计:兼顾高可控性和扩展性,轻松适配新环境
痛点场景
自 GPT 系列大师诞生后,LLM 迎来爆发式成长。但它们依赖“API 文本输入输出”,迟迟无法控制本地界面,本地任务自动化仍然困难:
- 操作 Office、可视化软件受限
- 拆分复杂任务,难以形成闭环
- 缺乏视觉能力,仅凭语言无法定位 UI 元素
- 无法长时间记忆历史,执行多步逻辑不足
Cradle 正是为解决这些痛点设计的:
- 可控制鼠标、键盘,模拟人类操作
- 强化“自我反思”“技能优化”策略
- 支持长程任务、复合游戏环境、专业软件操作
核心功能
下面盘点 Cradle 的 6 大核心模块功能:
- 信息收集(Information Gathering)
- 利用视觉模型处理 UI 截图、文字信息
- 可接入音频反馈,完成联觉输入
- 自我反思(Self‑Reflection)
- 回顾历史操作成果,判断是否达成
- 总结失败原因,为下一步运行提供指导
- 任务推断(Task Inference)
- 基于环境+历史记忆,推断当前目标
- 动态规划接下来最优策略
- 技能策划(Skill Curation)
- 每个任务生成或更新技能函数
- 按环境定制化策略,实现经验积累
- 动作规划(Action Planning)
- LLM 输出高层操作(如“点击 X”“移动鼠标到 Y”)
- 人写桥接层翻译为键鼠动作
- 记忆模块(Memory)
- 分为短期与长期记忆,含历史记录
- 支持跨任务复用记忆与技能
这些模块构成一套闭环:输入截图 → 所见 → 自省 → 规划 → 执行 → 记忆反馈。
实验证明,Cradle 可完成:
- AAA 游戏:Red Dead Redemption 2 主线任务、高成功率完成;
- 市政游戏:Cities: Skylines 打造千人城市;
- 农场游戏:Stardew Valley 自动播种收获;
- 经营游戏:Dealer’s Life 2 实现 87% 最高周盈利;
- 办公软件:登录 Chrome、回复 Outlook、使用 Feishu;
- 编辑工具:美图秀秀、CapCut 图像/视频处理。
技术架构

技术优势一览表
技术优势 | 描述 |
---|---|
完全无 API 洞察 | 不依赖 UI 内部接口,适配广泛软件 |
高度模块化配置 | 易扩展至新游戏或软件环境 |
能力逐步增强 | LLM + 自反思 + 记忆技术,支持自提升 |
通用操作接口 | 截图 + 键鼠输出,真正通用 |
界面示意

应用场景
- R&D AI Agent 能自主模拟用户操作,替代 UI API 测试https://wxa.wxs.qq.com/tmpl/mi/base_tmpl.html
- 自动化办公: 大量重复任务(邮件、表格、报表)可彻底自动化
- 游戏 AI 研发: 成为游戏内智能体,测试任务/训练 NPC
- 流程自动化:提供 UI 自动流水线,少依赖传统 RPA
- 教育培训: Cradle 可演示操作方法,辅助学员理解复杂软件
谁更强?
框架项目 | 支持模式 | 是否依赖 API | 关键需求 | 核心优势 |
---|---|---|---|---|
Cradle | 截图 + 键鼠操作 | ❌ 无 API | 完整闭环、自主学习 | 通用性、模块化、适配广 |
LangChain Agent | 文本 API 输入输出 | ✅ 有 API | 文本指令 / HTTP 请求 | 精于信息检索、文本管理 |
AutoHotkey / RPA 等 | 键鼠宏 | ❌ 无 API | 单步宏操作,缺记忆规划 | 易用但智力低,自提升弱 |
Playwright/Selenium | DOM 操作 API | ✅ DOM API | 网页自动化 | 擅长网页,局限性大于桌面 |
优势结论:Cradle 领先于传统或网页自动化工具,是多模态、具备认知能力的“通用软件执行体”。
文章小结
- Cradle 是首个通用软件控制 AI Agent,支持各种本地软件和 AAA 游戏操作
- 核心为 6 大模块,具备自思考、自学习、自适应能力
- 技术架构模块化、可维护性强
- 相比传统工具,Cradle 拥有视频级体验、全局闭环智能
- 适用研发自动化、办公、游戏研发与教学等场景