Chinese

找到一个Github上非常优秀的AI项目Cradle，可控制鼠标、键盘，模拟人类操作，太丝滑，收藏～～～

文章目录[隐藏]

痛点场景
核心功能
技术架构
- 技术优势一览表
界面示意
应用场景
谁更强？
文章小结
- 项目地址

Cradle 是由 BAAI‑Agents 团队开源的一款面向 通用计算机控制（GCC） 的多模态 AI Agent 框架，可以让大型多模态模型，通过截图输入和键鼠输出，像人一样使用各种软件和游戏。

通用目标：支持任意本地软件（如游戏、Office、图像/视频编辑工具）
多模态输入：以截图为输入，支持键盘鼠标操作输出
自主能力：内置“认知反思+技能更新”模块，能不断自我优化
模块化设计：兼顾高可控性和扩展性，轻松适配新环境

痛点场景

自 GPT 系列大师诞生后，LLM 迎来爆发式成长。但它们依赖“API 文本输入输出”，迟迟无法控制本地界面，本地任务自动化仍然困难：

操作 Office、可视化软件受限
拆分复杂任务，难以形成闭环
缺乏视觉能力，仅凭语言无法定位 UI 元素
无法长时间记忆历史，执行多步逻辑不足

Cradle 正是为解决这些痛点设计的：

可控制鼠标、键盘，模拟人类操作
强化“自我反思”“技能优化”策略
支持长程任务、复合游戏环境、专业软件操作

核心功能

下面盘点 Cradle 的 6 大核心模块功能：

信息收集（Information Gathering）
- 利用视觉模型处理 UI 截图、文字信息
- 可接入音频反馈，完成联觉输入
自我反思（Self‑Reflection）
- 回顾历史操作成果，判断是否达成
- 总结失败原因，为下一步运行提供指导
任务推断（Task Inference）
- 基于环境+历史记忆，推断当前目标
- 动态规划接下来最优策略
技能策划（Skill Curation）
- 每个任务生成或更新技能函数
- 按环境定制化策略，实现经验积累
动作规划（Action Planning）
- LLM 输出高层操作（如“点击 X”“移动鼠标到 Y”）
- 人写桥接层翻译为键鼠动作
记忆模块（Memory）
- 分为短期与长期记忆，含历史记录
- 支持跨任务复用记忆与技能

这些模块构成一套闭环：输入截图 → 所见 → 自省 → 规划 → 执行 → 记忆反馈。

实验证明，Cradle 可完成：

AAA 游戏：Red Dead Redemption 2 主线任务、高成功率完成；
市政游戏：Cities: Skylines 打造千人城市；
农场游戏：Stardew Valley 自动播种收获；
经营游戏：Dealer’s Life 2 实现 87% 最高周盈利；
办公软件：登录 Chrome、回复 Outlook、使用 Feishu；
编辑工具：美图秀秀、CapCut 图像/视频处理。

技术架构

技术优势一览表

技术优势	描述
完全无 API 洞察	不依赖 UI 内部接口，适配广泛软件
高度模块化配置	易扩展至新游戏或软件环境
能力逐步增强	LLM + 自反思 + 记忆技术，支持自提升
通用操作接口	截图 + 键鼠输出，真正通用

界面示意

应用场景

R&D AI Agent 能自主模拟用户操作，替代 UI API 测试https://wxa.wxs.qq.com/tmpl/mi/base_tmpl.html
自动化办公：大量重复任务（邮件、表格、报表）可彻底自动化
游戏 AI 研发：成为游戏内智能体，测试任务/训练 NPC
流程自动化：提供 UI 自动流水线，少依赖传统 RPA
教育培训： Cradle 可演示操作方法，辅助学员理解复杂软件

谁更强？

框架项目	支持模式	是否依赖 API	关键需求	核心优势
Cradle	截图 + 键鼠操作	❌ 无 API	完整闭环、自主学习	通用性、模块化、适配广
LangChain Agent	文本 API 输入输出	✅ 有 API	文本指令 / HTTP 请求	精于信息检索、文本管理
AutoHotkey / RPA 等	键鼠宏	❌ 无 API	单步宏操作，缺记忆规划	易用但智力低，自提升弱
Playwright/Selenium	DOM 操作 API	✅ DOM API	网页自动化	擅长网页，局限性大于桌面

优势结论：Cradle 领先于传统或网页自动化工具，是多模态、具备认知能力的“通用软件执行体”。

文章小结

Cradle 是首个通用软件控制 AI Agent，支持各种本地软件和 AAA 游戏操作
核心为 6 大模块，具备自思考、自学习、自适应能力
技术架构模块化、可维护性强
相比传统工具，Cradle 拥有视频级体验、全局闭环智能
适用研发自动化、办公、游戏研发与教学等场景

项目地址

https://github.com/baai-agents/cradle