製品カタログ[隠されている]
クレードル BAAI-Agentsチームのオープンソースです。 ゼネラル・コンピューター・コントロール(GCC) のマルチモーダルAIエージェントフレームワークは、大規模なマルチモーダルモデルが、スクリーンショット入力やキーストローク出力を通じて、人間のように様々なソフトウェアやゲームを使用することを可能にする。
- 共通の目標:あらゆるネイティブ・ソフトウェアをサポートする(ゲーム、Office、画像/ビデオ編集ツールなど)
- マルチモーダル入力:入力としてスクリーンショット、サポートキーボードとマウス操作の出力
- 自律性:継続的な自己最適化のための「認知的考察+スキル更新」モジュールを内蔵。
- モジュール設計:高い制御性と拡張性、新しい環境への適応が容易。
ペインポイントシナリオ
GPTシリーズの第一人者が誕生して以来、LLMは爆発的に普及した。しかし、それらは「APIのテキスト入出力」に依存しているため、ローカルインターフェースの制御ができず、ローカルタスクの自動化はまだ難しい:
- オフィス、ビジュアライゼーション・ソフトウェアの操作に制限がある
- 複雑なタスクを分割すると、ループを閉じるのが難しくなる
- 視覚的スキルが不足しており、言語だけではUI要素を特定できない。
- 歴史を長期間記憶することができず、多段階のロジックを十分に実行できない。
クレイドルは、このようなペインポイントに対処するために設計されている:
- 人間の操作をシミュレートするマウスとキーボード操作
- 自己反省」と「スキルの最適化」戦略の強化
- 長期的なタスク、複雑なゲーム環境、プロフェッショナルなソフトウェア操作に対応
コア機能
以下は、クレイドルの6つのコアモジュール機能のリストである:
- 情報収集
- ビジュアルモデルを使ってUIのスクリーンショットやテキストメッセージを処理する
- 音声フィードバックにアクセスすることで、インターオセプティブ・インプットを完成させることができる。
- 自己反省
- 過去の営業成績を検証し、達成されたかどうかを判断する
- 失敗の理由をまとめ、次の作戦のためのガイダンスを提供する。
- タスク推論
- 環境+過去の記憶から現在のゴールを推測する
- 動的計画法 次善の策
- スキル・キュレーション
- 各タスクのスキル関数を生成または更新する
- 経験を可能にする環境別のカスタマイズされた戦略
- 行動計画
- LLMは高レベルのアクション(例えば「Xをクリック」「マウスをYに移動」)を出力する。
- 人間が書いたブリッジング・レイヤーをキーストローク・アクションに変換
- メモリモジュール(メモリ)
- 歴史的記録を含む短期記憶と長期記憶
- 記憶とスキルの再利用をサポート
これらのモジュールは、入力されたスクリーンショット→見たもの→内省→計画→実行→記憶のフィードバックという一連の閉じたループを形成する。
ゆりかごが実現可能であることは実験で証明されている:
- AAAゲーム:レッド・デッド・リデンプション2 メインクエスト、高い成功率で完了;
- 自治体対抗戦:シティーズ:スカイライン 千の都市を創造する
- ファームゲーム:スターデューバレー 自動播種と収穫;
- ビジネスゲーム:ディーラーズ・ライフ2 週間最高利益87%を達成;
- オフィスソフト:Chromeにサインイン、Outlookに返信、Feishuを使用;
- 編集ツール:Meituxiu、CapCut画像/ビデオ処理。
テクノロジー・アーキテクチャー

技術的優位性一覧
テクニカル・アドバンテージ | 説明 |
---|---|
APIインサイトがまったくない | 内部UIインターフェースに依存せず、幅広いソフトウェアに適応。 |
高度なモジュール構成 | 新しいゲームやソフトウェア環境への拡張が容易 |
段階的な能力向上 | LLM+自己反省+記憶術で自己向上をサポート |
ユニバーサル・オペレーティング・インターフェース | スクリーンショット+キーボード&マウス出力、真のユニバーサル |
インターフェイスの図解

アプリケーションシナリオ
- 研究開発 AI エージェントがユーザーの行動を自律的にシミュレートし、UI API テストに取って代わる https://wxa.wxs.qq.com/tmpl/mi/base_tmpl.html
- オフィスの自動化:多くの反復作業(Eメール、フォーム、レポート)を完全に自動化できる。
- ゲームAI開発:ゲーム内のインテリジェンスとなり、ミッションのテストやNPCの訓練を行う。
- プロセス自動化:従来のRPAに依存することなく、UIの自動化されたパイプラインを提供する。
- 教育およびトレーニング:クレイドルは、生徒が複雑なソフトウェアを理解できるよう、操作方法を実演します。
どちらが強いか?
フレームワーク・プロジェクト | サポートモード | APIに依存しているかどうか | 主な要件 | コアの強み |
---|---|---|---|---|
クレードル | スクリーンショット+キーボード | API なし | 完全なクローズド・ループの自己学習 | 汎用性、モジュール性、幅広い適応性 |
ラングチェーンエージェント | テキストAPI入出力 | ✅ API付き | テキストコマンド / HTTPリクエスト | 情報検索、テキスト管理の専門知識 |
AutoHotkey / RPAなど | キーボードマウスマクロ | API なし | シングルステップマクロ操作、メモリプランニングの欠如 | 使いやすいが、知能が低く、自己改善が弱い。 |
劇作家/セレニウム | DOM操作API | DOM API | ウェブオートメーション | ウェブは得意だが、デスクトップより制限される |
強み:Cradleは、従来の自動化ツールやウェブ自動化ツールを超える、マルチモーダルな認知機能付き「ユニバーサル・ソフトウェア実行可能ツール」である。
記事の概要
- クレイドルは、初の汎用ソフトウェア制御AIエージェントである。幅広いローカルソフトウェアとAAAゲームの操作に対応。
- コアとなるのは、自己思考、自己学習、自己適応能力を備えた6つのモジュールだ。
- モジュール式で保守性の高いテクニカル・アーキテクチャ
- 従来のツールに比べ、Cradleはビデオクオリティの体験、グローバルなクローズドループインテリジェンスを提供します。
- 研究開発の自動化、オフィス、ゲーム開発、教育現場などに適しています。