AICG

Githubの非常に良いAIプロジェクトクレードルを発見し、マウス、キーボードを制御することができ、人間の操作をシミュレートし、あまりにも絹のような滑らかな、コレクション〜〜〜〜。

クレードル BAAI-Agentsチームのオープンソースです。 ゼネラル・コンピューター・コントロール(GCC) のマルチモーダルAIエージェントフレームワークは、大規模なマルチモーダルモデルが、スクリーンショット入力やキーストローク出力を通じて、人間のように様々なソフトウェアやゲームを使用することを可能にする。

  • 共通の目標:あらゆるネイティブ・ソフトウェアをサポートする(ゲーム、Office、画像/ビデオ編集ツールなど)
  • マルチモーダル入力:入力としてスクリーンショット、サポートキーボードとマウス操作の出力
  • 自律性:継続的な自己最適化のための「認知的考察+スキル更新」モジュールを内蔵。
  • モジュール設計:高い制御性と拡張性、新しい環境への適応が容易。

ペインポイントシナリオ

GPTシリーズの第一人者が誕生して以来、LLMは爆発的に普及した。しかし、それらは「APIのテキスト入出力」に依存しているため、ローカルインターフェースの制御ができず、ローカルタスクの自動化はまだ難しい:

  • オフィス、ビジュアライゼーション・ソフトウェアの操作に制限がある
  • 複雑なタスクを分割すると、ループを閉じるのが難しくなる
  • 視覚的スキルが不足しており、言語だけではUI要素を特定できない。
  • 歴史を長期間記憶することができず、多段階のロジックを十分に実行できない。

クレイドルは、このようなペインポイントに対処するために設計されている:

  • 人間の操作をシミュレートするマウスとキーボード操作
  • 自己反省」と「スキルの最適化」戦略の強化
  • 長期的なタスク、複雑なゲーム環境、プロフェッショナルなソフトウェア操作に対応

コア機能

以下は、クレイドルの6つのコアモジュール機能のリストである:

  1. 情報収集
    • ビジュアルモデルを使ってUIのスクリーンショットやテキストメッセージを処理する
    • 音声フィードバックにアクセスすることで、インターオセプティブ・インプットを完成させることができる。
  2. 自己反省
    • 過去の営業成績を検証し、達成されたかどうかを判断する
    • 失敗の理由をまとめ、次の作戦のためのガイダンスを提供する。
  3. タスク推論
    • 環境+過去の記憶から現在のゴールを推測する
    • 動的計画法 次善の策
  4. スキル・キュレーション
    • 各タスクのスキル関数を生成または更新する
    • 経験を可能にする環境別のカスタマイズされた戦略
  5. 行動計画
    • LLMは高レベルのアクション(例えば「Xをクリック」「マウスをYに移動」)を出力する。
    • 人間が書いたブリッジング・レイヤーをキーストローク・アクションに変換
  6. メモリモジュール(メモリ)
    • 歴史的記録を含む短期記憶と長期記憶
    • 記憶とスキルの再利用をサポート

これらのモジュールは、入力されたスクリーンショット→見たもの→内省→計画→実行→記憶のフィードバックという一連の閉じたループを形成する。

ゆりかごが実現可能であることは実験で証明されている:

  • AAAゲーム:レッド・デッド・リデンプション2 メインクエスト、高い成功率で完了;
  • 自治体対抗戦:シティーズ:スカイライン 千の都市を創造する
  • ファームゲーム:スターデューバレー 自動播種と収穫;
  • ビジネスゲーム:ディーラーズ・ライフ2 週間最高利益87%を達成;
  • オフィスソフト:Chromeにサインイン、Outlookに返信、Feishuを使用;
  • 編集ツール:Meituxiu、CapCut画像/ビデオ処理。

テクノロジー・アーキテクチャー

技術的優位性一覧

テクニカル・アドバンテージ説明
APIインサイトがまったくない内部UIインターフェースに依存せず、幅広いソフトウェアに適応。
高度なモジュール構成新しいゲームやソフトウェア環境への拡張が容易
段階的な能力向上LLM+自己反省+記憶術で自己向上をサポート
ユニバーサル・オペレーティング・インターフェーススクリーンショット+キーボード&マウス出力、真のユニバーサル

インターフェイスの図解

アプリケーションシナリオ

  • 研究開発 AI エージェントがユーザーの行動を自律的にシミュレートし、UI API テストに取って代わる https://wxa.wxs.qq.com/tmpl/mi/base_tmpl.html
  • オフィスの自動化:多くの反復作業(Eメール、フォーム、レポート)を完全に自動化できる。
  • ゲームAI開発:ゲーム内のインテリジェンスとなり、ミッションのテストやNPCの訓練を行う。
  • プロセス自動化:従来のRPAに依存することなく、UIの自動化されたパイプラインを提供する。
  • 教育およびトレーニング:クレイドルは、生徒が複雑なソフトウェアを理解できるよう、操作方法を実演します。

どちらが強いか?

フレームワーク・プロジェクトサポートモードAPIに依存しているかどうか主な要件コアの強み
クレードルスクリーンショット+キーボードAPI なし完全なクローズド・ループの自己学習汎用性、モジュール性、幅広い適応性
ラングチェーンエージェントテキストAPI入出力✅ API付きテキストコマンド / HTTPリクエスト情報検索、テキスト管理の専門知識
AutoHotkey / RPAなどキーボードマウスマクロAPI なしシングルステップマクロ操作、メモリプランニングの欠如使いやすいが、知能が低く、自己改善が弱い。
劇作家/セレニウムDOM操作APIDOM APIウェブオートメーションウェブは得意だが、デスクトップより制限される

強み:Cradleは、従来の自動化ツールやウェブ自動化ツールを超える、マルチモーダルな認知機能付き「ユニバーサル・ソフトウェア実行可能ツール」である。

記事の概要

  • クレイドルは、初の汎用ソフトウェア制御AIエージェントである。幅広いローカルソフトウェアとAAAゲームの操作に対応。
  • コアとなるのは、自己思考、自己学習、自己適応能力を備えた6つのモジュールだ。
  • モジュール式で保守性の高いテクニカル・アーキテクチャ
  • 従来のツールに比べ、Cradleはビデオクオリティの体験、グローバルなクローズドループインテリジェンスを提供します。
  • 研究開発の自動化、オフィス、ゲーム開発、教育現場などに適しています。

プロジェクト住所

https://github.com/baai-agents/cradle