找到一个Github上非常优秀的AI项目Cradle，可控制鼠标、键盘，模拟人类操作，太丝滑，收藏～～～

製品カタログ[隠されている］

ペインポイントシナリオ
コア機能
テクノロジー・アーキテクチャー
- 技術的優位性一覧
インターフェイスの図解
アプリケーションシナリオ
どちらが強いか？
記事の概要
- プロジェクト住所

クレードル BAAI-Agentsチームのオープンソースです。 ゼネラル・コンピューター・コントロール（GCC） のマルチモーダルAIエージェントフレームワークは、大規模なマルチモーダルモデルが、スクリーンショット入力やキーストローク出力を通じて、人間のように様々なソフトウェアやゲームを使用することを可能にする。

共通の目標：あらゆるネイティブ・ソフトウェアをサポートする（ゲーム、Office、画像／ビデオ編集ツールなど）
マルチモーダル入力：入力としてスクリーンショット、サポートキーボードとマウス操作の出力
自律性：継続的な自己最適化のための「認知的考察＋スキル更新」モジュールを内蔵。
モジュール設計：高い制御性と拡張性、新しい環境への適応が容易。

ペインポイントシナリオ

GPTシリーズの第一人者が誕生して以来、LLMは爆発的に普及した。しかし、それらは「APIのテキスト入出力」に依存しているため、ローカルインターフェースの制御ができず、ローカルタスクの自動化はまだ難しい：

オフィス、ビジュアライゼーション・ソフトウェアの操作に制限がある
複雑なタスクを分割すると、ループを閉じるのが難しくなる
視覚的スキルが不足しており、言語だけではUI要素を特定できない。
歴史を長期間記憶することができず、多段階のロジックを十分に実行できない。

クレイドルは、このようなペインポイントに対処するために設計されている：

人間の操作をシミュレートするマウスとキーボード操作
自己反省」と「スキルの最適化」戦略の強化
長期的なタスク、複雑なゲーム環境、プロフェッショナルなソフトウェア操作に対応

コア機能

以下は、クレイドルの6つのコアモジュール機能のリストである：

情報収集
- ビジュアルモデルを使ってUIのスクリーンショットやテキストメッセージを処理する
- 音声フィードバックにアクセスすることで、インターオセプティブ・インプットを完成させることができる。
自己反省
- 過去の営業成績を検証し、達成されたかどうかを判断する
- 失敗の理由をまとめ、次の作戦のためのガイダンスを提供する。
タスク推論
- 環境＋過去の記憶から現在のゴールを推測する
- 動的計画法次善の策
スキル・キュレーション
- 各タスクのスキル関数を生成または更新する
- 経験を可能にする環境別のカスタマイズされた戦略
行動計画
- LLMは高レベルのアクション（例えば「Xをクリック」「マウスをYに移動」）を出力する。
- 人間が書いたブリッジング・レイヤーをキーストローク・アクションに変換
メモリモジュール（メモリ）
- 歴史的記録を含む短期記憶と長期記憶
- 記憶とスキルの再利用をサポート

これらのモジュールは、入力されたスクリーンショット→見たもの→内省→計画→実行→記憶のフィードバックという一連の閉じたループを形成する。

ゆりかごが実現可能であることは実験で証明されている：

AAAゲーム：レッド・デッド・リデンプション2 メインクエスト、高い成功率で完了；
自治体対抗戦：シティーズ：スカイライン 千の都市を創造する
ファームゲーム：スターデューバレー 自動播種と収穫；
ビジネスゲーム：ディーラーズ・ライフ2 週間最高利益87%を達成；
オフィスソフト：Chromeにサインイン、Outlookに返信、Feishuを使用；
編集ツール：Meituxiu、CapCut画像/ビデオ処理。

テクノロジー・アーキテクチャー

技術的優位性一覧

テクニカル・アドバンテージ	説明
APIインサイトがまったくない	内部UIインターフェースに依存せず、幅広いソフトウェアに適応。
高度なモジュール構成	新しいゲームやソフトウェア環境への拡張が容易
段階的な能力向上	LLM＋自己反省＋記憶術で自己向上をサポート
ユニバーサル・オペレーティング・インターフェース	スクリーンショット＋キーボード＆マウス出力、真のユニバーサル

インターフェイスの図解

アプリケーションシナリオ

研究開発 AI エージェントがユーザーの行動を自律的にシミュレートし、UI API テストに取って代わる https://wxa.wxs.qq.com/tmpl/mi/base_tmpl.html
オフィスの自動化：多くの反復作業（Eメール、フォーム、レポート）を完全に自動化できる。
ゲームAI開発：ゲーム内のインテリジェンスとなり、ミッションのテストやNPCの訓練を行う。
プロセス自動化：従来のRPAに依存することなく、UIの自動化されたパイプラインを提供する。
教育およびトレーニング：クレイドルは、生徒が複雑なソフトウェアを理解できるよう、操作方法を実演します。

どちらが強いか？

フレームワーク・プロジェクト	サポートモード	APIに依存しているかどうか	主な要件	コアの強み
クレードル	スクリーンショット＋キーボード	API なし	完全なクローズド・ループの自己学習	汎用性、モジュール性、幅広い適応性
ラングチェーンエージェント	テキストAPI入出力	✅ API付き	テキストコマンド / HTTPリクエスト	情報検索、テキスト管理の専門知識
AutoHotkey / RPAなど	キーボードマウスマクロ	API なし	シングルステップマクロ操作、メモリプランニングの欠如	使いやすいが、知能が低く、自己改善が弱い。
劇作家／セレニウム	DOM操作API	DOM API	ウェブオートメーション	ウェブは得意だが、デスクトップより制限される

強み：Cradleは、従来の自動化ツールやウェブ自動化ツールを超える、マルチモーダルな認知機能付き「ユニバーサル・ソフトウェア実行可能ツール」である。

記事の概要

クレイドルは、初の汎用ソフトウェア制御AIエージェントである。幅広いローカルソフトウェアとAAAゲームの操作に対応。
コアとなるのは、自己思考、自己学習、自己適応能力を備えた6つのモジュールだ。
モジュール式で保守性の高いテクニカル・アーキテクチャ
従来のツールに比べ、Cradleはビデオクオリティの体験、グローバルなクローズドループインテリジェンスを提供します。
研究開発の自動化、オフィス、ゲーム開発、教育現場などに適しています。

プロジェクト住所

https://github.com/baai-agents/cradle

Githubの非常に良いAIプロジェクトクレードルを発見し、マウス、キーボードを制御することができ、人間の操作をシミュレートし、あまりにも絹のような滑らかな、コレクション〜〜〜〜。