Katalog der Artikel[Versteckt]
Wiege Es ist eine offene Quelle für das Team der BAAI-Agenten. Allgemeine Computersteuerung (GCC) s multimodales KI-Agenten-Framework, das es großen multimodalen Modellen ermöglicht, eine Vielzahl von Software und Spielen wie ein Mensch zu nutzen, indem sie Screenshots eingeben und Tastatureingaben tätigen.
- Gemeinsames Ziel: Unterstützung jeglicher nativer Software (z. B. Spiele, Office, Bild-/Videobearbeitungsprogramme)
- Multimodale Eingabe: Bildschirmfoto als Eingabe, Unterstützung von Tastatur- und Mausbedienung als Ausgabe
- Autonomie: Eingebautes Modul "kognitive Reflexion + Aktualisierung der Fähigkeiten" für kontinuierliche Selbstoptimierung.
- Modularer Aufbau: hohe Kontrollierbarkeit und Skalierbarkeit, einfache Anpassung an neue Umgebungen.
Schmerzpunktszenario
LLMs haben sich seit der Geburt der GPT-Reihe von Gurus explosionsartig entwickelt. Sie sind jedoch auf die "API-Texteingabe/-ausgabe" angewiesen, wodurch sie nicht in der Lage sind, die lokale Schnittstelle zu steuern, und die Automatisierung lokaler Aufgaben ist immer noch schwierig:
- Bedienung von Office, Visualisierungssoftware ist eingeschränkt
- Die Aufteilung komplexer Aufgaben erschwert das Schließen der Schleife
- Mangelnde visuelle Fähigkeiten und Unfähigkeit, UI-Elemente allein aufgrund der Sprache zu finden
- Unfähigkeit, sich über einen längeren Zeitraum an eine Geschichte zu erinnern und unzureichende Ausführung einer mehrstufigen Logik
Cradle wurde entwickelt, um diese Probleme zu lösen:
- Maus- und Tastatursteuerung, die die menschliche Bedienung simuliert
- Verstärkung der Strategien "Selbstreflexion" und "Optimierung der Fähigkeiten"
- Unterstützt weitreichende Aufgaben, komplexe Spielumgebungen und professionellen Softwarebetrieb
Kernfunktionalität
Nachfolgend finden Sie eine Liste der 6 Kernfunktionen des Cradle-Moduls:
- Sammeln von Informationen
- Verwendung visueller Modelle zur Verarbeitung von UI-Screenshots und Textnachrichten
- Audio-Feedback kann zur Vervollständigung des interozeptiven Inputs abgerufen werden
- Selbstreflexion
- Überprüfung historischer Betriebsergebnisse, um festzustellen, ob sie erreicht wurden
- Fassen Sie die Gründe für das Scheitern zusammen und geben Sie Hinweise für den nächsten Einsatz
- Aufgabe Inferenz
- Ableitung aktueller Ziele auf der Grundlage von Umfeld und historischem Gedächtnis
- Dynamische Programmierung Nächstbeste Strategie
- Kuratieren von Fertigkeiten
- Erzeugen oder Aktualisieren von Kompetenzfunktionen für jede Aufgabe
- Maßgeschneiderte Strategien für jede Umgebung, um Erfahrungen zu ermöglichen
- Aktionsplanung
- LLM gibt High-Level-Aktionen aus (z. B. "Klick auf X", "Maus nach Y bewegen").
- Übersetzung der von Menschen geschriebenen Überbrückungsschichten in Tastatureingaben
- Speichermodul (Speicher)
- Kurzzeit- und Langzeitgedächtnis, einschließlich historischer Aufzeichnungen
- Unterstützung der Wiederverwendung von Erinnerungen und Fähigkeiten bei verschiedenen Aufgaben
Diese Module bilden eine Reihe von geschlossenen Kreisläufen: Eingabe Screenshot → was Sie sehen → Introspektion → Planung → Ausführung → Gedächtnisrückmeldung.
Experimente haben bewiesen, dass Cradle erreicht werden kann:
- AAA-Spiele:Red Dead Redemption 2 Hauptquests, hohe Erfolgsquote beim Abschluss;
- Städtische Spiele:Städte: Skylines Die Schaffung einer Stadt der Tausend;
- Bauernhof-Spiele:Stardew Valley Automatisches Säen und Ernten;
- Wirtschaftsspiele:Das Leben des Händlers 2 Erzielen Sie den höchsten wöchentlichen Gewinn von 87%;
- Bürosoftware: Bei Chrome anmelden, in Outlook antworten, Feishu verwenden;
- Bearbeitungswerkzeuge: Meituxiu, CapCut Bild-/Videobearbeitung.
Technologie Architektur

Liste der technischen Vorteile
Technischer Vorteil | Beschreibungen |
---|---|
Keinerlei API-Einblicke | Es ist nicht auf interne UI-Schnittstellen angewiesen und passt sich an eine breite Palette von Software an. |
Hochgradig modulare Konfiguration | Leichte Skalierbarkeit für neue Spiele oder Softwareumgebungen |
Progressive Kapazitätserweiterung | LLM + Selbstreflexion + Gedächtnistechniken zur Unterstützung der Selbstverbesserung |
Universelle Bedienoberfläche | Screenshots + Tastatur- und Mausausgabe, wirklich universell |
Eine Illustration der Schnittstelle

Anwendungsszenario
- F&E-KI-Agent kann Benutzeraktionen autonom simulieren und ersetzt UI-API-Tests https://wxa.wxs.qq.com/tmpl/mi/base_tmpl.html
- Büroautomatisierung: Eine große Anzahl sich wiederholender Aufgaben (E-Mails, Formulare, Berichte) kann vollständig automatisiert werden.
- KI-Entwicklung im Spiel: Werden Sie zur Intelligenz im Spiel, testen Sie Missionen und trainieren Sie NPCs
- Prozessautomatisierung: Bietet eine automatisierte UI-Pipeline mit weniger Abhängigkeit von herkömmlicher RPA
- Bildung und Ausbildung: Cradle demonstriert, wie man etwas macht, und hilft den Schülern, komplexe Software zu verstehen.
Wer ist stärker?
Rahmenprojekte | Unterstützungsmodus | Unabhängig davon, ob es sich auf eine API stützt oder nicht | Wichtige Anforderungen | Zentrale Stärken |
---|---|---|---|---|
Wiege | Screenshots + Tastaturschreiben | ❌ Keine API | Vollständiges selbstgesteuertes Lernen in einem geschlossenen Kreislauf | Vielseitigkeit, Modularität, große Anpassungsfähigkeit |
LangChain Agent | Text API Eingabe/Ausgabe | ✅ Mit API | Textbefehle / HTTP-Anfragen | Fachkenntnisse in den Bereichen Information Retrieval, Textmanagement |
AutoHotkey / RPA usw. | Tastatur- und Mausmakro (Informatik) | ❌ Keine API | Einschrittiger Makrobetrieb, fehlende Speicherplanung | Einfach zu bedienen, aber geringe Intelligenz, schwache Selbstverbesserung |
Dramatiker/Selenium | DOM Manipulation API | ✅ DOM API | Web-Automatisierung | Gut im Web, eingeschränkter als Desktop |
Stärken: Cradle ist eine multimodale, kognitiv unterstützte "universelle ausführbare Software", die über herkömmliche oder Web-Automatisierungswerkzeuge hinausgeht.
Artikel Zusammenfassung
- Cradle ist der erste universell einsetzbare, softwaregesteuerte KI-Agent.Unterstützt eine breite Palette von lokaler Software und AAA-Spielen.
- Der Kern besteht aus 6 Modulen mit selbstdenkenden, selbstlernenden und selbstanpassenden Fähigkeiten.
- Modulare und wartbare technische Architektur
- Im Vergleich zu herkömmlichen Tools bietet Cradle ein Erlebnis in Videoqualität, globale Closed-Loop-Intelligenz und die Möglichkeit, ein neues, attraktiveres und effektiveres Tool für Ihr Unternehmen zu schaffen.
- Geeignet für F&E-Automatisierung, Büro, Spieleentwicklung und Unterrichtsszenarien.