AICG

Fand eine Github sehr gute AI-Projekt Cradle, kann die Maus, Tastatur, simulieren den menschlichen Betrieb, zu seidig glatt, Sammlung ~ ~ ~ ~

Wiege Es ist eine offene Quelle für das Team der BAAI-Agenten. Allgemeine Computersteuerung (GCC) s multimodales KI-Agenten-Framework, das es großen multimodalen Modellen ermöglicht, eine Vielzahl von Software und Spielen wie ein Mensch zu nutzen, indem sie Screenshots eingeben und Tastatureingaben tätigen.

  • Gemeinsames Ziel: Unterstützung jeglicher nativer Software (z. B. Spiele, Office, Bild-/Videobearbeitungsprogramme)
  • Multimodale Eingabe: Bildschirmfoto als Eingabe, Unterstützung von Tastatur- und Mausbedienung als Ausgabe
  • Autonomie: Eingebautes Modul "kognitive Reflexion + Aktualisierung der Fähigkeiten" für kontinuierliche Selbstoptimierung.
  • Modularer Aufbau: hohe Kontrollierbarkeit und Skalierbarkeit, einfache Anpassung an neue Umgebungen.

Schmerzpunktszenario

LLMs haben sich seit der Geburt der GPT-Reihe von Gurus explosionsartig entwickelt. Sie sind jedoch auf die "API-Texteingabe/-ausgabe" angewiesen, wodurch sie nicht in der Lage sind, die lokale Schnittstelle zu steuern, und die Automatisierung lokaler Aufgaben ist immer noch schwierig:

  • Bedienung von Office, Visualisierungssoftware ist eingeschränkt
  • Die Aufteilung komplexer Aufgaben erschwert das Schließen der Schleife
  • Mangelnde visuelle Fähigkeiten und Unfähigkeit, UI-Elemente allein aufgrund der Sprache zu finden
  • Unfähigkeit, sich über einen längeren Zeitraum an eine Geschichte zu erinnern und unzureichende Ausführung einer mehrstufigen Logik

Cradle wurde entwickelt, um diese Probleme zu lösen:

  • Maus- und Tastatursteuerung, die die menschliche Bedienung simuliert
  • Verstärkung der Strategien "Selbstreflexion" und "Optimierung der Fähigkeiten"
  • Unterstützt weitreichende Aufgaben, komplexe Spielumgebungen und professionellen Softwarebetrieb

Kernfunktionalität

Nachfolgend finden Sie eine Liste der 6 Kernfunktionen des Cradle-Moduls:

  1. Sammeln von Informationen
    • Verwendung visueller Modelle zur Verarbeitung von UI-Screenshots und Textnachrichten
    • Audio-Feedback kann zur Vervollständigung des interozeptiven Inputs abgerufen werden
  2. Selbstreflexion
    • Überprüfung historischer Betriebsergebnisse, um festzustellen, ob sie erreicht wurden
    • Fassen Sie die Gründe für das Scheitern zusammen und geben Sie Hinweise für den nächsten Einsatz
  3. Aufgabe Inferenz
    • Ableitung aktueller Ziele auf der Grundlage von Umfeld und historischem Gedächtnis
    • Dynamische Programmierung Nächstbeste Strategie
  4. Kuratieren von Fertigkeiten
    • Erzeugen oder Aktualisieren von Kompetenzfunktionen für jede Aufgabe
    • Maßgeschneiderte Strategien für jede Umgebung, um Erfahrungen zu ermöglichen
  5. Aktionsplanung
    • LLM gibt High-Level-Aktionen aus (z. B. "Klick auf X", "Maus nach Y bewegen").
    • Übersetzung der von Menschen geschriebenen Überbrückungsschichten in Tastatureingaben
  6. Speichermodul (Speicher)
    • Kurzzeit- und Langzeitgedächtnis, einschließlich historischer Aufzeichnungen
    • Unterstützung der Wiederverwendung von Erinnerungen und Fähigkeiten bei verschiedenen Aufgaben

Diese Module bilden eine Reihe von geschlossenen Kreisläufen: Eingabe Screenshot → was Sie sehen → Introspektion → Planung → Ausführung → Gedächtnisrückmeldung.

Experimente haben bewiesen, dass Cradle erreicht werden kann:

  • AAA-Spiele:Red Dead Redemption 2 Hauptquests, hohe Erfolgsquote beim Abschluss;
  • Städtische Spiele:Städte: Skylines Die Schaffung einer Stadt der Tausend;
  • Bauernhof-Spiele:Stardew Valley Automatisches Säen und Ernten;
  • Wirtschaftsspiele:Das Leben des Händlers 2 Erzielen Sie den höchsten wöchentlichen Gewinn von 87%;
  • Bürosoftware: Bei Chrome anmelden, in Outlook antworten, Feishu verwenden;
  • Bearbeitungswerkzeuge: Meituxiu, CapCut Bild-/Videobearbeitung.

Technologie Architektur

Liste der technischen Vorteile

Technischer VorteilBeschreibungen
Keinerlei API-EinblickeEs ist nicht auf interne UI-Schnittstellen angewiesen und passt sich an eine breite Palette von Software an.
Hochgradig modulare KonfigurationLeichte Skalierbarkeit für neue Spiele oder Softwareumgebungen
Progressive KapazitätserweiterungLLM + Selbstreflexion + Gedächtnistechniken zur Unterstützung der Selbstverbesserung
Universelle BedienoberflächeScreenshots + Tastatur- und Mausausgabe, wirklich universell

Eine Illustration der Schnittstelle

Anwendungsszenario

  • F&E-KI-Agent kann Benutzeraktionen autonom simulieren und ersetzt UI-API-Tests https://wxa.wxs.qq.com/tmpl/mi/base_tmpl.html
  • Büroautomatisierung: Eine große Anzahl sich wiederholender Aufgaben (E-Mails, Formulare, Berichte) kann vollständig automatisiert werden.
  • KI-Entwicklung im Spiel: Werden Sie zur Intelligenz im Spiel, testen Sie Missionen und trainieren Sie NPCs
  • Prozessautomatisierung: Bietet eine automatisierte UI-Pipeline mit weniger Abhängigkeit von herkömmlicher RPA
  • Bildung und Ausbildung: Cradle demonstriert, wie man etwas macht, und hilft den Schülern, komplexe Software zu verstehen.

Wer ist stärker?

RahmenprojekteUnterstützungsmodusUnabhängig davon, ob es sich auf eine API stützt oder nichtWichtige AnforderungenZentrale Stärken
WiegeScreenshots + Tastaturschreiben❌ Keine APIVollständiges selbstgesteuertes Lernen in einem geschlossenen KreislaufVielseitigkeit, Modularität, große Anpassungsfähigkeit
LangChain AgentText API Eingabe/Ausgabe✅ Mit APITextbefehle / HTTP-AnfragenFachkenntnisse in den Bereichen Information Retrieval, Textmanagement
AutoHotkey / RPA usw.Tastatur- und Mausmakro (Informatik)❌ Keine APIEinschrittiger Makrobetrieb, fehlende SpeicherplanungEinfach zu bedienen, aber geringe Intelligenz, schwache Selbstverbesserung
Dramatiker/SeleniumDOM Manipulation API✅ DOM APIWeb-AutomatisierungGut im Web, eingeschränkter als Desktop

Stärken: Cradle ist eine multimodale, kognitiv unterstützte "universelle ausführbare Software", die über herkömmliche oder Web-Automatisierungswerkzeuge hinausgeht.

Artikel Zusammenfassung

  • Cradle ist der erste universell einsetzbare, softwaregesteuerte KI-Agent.Unterstützt eine breite Palette von lokaler Software und AAA-Spielen.
  • Der Kern besteht aus 6 Modulen mit selbstdenkenden, selbstlernenden und selbstanpassenden Fähigkeiten.
  • Modulare und wartbare technische Architektur
  • Im Vergleich zu herkömmlichen Tools bietet Cradle ein Erlebnis in Videoqualität, globale Closed-Loop-Intelligenz und die Möglichkeit, ein neues, attraktiveres und effektiveres Tool für Ihr Unternehmen zu schaffen.
  • Geeignet für F&E-Automatisierung, Büro, Spieleentwicklung und Unterrichtsszenarien.

Adresse des Projekts

https://github.com/baai-agents/cradle