Intelligente Interaktion in 3D Simulationen
Use Case Cluster
Personalization & Recommendation, GenAI, NLP, Computer Vision, Agentic AI
Geschäftsbereich
R&D
Prozesse
Training & Simulation
Herausforderung
Die Interaktion mit komplexen 3D-Umgebungen – ob in (Video-Games und Produktions-)Simulationen oder Trainingsplattformen – stellt hohe Anforderungen an Flexibilität, Sprachverständnis und Lernfähigkeit. Klassische Systeme stoßen dabei schnell an ihre Grenzen:
Komplexität von 3D-Umgebungen:
Virtuelle Welten sind dynamisch und unvorhersehbar – klassische Systeme scheitern schnell, da sie nur vordefinierte Abläufe unterstützen.
Instruktionsverständnis:
Nutzer erwarten natürliche Sprachbefehle statt manueller Programmierung. Regelbasierte Bots sind dafür ungeeignet.
Generalistischer Ansatz:
Für jede Plattform eigene Bots zu entwickeln ist teuer und ineffizient. Es fehlt ein übertragbarer, plattformübergreifender Ansatz.
Kontinuierliches Lernen:
Statische Modelle können nur bekannte Aufgaben ausführen. Nötig sind Systeme, die neue Instruktionen erlernen und Wissen flexibel anpassen.
Lösung
Mit Agentic AI-Prinzipien lassen sich KI-Systeme entwickeln, die in verschiedenen 3D-Umgebungen handeln können – unabhängig von der spezifischen Plattform. Diese Systeme kombinieren LLM-gestützte Instruktionsverarbeitung mit visueller Wahrnehmung, um Spracheingaben in konkrete Handlungen umzusetzen und mit virtuellen Objekten zu interagieren.
Das Paper von Google DeepMind („SIMA – Scalable Instructable Multiworld Agent“) zeigt, wie ein einzelnes System durch Instruktionen trainiert werden kann, um plattformübergreifend Aufgaben zu lösen – von Videospielen bis zu Robotiksimulationen. Die aktuelle Version von SIMA wurde anhand von 600 Basisfähigkeiten evaluiert – darunter Navigation („turn left“), Objektinteraktion („climb the ladder“) und Menüsteuerung („open the map“) – und kann einfache Aufgaben innerhalb von ca. 10 Sekunden ausführen.
Damit wird eine übertragbare, skalierbare und lernfähige Interaktion mit 3D-Welten möglich. 👉 Kurz gesagt: Solche Systeme machen es möglich, komplexe virtuelle Umgebungen intuitiv, flexibel und effizient zu steuern – ohne für jede Plattform neue Bots entwickeln zu müssen.
Source: Deep Mind, Technical Report
Mehrwert
-
Plattformübergreifend einsetzbar: Ein System für Gaming, Simulationen, Robotik & digitale Zwillinge.
-
Intuitive Steuerung: Sprachbefehle statt Programmierung beschleunigen Training & Nutzung.
-
Schnelle Skills: 600 Basisfähigkeiten wie Navigation & Objektinteraktion in Sekunden ausführbar.
-
Industrieübertragbarkeit: Anwendbar in Robotik, Fertigung, Logistik & medizinischen Trainings.
-
Lernfähig & adaptiv: Überträgt Wissen flexibel auf neue Plattformen und Szenarien.
