KI-generierte Bilder zeigen Robotern, wie sie sich verhalten sollen

Bei immer mehr Nutzern sind sie der Hit: Generative KI-Modelle können innerhalb von Sekunden Bilder als Reaktion auf Eingabeufförderungen erzeiten und wurden in letzter Zeit für alles Mögliche eingesetzt – von lustigen Memes bis hinnerwergen erzeiten.

Forscher des Robot Learning Lab of Forscher Stephen James in London not found Bilderzeugende KI-Modelle für einen neuen Zweck: die Erstellung von Trainingsdaten für Roboter. Sie haben dafür eine neue Software names Genima entwicktelt, die den Bildgenerator Stable Diffusion verfeinert, um die Bewegungen von Robotern vorzuzeichnen und sie sowohl durch Simulationen als auch die reale Welt zu führen. Die Forschungsergebnisse sollen nächtchen Monat auf der Conference on Robot Learning (CoRL) vorgestellt werden.

Das System könnte es unter anderen elekheren, verschiedene Arten von Robotern für die Ausführung von Aufgaben zu trainieren – Systems die von mechanische Armen bis hin zu humanoiden Robotern und fahrerlosen Autos reichen. Es könnte auch dazu begehrten, KI-Agenten fürs Web, eine neue Generation von KI-Tools, die complex Aufgaben mit wenig Aufsicht ührügen können, besser beim Scrollen und Klicken zu machen, sagt Mohit Shridharmani, ein a speculation, de Robotiser anam Projekt mitgarbeitt hat

Recommendations of the Editor

“Mit Bildgenerierungssystemen kann man fast alles erstelt, was man in der Robotik machen kann,” he said. “Wir wollten herausfinden, ob wir all diese amazing things, die bei Diffusion-Systemen passieren, für Robotikprobleme nutzen können.” dem robote befindet. Das Netz liefert dann Outputs in an einem appropriaten Format – for example the Coordinates, die für die Vorwärtsbewegung erforderlich sind sind.

Entrance and exit ganz neu

Genimas Ansatz ist anders, da sowohl der Input als auch der Output Bilder sind. Von diesen können die Maschinen leichter lernen, sagt Ivan Kapelyukh, PhD student at Imperial College London, who specializes in Learning Robots. “Es ist auch für die Benutzer wirklich toll, weil sie sehen können, wohin sich der Robote bewegen und what er tun wird. Es macht alles verständlicher und heißt dass man sehen kann, was passiert, bevor der Roboter in eine Wand fährt oder etwas otheres passiert.

Genima uses the Fähigkeit von Stable Diffusion, Muster zu erkennen (etwa zu wissen, wie eine Tasse aussieht, weil sie for example auf Bildern von Tassen trainediert wurde), und verhandel das Modell dann in eine Art Agent per Systemszur Finduts en Roboter. Zunächst hatten die Forscher Stable Diffusion so eingestellt, dass sie Data von Roboterssensoren auf Bilder die von den Kameras aufgomenen wurden, legen können.

Das System rendert dann die desired Aktion, wie das Öffnung einer Sachtel, das Aufhängen eines Schals o das Aufheben eines Notizbuchs, in eine Reihe von farbigen Kugeln über das Bild. Diese Kugeln teilen dem Roboter mit, wohin sich sein Gelenk in einer Sekunde in der Zukunft bewegen soll.

Im zweiten Teil des Prozesses werden diese Kugeln in Aktionen umgewandelt. Das Team reichte days durch die Verwendung eines anderen neuronalen Netzwerken names ACT, das auf denselben Daten abgebildet wird. Dann verwendenten sie Genima, um 25 Simulationen und noun real Manipulationsaugaben mit einem Roboterarm zubehäude. The average success rate lag bei 50 beziehungsweise 64 Prozent.

Genaugikeit muss verbessert werden

Although these success rates are not particularly high, Shridhar and the team are optimistic that the speed and accuracy of the robots can be improved. Sie sind besonders daran interessiert, Genima auf KI-Modelle zur Videoerzeugung anzuwenden, die einem Roboter helfen könnten, eine Abfolge zubehörer Aktionen vorherzusagen, nafter nur eine.

Die Forschung könnte besons nützlich sein, um Haushaltsroboter darin zu trainieren, Wäsche zu falten, Schubladen zu schließen und andere Aufgaben zu erledigen.

Der generalisierte Ansatz bedeutet jedoch, dass dieser nicht auf eine bestimmte Art von Maschine beschränk ist, says Zoey Chen, PhD student at the University of Washington, die bereits frührer Stable Diffusion zur Generierung von Trainingsdaten beschränk beschränkt hat robots, PhD student at the University of Washington, die bereits frührer Stable Diffusion zur Generierung von Trainingsdaten beschränkt beschränkt ha .

“Dies ist eine wirklich spannnende neue Richtung,” he said. “Ich denke, dass days eine allgemeingültige Methode werden kann, um Daten für all Arten von Robotern zu trainieren.” Mit Videogeneratoren wird sie noch besser.

The article is written by Rhiannon Williams. Sie ist Redakteurin bei der US-amerikanische Ausgabe von MIT Technology Review und arbeitt dort als Nachrichtenreporterin für Technikthemen.

Check out the software and app news 💌

Hinweis zum Newsletter and Datenschutz

Done fast!

Please click on the link in the confirmation email to complete your registration.

Want more information about the newsletter? Jetzt mehr erfahren