Die rasante Entwicklung des Deep Learning ist untrennbar mit dem Umfang an Datensätzen, Modellen und Rechenleistung verbunden. In den Bereichen der Verarbeitung natürlicher Sprache und des Computersehens haben Forscher eine Potenzbeziehung zwischen Modellleistung und Datenumfang festgestellt. Im Bereich der Robotik, insbesondere der Robotermanipulation, ist eine solche skalierungsbezogene Gesetzmäßigkeit jedoch noch nicht etabliert.

Ein Forschungsteam der Tsinghua-Universität hat kürzlich eine Arbeit veröffentlicht, die die Skalierungsgesetzmäßigkeiten beim imitativen Lernen von Robotern untersucht und eine effiziente Datenakquisitionsstrategie vorschlägt. Mit dieser Strategie wurden innerhalb eines einzigen Nachmittags genügend Daten gesammelt, um eine Strategie zu ermöglichen, die in neuen Umgebungen und mit neuen Objekten eine Erfolgsrate von ca. 90 % erzielt.

image.png

Die Forscher unterteilten die Generalisierungsfähigkeit in zwei Dimensionen: Umgebungs- und Objektgeneralisierung. Sie sammelten Daten menschlicher Demonstrationen mithilfe eines handgeführten Greifers in verschiedenen Umgebungen und mit unterschiedlichen Objekten und modellierten diese Daten mithilfe einer Diffusionsstrategie. Zunächst konzentrierten sich die Forscher auf zwei Aufgaben: das Eingießen von Wasser und das Ablegen einer Maus. Durch die Analyse, wie sich die Leistung der Strategie in neuen Umgebungen oder mit neuen Objekten mit zunehmender Anzahl der Trainingsumgebungen oder -objekte verändert, wurden die Skalierungsgesetzmäßigkeiten zusammengefasst.

Die Forschungsergebnisse zeigen:

Die Generalisierungsfähigkeit der Strategie für neue Objekte, neue Umgebungen oder beides steht in einer Potenzbeziehung zur Anzahl der Trainingsobjekte, Trainingsumgebungen bzw. Trainingsumgebungs-Objekt-Paare.

Die Erhöhung der Vielfalt an Umgebungen und Objekten ist effektiver als die Erhöhung der Anzahl von Demonstrationen pro Umgebung oder Objekt.

Das Sammeln von Daten in möglichst vielen Umgebungen (z. B. 32 Umgebungen), wobei jede Umgebung ein einzigartiges Objekt und 50 Demonstrationen enthält, ermöglicht das Trainieren einer Strategie mit hoher Generalisierungsfähigkeit (90% Erfolgsrate), die in neuen Umgebungen und mit neuen Objekten funktioniert.

Basierend auf diesen Skalierungsgesetzmäßigkeiten schlagen die Forscher eine effiziente Datenakquisitionsstrategie vor. Sie empfehlen, Daten in möglichst vielen verschiedenen Umgebungen zu sammeln, wobei in jeder Umgebung nur ein einzigartiges Objekt verwendet wird. Wenn die Gesamtzahl der Umgebungs-Objekt-Paare 32 erreicht, reicht dies in der Regel aus, um eine Strategie zu trainieren, die in neuen Umgebungen operieren und mit zuvor unbekannten Objekten interagieren kann. Für jedes Umgebungs-Objekt-Paar werden 50 Demonstrationen empfohlen.

Um die allgemeine Anwendbarkeit der Datenakquisitionsstrategie zu überprüfen, wendeten die Forscher sie auf zwei neue Aufgaben an: das Falten eines Handtuchs und das Herausziehen eines Ladegeräts. Die Ergebnisse zeigen, dass die Strategie auch bei diesen beiden neuen Aufgaben Strategien mit hoher Generalisierungsfähigkeit trainieren kann.

Die Studie zeigt, dass mit relativ geringem Zeit- und Ressourcenaufwand einzelne Aufgabenstrategien erlernt werden können, die sich ohne weitere Anpassung in jeder beliebigen Umgebung und mit beliebigen Objekten einsetzen lassen. Um die Forschung in diesem Bereich weiter zu unterstützen, hat das Tsinghua-Team seinen Code, seine Daten und seine Modelle veröffentlicht, in der Hoffnung, weitere Forschung in diesem Bereich anzuregen und letztendlich universelle Roboter zu entwickeln, die komplexe Probleme in offenen Welten lösen können.

论文地址:https://arxiv.org/pdf/2410.18647