DeepMinds ‘Gato’ ist mittelmäßig, also warum haben sie es gebaut?

deepmind-gato-slash-image-closer-in.png

Das neuronale Netzwerk „Gato“ von DeepMind zeichnet sich durch zahlreiche Aufgaben aus, darunter die Steuerung von Roboterarmen, die Blöcke stapeln, das Spielen von Atari 2600-Spielen und das Versehen von Bildern mit Untertiteln.

DeepMind

Die Welt ist es gewohnt, Schlagzeilen über den neuesten Durchbruch von Deep-Learning-Formen der künstlichen Intelligenz zu sehen. Die neueste Errungenschaft der DeepMind-Abteilung von Google könnte jedoch als „ein KI-Programm, das in vielen Dingen einen mittelmäßigen Job macht“ zusammengefasst werden.

Gato, wie das Programm von DeepMind heißt, wurde diese Woche vorgestellt als sogenanntes multimodales Programm, das Videospiele spielen, chatten, Kompositionen schreiben, Bilder beschriften und einen Roboterarm steuern kann, der Blöcke stapelt. Es ist ein neuronales Netzwerk, das mit mehreren Arten von Daten arbeiten kann, um mehrere Arten von Aufgaben auszuführen.

„Mit einem einzigen Satz Gewichte kann Gato Dialoge führen, Bilder beschriften, Blöcke mit einem echten Roboterarm stapeln, Menschen beim Spielen von Atari-Spielen übertreffen, in simulierten 3D-Umgebungen navigieren, Anweisungen befolgen und vieles mehr“, schreibt Hauptautor Scott Reed und Kollegen in ihrem Artikel “A Generalist Agent” auf dem Arxiv-Preprint-Server gepostet.

DeepMind-Mitbegründer Demis Hassabis feuerte das Team an, Ausruf in einem Tweet“Unser bisher umfassendster Agent!! Fantastische Arbeit vom Team!”

Ebenfalls: Ein neues Experiment: Kennt KI wirklich Katzen oder Hunde – oder irgendetwas?

Der einzige Haken ist, dass Gato bei einigen Aufgaben eigentlich nicht so gut ist.

Einerseits kann das Programm besser als ein dediziertes maschinelles Lernprogramm einen Sawyer-Roboterarm steuern, der Blöcke stapelt. Andererseits erzeugt es Bildunterschriften, die in vielen Fällen ziemlich schlecht sind. Seine Fähigkeit zum Standard-Chat-Dialog mit einem menschlichen Gesprächspartner ist ähnlich mittelmäßig und führt manchmal zu widersprüchlichen und unsinnigen Äußerungen.

Und das Spielen von Atari 2600-Videospielen fällt unter das der meisten dedizierten ML-Programme, die für den Wettbewerb im Benchmark entwickelt wurden Arcade-Lernumgebung.

Warum würdest du ein Programm machen, das einige Dinge ziemlich gut macht und ein paar andere Dinge nicht so gut? Zurück und Erwartung, so die Autoren.

Es gibt Präzedenzfälle dafür, dass allgemeinere Arten von Programmen zum Stand der Technik in der KI werden, und es besteht die Erwartung, dass zunehmende Mengen an Rechenleistung in Zukunft die Mängel ausgleichen werden.

Allgemeinheit kann dazu neigen, in der KI zu triumphieren. Wie die Autoren unter Berufung auf den KI-Forscher Richard Sutton anmerken, „haben generische Modelle, die besser in der Lage sind, Berechnungen zu nutzen, in der Vergangenheit tendenziell auch spezialisiertere domänenspezifische Ansätze überholt.“

Wie Sutton schrieb in einem eigenen Blogbeitrag„Die größte Lektion, die man aus 70 Jahren KI-Forschung lesen kann, ist, dass allgemeine Methoden, die die Berechnung nutzen, letztendlich die effektivsten sind, und zwar mit großem Abstand.“

In einer formellen These schreiben Reed und sein Team, dass „wir hier die Hypothese testen, dass es möglich ist, einen Agenten zu trainieren, der im Allgemeinen für eine große Anzahl von Aufgaben geeignet ist; und dass dieser Generalagent mit wenig zusätzlichen Daten angepasst werden kann, um erfolgreich zu sein noch mehr Aufgaben.”

Ebenfalls: Metas KI-Koryphäe LeCun erforscht die Energiegrenze von Deep Learning

Das Modell ist in diesem Fall tatsächlich sehr allgemein. Es ist eine Version von Transformer, der vorherrschenden Art von aufmerksamkeitsbasiertem Modell, das zur Grundlage zahlreicher Programme geworden ist, darunter GPT-3. Ein Transformer modelliert die Wahrscheinlichkeit eines Elements angesichts der Elemente, die es umgeben, wie z. B. Wörter in einem Satz.

Im Fall von Gato können die DeepMind-Wissenschaftler dieselbe bedingte Wahrscheinlichkeitssuche auf zahlreiche Datentypen anwenden.

Wie Reed und Kollegen die Aufgabe des Trainings von Gato beschreiben,

Während der Trainingsphase von Gato werden Daten aus verschiedenen Aufgaben und Modalitäten in eine flache Folge von Token serialisiert, gestapelt und von einem neuronalen Transformatornetz ähnlich einem großen Sprachmodell verarbeitet. Der Verlust wird maskiert, sodass Gato nur Aktions- und Textziele vorhersagt.

Mit anderen Worten, Gato behandelt Token nicht anders, egal ob es sich um Wörter in einem Chat oder um Bewegungsvektoren in einer Blockstapelübung handelt. Es ist alles das Gleiche.

deepmind-wie-gato-ausgebildet wird.png

Gato-Trainingsszenario.

Reedet al. 2022

Vergraben in der Hypothese von Reed und dem Team ist eine logische Folge, nämlich dass letztendlich immer mehr Rechenleistung gewinnen wird. Im Moment ist Gato durch die Reaktionszeit eines Sawyer-Roboterarms begrenzt, der das Blockstapeln durchführt. Mit 1,18 Milliarden Netzwerkparametern ist Gato deutlich kleiner als sehr große KI-Modelle wie GPT-3. Da Deep-Learning-Modelle immer größer werden, führt die Durchführung von Inferenzen zu einer Latenz, die in der nicht deterministischen Welt eines realen Roboters versagen kann.

Reed und seine Kollegen gehen jedoch davon aus, dass diese Grenze überschritten wird, wenn die KI-Hardware schneller verarbeitet wird.

„Wir konzentrieren unser Training auf den Betriebspunkt im Modellmaßstab, der die Echtzeitsteuerung von realen Robotern ermöglicht, derzeit etwa 1,2 Milliarden Parameter im Fall von Gato“, schrieben sie. “Wenn sich Hardware und Modellarchitekturen verbessern, wird dieser Betriebspunkt natürlich die realisierbare Modellgröße erhöhen und generalistische Modelle auf der Skalierungsgesetzkurve weiter nach oben schieben.”

Daher ist Gato wirklich ein Modell dafür, wie der Rechenumfang weiterhin der Hauptvektor der Entwicklung des maschinellen Lernens sein wird, indem allgemeine Modelle immer größer werden. Größer ist besser, mit anderen Worten.

deepmind-wird-besser-mit-scale.png

Gato wird besser, wenn die Größe des neuronalen Netzwerks in Parametern zunimmt.

Reedet al. 2022

Und die Autoren haben einige Beweise dafür. Gato scheint besser zu werden, wenn es größer wird. Sie vergleichen durchschnittliche Punktzahlen über alle Benchmark-Aufgaben für drei Modellgrößen nach Parametern, 79 Millionen, 364 Millionen, und dem Hauptmodell, 1,18 Milliarden. „Wir können sehen, dass es bei einer äquivalenten Token-Anzahl eine signifikante Leistungsverbesserung mit zunehmender Skalierung gibt“, schreiben die Autoren.

Eine interessante Zukunftsfrage ist, ob ein Programm, das ein Generalist ist, gefährlicher ist als andere Arten von KI-Programmen. Die Autoren verbringen viel Zeit in der Arbeit damit, die Tatsache zu diskutieren, dass es potenzielle Gefahren gibt, die noch nicht gut verstanden sind.

Die Idee eines Programms, das mehrere Aufgaben übernimmt, suggeriert dem Laien eine Art menschliche Anpassungsfähigkeit, aber das kann eine gefährliche Fehleinschätzung sein. „Zum Beispiel könnte die physische Verkörperung dazu führen, dass Benutzer den Agenten vermenschlichen, was im Falle eines fehlerhaften Systems zu falschem Vertrauen führt oder von schlechten Akteuren ausgenutzt werden kann“, schreiben Reed und sein Team.

„Während der domänenübergreifende Wissenstransfer oft ein Ziel der ML-Forschung ist, könnte er außerdem zu unerwarteten und unerwünschten Ergebnissen führen, wenn bestimmte Verhaltensweisen (z. B. Kampf in Arcade-Spielen) in den falschen Kontext übertragen werden.“

Daher schreiben sie: “Die Ethik- und Sicherheitserwägungen des Wissenstransfers erfordern möglicherweise erhebliche neue Forschungen, wenn sich generalistische Systeme weiterentwickeln.”

(Als interessante Randnotiz verwendet das Gato-Papier ein Schema zur Beschreibung von Risiken, das von der ehemaligen Google-KI-Forscherin Margaret Michell und Kollegen entwickelt wurde und Modellkarten heißt. Modellkarten geben eine kurze Zusammenfassung dessen, was ein KI-Programm ist, was es tut und was Faktoren beeinflussen, wie es funktioniert. Das schrieb Michell letztes Jahr Sie wurde aus Google vertrieben für die Unterstützung ihres ehemaligen Kollegen Timnit Gebru, dessen ethische Bedenken in Bezug auf KI mit Googles KI-Führung in Konflikt gerieten.)

Gato ist keineswegs einzigartig in seiner verallgemeinernden Tendenz. Es ist Teil des breiten Trends zur Verallgemeinerung und zu größeren Modellen, die jede Menge Pferdestärken verbrauchen. Die Welt bekam zum ersten Mal einen Vorgeschmack auf Googles Neigung in diese Richtung letzten Sommermit dem neuronalen Netzwerk „Perceiver“ von Google, das Text-Transformer-Aufgaben mit Bildern, Ton und räumlichen LiDAR-Koordinaten kombiniert.

Ebenfalls: Googles Supermodel: DeepMind Perceiver ist ein Schritt auf dem Weg zu einer KI-Maschine, die alles und jedes verarbeiten kann

Zu seinen Kollegen gehört PaLM, das Pathways Language Model, Dieses Jahr von Google-Wissenschaftlern eingeführtein 540-Milliarden-Parameter-Modell, das eine neue Technologie zur Koordinierung Tausender Chips nutzt, bekannt als Pfade, ebenfalls bei Google erfunden. Ein neuronales Netz Januar veröffentlicht von Meta, genannt “data2vec”, verwendet Transformers für Bilddaten, Sprach-Audio-Wellenformen und Textsprachdarstellungen in einem.

Was neu an Gato ist, so scheint es, ist die Absicht, KI, die für nicht robotische Aufgaben verwendet wird, in den Bereich der Robotik zu bringen.

Die Schöpfer von Gato, die die Errungenschaften von Pathways und anderen generalistischen Ansätzen zur Kenntnis nehmen, sehen die ultimative Errungenschaft in der KI, die in der realen Welt mit jeder Art von Aufgaben eingesetzt werden kann.

„Zukünftige Arbeiten sollten überlegen, wie diese Textfähigkeiten zu einem vollständig generalistischen Agenten vereinheitlicht werden können, der auch in Echtzeit in der realen Welt, in verschiedenen Umgebungen und Ausführungsformen agieren kann.“

Sie könnten Gato also als einen wichtigen Schritt auf dem Weg zur Lösung betrachten Das schwierigste Problem der KI, die Robotik.

Leave a Comment

Your email address will not be published.