DeepMind hat heute ein neues multimodales KI-System vorgestellt, das mehr als 600 verschiedene Aufgaben ausführen kann.
Es heißt Gato und ist wohl das beeindruckendste All-in-One-Kit für maschinelles Lernen, das die Welt bisher gesehen hat.
Laut einem DeepMind Blogeintrag:
Der Agent, den wir als Gato bezeichnen, arbeitet als multimodale, multitask- und multiverkörperte generalistische Richtlinie. Das gleiche Netzwerk mit den gleichen Gewichten kann Atari spielen, Bilder beschriften, chatten, Blöcke mit einem echten Roboterarm stapeln und vieles mehr, und basierend auf seinem Kontext entscheiden, ob Text, Gelenkdrehmomente, Tastendrücke oder andere Token ausgegeben werden sollen.

Und während es abzuwarten bleibt, wie gut es sein wird, sobald Forscher und Benutzer außerhalb der DeepMind-Labors es in die Hände bekommen, scheint Gato alles zu sein, was GPT-3 wünscht, und noch mehr.
Deshalb macht mich das traurig: GPT-3 ist ein Large-Language-Model (LLM), das von OpenAI produziert wird, dem weltweit kapitalstärksten Unternehmen für künstliche allgemeine Intelligenz (AGI).
Bevor wir jedoch GPT-3 und Gato vergleichen können, müssen wir verstehen, woher sowohl OpenAI als auch DeepMind als Unternehmen kommen.
OpenAI ist eine Idee von Elon Musk, es wird von Microsoft in Milliardenhöhe unterstützt, und der US-Regierung könnte es im Grunde egal sein, was sie tut, wenn es um Regulierung und Aufsicht geht.
Denken Sie daran, dass OpenAI’s alleiniger Zweck ist, ein AGI zu entwickeln und zu kontrollieren (das ist eine KI, die in der Lage ist, alles zu tun und zu lernen, was ein Mensch bei gleichem Zugriff tun kann), ist es ein bisschen beängstigend, dass alles, was das Unternehmen produziert, ein wirklich schickes LLM ist.
Verstehen Sie mich nicht falsch, GPT-3 ist beeindruckend. Tatsächlich ist es wohl genauso beeindruckend wie Gato von DeepMind, aber diese Einschätzung erfordert einige Nuancen.
OpenAI ist aus einem einfachen Grund den LLM-Weg auf dem Weg zu AGI gegangen: Niemand weiß, wie man AGI zum Laufen bringt.
Genauso wie es zwischen der Entdeckung des Feuers und der Erfindung des Verbrennungsmotors einige Zeit gedauert hat, wird es nicht über Nacht geschehen, herauszufinden, wie man von Deep Learning zu AGI gelangt.
GPT-3 ist ein Beispiel für eine KI, die zumindest etwas tun kann, was menschlich erscheint: Sie generiert Text.
Was DeepMind mit Gato gemacht hat, ist, nun ja, ziemlich dasselbe. Es hat etwas genommen, das sehr ähnlich wie ein LLM funktioniert, und es in einen Illusionisten verwandelt, der zu mehr als 600 Formen der Vorahnung fähig ist.
Wie Mike Cook vom Forschungskollektiv Knives and Paintbrushes kürzlich erzählt Kyle Wiggers von TechCrunch:
Es klingt spannend, dass die KI all diese Aufgaben übernehmen kann, die ganz anders klingen, denn für uns klingt es so, als sei das Schreiben von Text etwas ganz anderes als das Steuern eines Roboters.
Aber in Wirklichkeit unterscheidet sich dies nicht allzu sehr von GPT-3, das den Unterschied zwischen gewöhnlichem englischen Text und Python-Code versteht.
Das soll nicht heißen, dass das einfach ist, aber für den Außenstehenden mag das so klingen, als könne die KI auch eine Tasse Tee kochen oder locker noch zehn oder fünfzig andere Aufgaben lernen, und das kann sie nicht.
Grundsätzlich sind Gato und GPT-3 beide robuste KI-Systeme, aber keines von ihnen ist zu allgemeiner Intelligenz fähig.
Hier ist mein Problem: Es sei denn, Ihr Spielen auf AGI ist das Ergebnis eines zufälligen Glücksfalles – des Films Kurzschluss kommt mir in den Sinn – es ist wahrscheinlich an der Zeit, dass jeder seine Zeitpläne für AGI überdenkt.
Ich würde nicht „nie“ sagen, denn das ist eines der einzigen verfluchten Worte der Wissenschaft. Aber das lässt es so aussehen, als würde AGI zu unseren Lebzeiten nicht stattfinden.
DeepMind arbeitet seit über einem Jahrzehnt an AGI und OpenAI seit 2015. Und keiner konnte das allererste Problem auf dem Weg zur Lösung von AGI angehen: eine KI zu bauen, die ohne Training neue Dinge lernen kann.
Ich glaube, dass Gato das fortschrittlichste multimodale KI-System der Welt sein könnte. Aber ich denke auch, dass DeepMind das gleiche genommen hat Sackgasse für AGI-Konzept die OpenAI hat und lediglich marktfähiger gemacht hat.
Abschließende Gedanken: Was DeepMind getan hat, ist bemerkenswert und wird dem Unternehmen wahrscheinlich eine Menge Geld einbringen.
Wenn ich der CEO von Alphabet (der Muttergesellschaft von DeepMind) bin, bringe ich Gato entweder als reines Produkt auf den Markt oder ich dränge DeepMind in mehr Entwicklung als Forschung.
Gato könnte das Potenzial haben, auf dem Verbrauchermarkt lukrativer zu agieren als Alexa, Siri oder Google Assistant (mit dem richtigen Marketing und geeigneten Anwendungsfällen).
Aber Gato und GPT-3 sind keine praktikableren Einstiegspunkte für AGI als die oben erwähnten virtuellen Assistenten.
Die Fähigkeit von Gato, mehrere Aufgaben auszuführen, ähnelt eher einer Videospielkonsole, die 600 verschiedene Spiele speichern kann, als einem Spiel, das Sie auf 600 verschiedene Arten spielen können. Es ist keine allgemeine KI, sondern ein Haufen vortrainierter, schmaler Modelle, die ordentlich gebündelt sind.
Das ist keine schlechte Sache, wenn es das ist, wonach Sie suchen. Aber an Gatos Begleitung ist einfach nichts dran Forschungsbericht Dies anzudeuten, ist für AGI sogar ein Blick in die richtige Richtung, geschweige denn ein Sprungbrett.
Irgendwann wird der Goodwill und das Kapital, das Unternehmen wie DeepMind und OpenAI durch ihr eisernes Beharren darauf, dass AGI gleich um die Ecke ist, generiert haben, auch nur die kleinste Dividende ausweisen müssen.