Erkundung der Grenzen von GPT-4: Brechen von Benchmarks und Steigerung der Leistung
🤖 Einführung
Seit Ende April haben ich und der Machine-Learning-Ingenieur Josh Stapleton über hundertzwanzigtausend Antworten von GPT-Modellen ausgewertet, um ihre Grenzen zu erkunden. In meinem ursprünglichen Smart GPT-Video zeigte ich, dass selbst beliebte TED-Talks, die GPT-4 als dumm bezeichneten, nicht genau testeten, was GPT-4 leisten konnte, und tatsächlich konnte es solche Fragen leicht richtig beantworten. Wir ahnten jedoch nicht, dass unsere Tests mit GPT-4 im Sommer eine Vielzahl von Fehlern in einem offiziell weltweit verwendeten Benchmark aufdecken würden und Bedenken aufdecken würden, von denen selbst OpenAI und Google anscheinend nicht wissen. Aber am Ende dieses Artikels möchte ich zeigen, wie Sie von unseren Experimenten profitieren können, einschließlich unerwarteter Bereiche wie Medizin.
Inhaltsverzeichnis
1. Einführung
2. Das Smart GPT Framework
3. Die Kraft der Reflexion und des Selbstdialogs
4. Benchmarking von GPT-4
5. Der MMLU-Benchmark
6. Fehler im MMLU-Benchmark
7. Brechen des Benchmarks
8. Steigerung der Leistung
9. Praktische Anwendungen
10. Fazit
🧠 Das Smart GPT Framework
Smart GPT war eine Möglichkeit, die neueste Forschung im Bereich Prompt-Engineering zu nutzen, um eine bessere Leistung in einem Modell wie GPT-4 auszulösen. Das Modell dazu zu bringen, ein wenig zu denken, d.h. einige Token zu verwenden, bevor es eine endgültige Antwort gibt, war entscheidend. Ein weiteres wichtiges Element, über das ich in diesem Video gesprochen habe, war die Kraft der Selbstreflexion des Modells, eine Erkenntnis, die ich aus Gesprächen mit dem Hauptautor des berühmten Reflexionspapiers gewonnen habe. Meine manuellen Experimente zeigten, dass Sie durch die Verwendung optimierter Prompts, Reflexion und Selbstgespräche die Leistung in fast jeder Aufgabe steigern können. Ich demonstrierte die Verbesserung in formaler Logik und Hochschulmathematik, aber es gab ein Problem. Wie konnte ich GPT-4 systematisch mit diesen Methoden benchmarken, wenn ich nur eine Person bin?
🗂️ Die Kraft der Reflexion und des Selbstdialogs
Hier kommt Josh Stapleton, ein außergewöhnlicher Machine-Learning-Ingenieur, ins Spiel. Ohne ihn wäre es unmöglich gewesen, eine so ausgearbeitete, flexible Codebasis aufzubauen, mit der wir Experimente systematisieren und schnell iterieren konnten. Aber dann erkannten wir beide schnell, dass es ein weiteres Problem beim Benchmarking der ursprünglichen Version von Smart GPT auf Zehntausenden von offiziellen Fragen gab. Es wäre die Hölle, die endgültigen Antworten innerhalb von Seiten von Reflexion und Lösung manuell herauszuziehen, ganz zu schweigen davon, dass es Zehntausende von Dollar kosten würde. Und glauben Sie mir, ein Monat YouTube-Werbung würde nicht einmal die erste Stunde dieses Laufs abdecken. Leider und nein, wir würden niemals Kompromisse eingehen, indem wir GPT-4 bitten, seine eigenen Antworten zu bewerten. Es wäre unwissenschaftlich und ungenau. Das berüchtigte MIT-Papier ist genug Beweis dafür. GPT-4 hat keinen 100 auf einen MIT-Abschluss bekommen, und dieses Papier wurde zurückgezogen. Ja, wir mussten das Leistungsniveau von Smart GPT senken, die Reflexion und Lösung loswerden und bewusst einen Teil seiner Intelligenz opfern, weil wir es uns einfach nicht leisten konnten, es vollständig freizusetzen. Und dennoch haben wir immer noch einen neuen, wenn auch inoffiziellen, Rekord von 88,4 auf dem MMLU erreicht, der nicht nur den von OpenAI aufgezeichneten Wert von 86,4 übertrifft, sondern auch die Prognosen für 2024, die Metaculus vor TPT aufgestellt hat. Und dennoch sind wir beide überzeugt, dass es mindestens ein Dutzend weitere Möglichkeiten gibt, die Leistung mit vorhandenen Modellen weiter zu steigern. Ja, das könnte bedeuten, dass GPT-4 ein Ergebnis erhält, das für Juni 2025 reserviert ist. Das Problem ist, wir haben die Grenzen dessen erreicht, was ein selbstfinanzierendes Team von zwei Personen tun kann.
📊 Benchmarking von GPT-4
Bevor ich kurz darauf eingehe, was der MMLU ist, freue ich mich sagen zu können, dass alle unsere Ergebnisse und Antworten, das sind 2850 für den GPT-4-Lauf und über 120.000 für GPT 3.5, frei verfügbar sind, um in einem GitHub-Repository zu durchsuchen, das in der Beschreibung verlinkt ist. Der MMLU ist wohl der bekannteste Benchmark für die Leistung von Sprachmodellen. Es steht für massive Multitask-Sprachverständnis, massiv, weil es über 14.000 Fragen und Multitask hat, weil es 57 verschiedene Domänen abdeckt. Die Idee dahinter war wirklich fantastisch, und es ist wichtig genug, um prominent auf der ersten Seite des GPT-4-Technischen Berichts zu erscheinen. In der Vergangenheit habe ich gesagt, dass es ein gutes Zeichen für AGI wäre, wenn man hundert Prozent in diesem Test erreichen würde. Andere haben über 95 gesprochen. Ich denke, ich habe eine Chance von etwa 50%, dass es innerhalb der nächsten 20 Jahre oder so etwas geben wird, das meinen Anruf in HEI oder eine transformative KI darstellt.
🔍 Der MMLU-Benchmark
Was meine ich damit? Nun, vielleicht können wir es anhand von Benchmarks messen. Es gibt diesen berühmten MMLU-Benchmark, der wie 95 Punkte erzielt. Das Papier selbst stellt fest, dass eine Leistung von 89,8 die Fähigkeit eines menschlichen Experten darstellt, was, wie Sie am Titel erkennen können, fast erreicht ist. Und wie Sie gleich sehen werden, könnte GPT-4 mit der vollen Kraft des Prompt-Engineerings derzeit wahrscheinlich 90 bis 92 erreichen. Und ganz ehrlich, ob es GPT-5 oder Gemini ist, diese 95-Schwelle sollte im nächsten Jahr leicht gebrochen werden, nicht in 20 Jahren.
🚨 Fehler im MMLU-Benchmark
Wir gehen in neue Kategorien über. Hier ist eine Frage aus der Ökonometrie, bei der die Quelle wieder falsch war, aber wir haben auch Rechtschreibfehler, grammatische Mehrdeutigkeit und Formatierungs-Mehrdeutigkeit im gesamten Test. Ich werde nicht alle durchgehen, aber jede davon könnte ein Modell potenziell verwirren. Wir wissen bereits, dass Modelle sehr empfindlich auf die von Ihnen gegebenen Eingaben reagieren. Gibt es noch weitere Kategorien? Ja, es gibt sie. Es gibt viele saftige Beispiele hier, aber ich kann nicht alle erreichen. Wie wäre es mit einem Beispiel für mehrere Fragenabhängigkeiten? Zum Beispiel kam dies in der Philosophie-Sektion vor. Nach Singer erfordert die Einhaltung seines Prinzips, aber natürlich sagt es nicht, welches seiner Prinzipien. Oder diese hier, sind Kryptowährungen teuer oder billig? Gibt es darauf eine einfache Antwort? Und es gab eine Frage, für die ich etwa drei Stunden Forschung betrieben habe. Was ist die größte Todesursache bei Kindern unter fünf Jahren? Und es gibt mehrere Quellen, die widersprüchliche Antworten geben.