Rupture du record : Découverte d'erreurs dans l'évaluation des modèles de langage
🤖 Introduction
Les modèles de langage ont parcouru un long chemin ces dernières années, avec des modèles tels que GPT-4 repoussant les limites de ce qui est possible. Cependant, évaluer avec précision les performances de ces modèles est une tâche complexe, et des recherches récentes ont révélé une multitude d'erreurs dans les références officielles telles que le test de compréhension linguistique multitâche massive (MMLU). Dans cet article, nous explorerons ces erreurs et discuterons de la manière dont elles peuvent être corrigées afin d'améliorer la précision de l'évaluation des modèles de langage.
Table des matières
1. Introduction
2. Le cadre Smart GPT
3. Le benchmark MMLU
4. Découverte d'erreurs dans le MMLU
5. La nécessité d'un benchmark indépendant
6. Applications pratiques de Smart GPT
7. Conclusion
Le cadre Smart GPT
Le cadre Smart GPT est une façon d'utiliser les dernières recherches en matière d'ingénierie de prompts pour améliorer les performances d'un modèle de langage tel que GPT-4. En incitant le modèle à réfléchir un peu avant de donner une réponse finale et en l'encourageant à s'auto-évaluer, nous pouvons améliorer ses performances dans presque toutes les tâches. Cette approche s'est révélée efficace dans de nombreux domaines, de la logique formelle aux mathématiques universitaires.
Cependant, évaluer les performances des modèles de langage en utilisant cette approche n'est pas sans difficultés. Pour évaluer systématiquement GPT-4 en utilisant le cadre Smart GPT, nous avions besoin d'un moyen d'extraire les réponses finales à partir de pages de réflexion et de résolution. Cela aurait été un processus coûteux et chronophage, et nous ne voulions pas compromettre l'exactitude de nos résultats en demandant à GPT-4 de noter ses propres réponses.
Le benchmark MMLU
Le benchmark MMLU est l'un des benchmarks les plus connus pour évaluer les performances des modèles de langage. Il comprend plus de 14 000 questions couvrant 57 domaines différents, et est utilisé par des équipes open source et des groupes tels que OpenAI et Google pour tester les performances de leurs modèles. Obtenir un score élevé sur le MMLU est considéré comme un bon signe d'IA générale, et un score de 89,8 % représente une capacité experte humaine.
Découverte d'erreurs dans le MMLU
Depuis fin avril, moi-même et l'ingénieur en apprentissage automatique Josh Stapleton avons évalué plus de 120 000 réponses des modèles GPT pour explorer leurs limites. Nos tests avec GPT-4 ont révélé de nombreuses erreurs dans le MMLU, notamment des contextes manquants, des erreurs factuelles et des questions ambiguës. Ces erreurs affectent considérablement les résultats finaux et pourraient potentiellement perturber un modèle de langage.
Par exemple, nous avons constaté que le MMLU sous-estime souvent les capacités des modèles de langage en exigeant une réponse d'un seul caractère sans permettre au modèle de réfléchir un peu au préalable. Nous avons également constaté que prendre la réponse la plus probable ne reflète pas toujours la meilleure réponse que le modèle est capable de fournir, et que les questions à dépendances multiples et les questions controversées peuvent poser des problèmes particuliers.
La nécessité d'un benchmark indépendant
Étant donné le nombre d'erreurs que nous avons découvertes dans le MMLU, il est nécessaire de faire appel à une organisation indépendante de référencement professionnelle. Une telle organisation pourrait concevoir une large gamme de tests de sujets rigoureusement vérifiés pour être sans ambiguïté, et les réponses pourraient être évaluées de manière aveugle par des humains pour garantir que tous les modèles sont soumis aux mêmes critères. Cela permettrait de déterminer les limites des modèles de langage, plutôt que leur niveau minimal.
Applications pratiques de Smart GPT
Malgré les défis liés à l'évaluation des modèles de langage, le cadre Smart GPT présente des applications pratiques dans de nombreux domaines. Par exemple, nous avons constaté qu'en fournissant à GPT-4 des exemples, de la cohérence et de l'auto-réflexion, nous avons pu améliorer sa précision dans les questions de diagnostic médical. Bien que nous ne suggérions pas de se fier aux modèles de langage pour les diagnostics médicaux, cette approche peut être appliquée à d'autres domaines pour pousser les modèles au plus près de leurs limites.
Conclusion
En conclusion, évaluer avec précision les performances des modèles de langage est une tâche complexe, et des recherches récentes ont révélé de nombreuses erreurs dans les références officielles telles que le MMLU. Cependant, en utilisant le cadre Smart GPT et en encourageant un référencement indépendant, nous pouvons améliorer la précision de l'évaluation des modèles de langage et pousser ces modèles au plus près de leurs limites.