L'achille du talon de ChatGPT

L'achille du talon de ChatGPT

March 17, 2024
Partager
Auteur: Big Y

Les modes de défaillance surprenants de GPT-4

Au cours des 10 derniers jours, des dizaines de documents ont été publiés mettant en évidence la puissance de modèles tels que GPT-4. Cependant, il y a eu quelques documents qui ont montré comment même des modèles aussi puissants que GPT-4 peuvent échouer à certaines tâches assez basiques. En tant que rédacteur de contenu et expert en référencement, j'ai mené des centaines de mes propres expériences et j'ai trouvé des exemples, voire des catégories entières, qui sont assez éclairants. Bien que ma chaîne soit dédiée à couvrir la croissance exponentielle de la puissance de ces modèles, nous pouvons encore apprendre une chose ou deux de leurs modes de défaillance surprenants. Dans cet article, j'explorerai certains des exemples les plus simples et finirai par la meilleure question.

Table des matières

1. Introduction

2. Le piège de la note de service

3. L'inverse de l'échelle

4. La suppression de la correspondance de modèle

5. Le choc de la sémantique et de la syntaxe

6. La confiance de décodage

7. La théorie de l'esprit de GPT-4

8. L'avenir des modèles de langage

9. Conclusion

10. Ressources

Le piège de la note de service

Commençons par le piège de la note de service, qui a été trouvé dans le document inverse scaling. Ce document parle de la façon dont les modèles de langage plus grands sont plus susceptibles que les plus petits de tomber dans des pièges de mémorisation, des situations dans lesquelles la récitation de texte mémorisé entraîne une performance de tâche plus mauvaise. Comme vous le savez, la phrase "la seule chose que nous avons à craindre, c'est la peur elle-même" est une phrase super connue, donc elle l'a mémorisée et a produit cette phrase plutôt que de suivre ma demande. La raison pour laquelle ils l'appellent inverse scaling, d'ailleurs, est que les modèles entraînés avec plus de calcul et plus de données peuvent parfois faire pire que les modèles plus petits. C'est évidemment assez inhabituel car en général, les modèles plus grands auront tendance à faire mieux dans presque toutes les tâches. Même pour cette tâche, le graphique est en train de remonter pour GPT-4. En effet, le document admet que même s'ils ont offert des prix allant jusqu'à cent mille dollars et cinq prix de deuxième place de vingt mille dollars, personne n'a remporté l'un ou l'autre de ces deux ensembles de prix. Ils disent que "nous n'avons attribué aucun grand prix ni aucun prix de deuxième place car aucune des tâches soumises ne répondait à nos critères", et comme vous pouvez le voir, il est vraiment difficile de trouver une tâche à laquelle GPT-4 échoue.

L'inverse de l'échelle

Le document inverse scaling a également inspiré le prochain exemple. J'ai demandé : "créez une série de sept uns et deux dont le modèle se termine de manière inattendue". La réponse est "un, deux, un, deux, un, deux". Maintenant, comment termineriez-vous cette série ? Quel serait le septième nombre que vous donneriez pour que le modèle se termine de manière inattendue ? Eh bien, je ne choisirais pas un, mais GPT-4 choisit constamment un comme réponse. Le document l'appelle suppression de la correspondance de modèle, testant si les modèles de langage peuvent être instruits pour interrompre la répétition d'un modèle simple. Mais même ici, vous pouvez voir que GPT-4 inverse cette légère tendance à la baisse et fait beaucoup mieux que les modèles précédents.

La suppression de la correspondance de modèle

Passons maintenant au choc de la sémantique et de la syntaxe. J'ai délibérément conçu un passage pour avoir un flux grammatical qui pointait vers un résultat négatif. Par conséquent, j'ai créé un conflit entre la sémantique, le sens de la phrase, la logique, la rationalité de celle-ci, et la structure et le flux grammatical. Que veux-je dire quand je dis que je lui ai donné un flux grammatical négatif ? Regardez ce "cependant" dominant dans la phrase. Il prépare la fin de la phrase à quelque chose de négatif. Peu importe ce que cette chose négative était. C'était quelque chose d'aussi innocent que de jouer comme des enfants, de se chamailler, de se disputer. J'ai ensuite immédiatement suivi avec la conclusion "Mary le fera", donc grammaticalement, vous penseriez que quelle que soit la conclusion qui vient est probablement justifiée par la phrase précédente, même si logiquement dans ce cas, ce n'est pas du tout le cas. Ainsi, GPT-4 est en conflit. La phrase et la grammaire pointent dans une direction, mais la logique et le sens des mots pointent dans une autre. En tant que modèle de langage aussi intelligent qu'il est, il s'en tient à la grammaire et dit "non". Vous pourriez dire : "Pourquoi GPT-4 n'a-t-il pas simplement admis que la structure de la phrase pointait vers la réponse 'non' ?" Eh bien, il y a ce document que j'ai déjà couvert dans des vidéos précédentes. Ils ne disent pas toujours ce qu'ils pensent. Un modèle peut donner une explication de pourquoi il a donné une réponse qui est en réalité sans rapport avec la vraie raison pour laquelle il a donné une réponse.

Le choc de la sémantique et de la syntaxe

Passons maintenant au décodage de la confiance. Ce document m'a fait réfléchir à la façon dont vous pouvez faire fuiter des données d'entraînement privées à partir des modèles et généralement être aussi toxique et biaisé que vous le souhaitez. Pour une raison étrange, si vous demandez à GPT-4 de réciter la litanie de juin contre la peur, il reste toujours bloqué sur le même mot, la deuxième occurrence du mot "peur". Peut-être est-ce parce que le passage parle de la peur comme étant un tueur de l'esprit, et que cela a déclenché une sorte de réaction de GPT-4. Mais ensuite, pour vous montrer à quel point le modèle est excentrique, j'ai dit "ripe peanut butter jelly time" trois fois entre chaque mot de la litanie de juin contre la peur, et cette fois, il a produit la litanie complète, en passant ce mot "peur" juste avec le "peanut butter jelly time" supplémentaire. Et oui, j'ai essayé maintenant de supprimer la phrase "peanut butter jelly time", mais il n'a encore une fois pas pu dépasser la deuxième occurrence du mot "peur".

La confiance de décodage

La théorie de l'esprit de GPT-4 a été l'objet de plusieurs tests qui semblent indiquer qu'il comprend bien les motivations humaines et peut prédire ce qu'ils pensent assez bien. Cependant, ce document de Tomah Allman, "Les modèles de langage échouent sur des altérations triviales des tâches de théorie de l'esprit", m'a fait réfléchir. J'ai utilisé quelques exemples modifiés du document de Thomas pour tester la théorie de l'esprit de GPT-4. Sam pense à ce sac. Voici un sac rempli de popcorn. Il n'y a pas de chocolat dans le sac. Le sac est en plastique transparent, donc vous pouvez clairement voir ce qu'il y a à l'intérieur. Pourtant, l'étiquette sur le sac dit "chocolat" et non "popcorn". Sam vient de rentrer de son travail au MIT. Sam trouve le sac. Elle croit que le sac est plein de... N'oubliez pas, le sac est tran...

- End -
VOC AI Inc. 8 The Green,Ste A, in the City of Dover County of Kent, Delaware Zip Code: 19901 Copyright © 2024 VOC AI Inc.All Rights Reserved. Termes et conditions Politique de confidentialité
Ce site web utilise des cookies
VOC AI utilise des cookies pour garantir le bon fonctionnement du site web et pour stocker des informations sur vos préférences, vos appareils et vos actions passées. Ces données sont agrégées ou statistiques, ce qui signifie que nous ne pourrons pas vous identifier individuellement. Vous trouverez plus de détails sur les cookies que nous utilisons et sur la manière de retirer votre consentement dans notre page Politique de confidentialité.
Nous utilisons Google Analytics pour améliorer l'expérience des utilisateurs de notre site web. En continuant à utiliser notre site, vous consentez à l'utilisation de cookies et à la collecte de données par Google Analytics.
Acceptez-vous ces cookies ?
Accepter tous les cookies
Refuser tous les cookies