SmartGPT: Grande referência quebrada - 89,0% no MMLU + Muitos erros nos exames.

SmartGPT: Grande referência quebrada - 89,0% no MMLU + Muitos erros nos exames.

March 17, 2024
Partilhar
Autor: Big Y

Explorando os Limites do GPT-4: Quebrando Referências e Aumentando o Desempenho

🤖 Introdução

Desde o final de abril, eu e o engenheiro de aprendizado de máquina Josh Stapleton temos avaliado mais de 120.000 respostas dos modelos GPT para explorar seus limites. No meu vídeo original sobre o GPT inteligente, mostrei que até mesmo palestras populares do TED que chamavam o GPT-4 de estúpido não estavam testando com precisão o que o GPT-4 poderia fazer, e na verdade, ele poderia facilmente acertar tais perguntas. Pouco sabíamos que, no verão, nossos testes com o GPT-4 revelariam uma série de erros em uma referência oficialmente usada globalmente, revelando preocupações que nem mesmo a OpenAI e o Google parecem estar cientes. Mas, ao final deste artigo, quero mostrar como você pode se beneficiar tangivelmente de nossos experimentos, inclusive em domínios inesperados como a medicina.

Tabela de Conteúdos

- Introdução

- Tabela de Conteúdos

- O Framework do GPT Inteligente

- O Poder da Auto-Reflexão

- Referenciando o GPT-4

- A Referência MMLU

- Descobrindo Erros na MMLU

- A Necessidade de Referências Independentes

- Aumentando o Desempenho com o GPT Inteligente

- Aplicações Práticas do GPT Inteligente

- Prós e Contras do GPT-4

- Destaques

- Perguntas Frequentes

O Framework do GPT Inteligente

Para começar, aqui está uma introdução super rápida para aqueles que não viram o vídeo original. O GPT Inteligente foi uma maneira de usar as últimas pesquisas em engenharia de prompts para melhorar o desempenho de um modelo como o GPT-4. Fazer o modelo pensar um pouco, ou seja, usar alguns tokens antes de dar uma resposta final, era fundamental. Outro elemento importante que mencionei naquele vídeo foi o poder de fazer o modelo se auto-refletir, uma ideia que obtive de conversas com o autor principal do famoso artigo sobre reflexão. Meus experimentos manuais mostraram que, ao usar prompts otimizados, reflexão e diálogo interno, era possível aumentar o desempenho em quase qualquer tarefa. Demonstrei a melhoria em lógica formal e matemática universitária, mas havia um problema, e é por isso que vocês não ouviram falar do GPT Inteligente por um tempo. Como eu poderia referenciar sistematicamente o GPT-4 usando esses métodos quando sou apenas uma pessoa? Bem, entra em cena Josh Stapleton, um engenheiro de aprendizado de máquina extraordinário. Sem ele, teria sido impossível desenvolver uma base de código tão completa e flexível com a qual pudéssemos sistematizar experimentos e iterar rapidamente.

O Poder da Auto-Reflexão

Mas então nós dois rapidamente percebemos que havia outro problema ao referenciar a versão original do GPT Inteligente em dezenas de milhares de perguntas oficiais. Seria um inferno extrair manualmente as respostas finais de páginas de reflexão e resolução, sem mencionar que custaria dezenas de milhares de dólares. E acredite em mim, um mês de publicidade no YouTube não cobriria nem mesmo a primeira hora dessa execução. Infelizmente, e não, nunca comprometeríamos pedindo ao GPT-4 para avaliar suas próprias respostas. Seria antiético e impreciso. O infame artigo do MIT é evidência suficiente disso. O GPT-4 não obteve 100 em um diploma do MIT, e esse artigo foi retirado. Portanto, sim, tivemos que reduzir o nível de poder do GPT Inteligente, eliminar a reflexão e a resolução, sacrificando deliberadamente parte de sua inteligência porque simplesmente não podíamos nos dar ao luxo de liberá-la completamente. E ainda assim conseguimos um novo recorde, embora não oficial, de 88,4 na MMLU, que não apenas supera os 86,4 registrados pela OpenAI, mas também supera as projeções para 2024 registradas antes do lançamento do TPT pela Metaculus. E ainda estamos convencidos de que existem pelo menos uma dúzia de maneiras de aumentar ainda mais o desempenho usando modelos existentes. Sim, isso pode significar que o GPT-4 obterá um resultado reservado para junho de 2025. A questão é que atingimos os limites do que uma equipe autofinanciada de duas pessoas pode fazer.

Referenciando o GPT-4

Antes de falar brevemente sobre o que é a MMLU, fico feliz em dizer que todos os nossos resultados e respostas, 2850 para a execução do GPT-4 e mais de 120.000 para o GPT 3.5, estão disponíveis gratuitamente para consulta em um repositório do GitHub vinculado na descrição. Então, o que diabos é a MMLU afinal? Bem, é possivelmente a referência mais conhecida do desempenho de modelos de linguagem. Significa compreensão de linguagem multitarefa em massa, "massive" porque possui mais de 14.000 perguntas e "multitarefa" porque abrange 57 domínios diferentes. A ideia por trás disso é realmente fantástica, e é importante o suficiente para ser destaque na primeira página do relatório técnico do GPT-4. No passado, eu disse que obter 100% nesse teste seria um bom sinal de IA geral. Outros falaram em 95%. Eu acredito que tenho cerca de 50% de chance, nos próximos 20 anos ou algo assim, de que algo será minha chamada em IA geral ou uma IA transformadora. O que quero dizer com isso? Bem, talvez possamos medir isso em referências. Há uma famosa referência MMLU que pontua algo como 95 nisso. E o próprio artigo observa que um desempenho de 89,8 representa a habilidade de um especialista humano, o que, como você pode ver pelo título, estamos muito perto de superar. E, como você verá em um momento, o GPT-4 com todo o poder da engenharia de prompts provavelmente poderia atingir de 90 a 92 agora mesmo. E, francamente, seja o GPT-5 ou o Gemini, esse limite de 95 deverá ser facilmente ultrapassado no próximo ano, não em 20 anos.

A Referência MMLU

Se não usamos todo o poder do GPT Inteligente, como conseguimos 88,4 e por que o título diz 89? Bem, deixe-me mostrar as duas facetas do GPT Inteligente que usamos. A questão é que a MMLU exige uma resposta de um único caractere, A, B, C ou D, e essa resposta deve ser imediata. Agora imagine fazer um teste em que o primeiro pensamento que você teve deve ser sua resposta final. Em uma rápida digressão, acredita-se que isso seja uma das principais razões para alucinações. Há um ótimo artigo sobre como as alucinações do modelo de linguagem podem se intensificar a partir dos primeiros tokens. Como eles dizem, o modelo de linguagem se compromete primeiro com uma resposta antes de fornecer a explicação, e isso é um problema porque os transformadores não conseguem encontrar a resposta em um único passo de tempo devido às suas habilidades de raciocínio limitadas dentro desse intervalo de tempo. E por que não la

- End -
VOC AI Inc. 8 The Green,Ste A, in the City of Dover County of Kent, Delaware Zip Code: 19901 Copyright © 2024 VOC AI Inc.All Rights Reserved. Termos e Condições Política de Privacidade
Este sítio Web utiliza cookies
A VOC AI utiliza cookies para garantir o bom funcionamento do site, para armazenar algumas informações sobre as suas preferências, dispositivos e acções passadas. Estes dados são agregados ou estatísticos, o que significa que não poderemos identificá-lo individualmente. Pode encontrar mais pormenores sobre os cookies que utilizamos e como retirar o consentimento na nossa Política de Privacidade.
Utilizamos o Google Analytics para melhorar a experiência do utilizador no nosso sítio Web. Ao continuar a utilizar o nosso sítio, está a consentir a utilização de cookies e a recolha de dados pelo Google Analytics.
Aceita estes cookies?
Aceitar todos os cookies
Rejeitar todos os cookies