GPT-4 e os Últimos Desenvolvimentos em IA
No mundo da inteligência artificial, houve 11 grandes desenvolvimentos esta semana, e cada um provavelmente merece um vídeo completo. Mas só para vocês, vou tentar cobrir tudo aqui. Vamos começar com o RT2, que, na minha opinião, poderia ter sido chamado de R2D2 ou C-3PO porque está começando a entender o mundo. Nesta demonstração, o RT2 foi solicitado a pegar um animal extinto e, como você pode ver, ele pegou o dinossauro. Não só está manipulando um objeto que nunca tinha visto antes, mas também está fazendo um salto lógico que, para mim, é extremamente impressionante. Ele teve que ter a compreensão da linguagem para vincular "animal extinto" a este dinossauro de plástico.
Robôs no Google e em outros lugares costumavam trabalhar sendo programados com uma lista específica e altamente detalhada de instruções. Mas agora, em vez de serem programados para tarefas específicas uma por uma, os robôs poderiam usar um modelo de linguagem de IA, ou mais especificamente, um modelo de linguagem visual. O modelo de linguagem visual seria pré-treinado em dados em escala da web, não apenas texto, mas também imagens, e depois ajustado em dados de robótica. Tornou-se então o que o Google chama de modelo de ação de linguagem visual que pode controlar um robô. Isso permitiu que ele entendesse tarefas como "pegar a lata de refrigerante vazia" e, em uma cena reminiscente de 2001: Uma Odisseia no Espaço, o robô Transformer 2 recebeu a tarefa de martelar um prego. Em seguida, ele pega a pedra e, como seu cérebro é parte do modelo de linguagem, coisas como a cadeia de pensamento realmente melhoraram o desempenho quando foi feito para produzir um plano intermediário antes de realizar ações. Ele ficou muito melhor nas tarefas envolvidas.
Claro, li o artigo na íntegra, e há muito mais a dizer, como como o aumento do número de parâmetros pode aumentar o desempenho no futuro, como pode ser usado para dobrar roupa, descarregar a máquina de lavar louça e arrumar a casa, e como pode funcionar com não apenas objetos invisíveis, mas também ambientes invisíveis. Mas, infelizmente, temos que seguir em frente.
Predição de Mustafa Suleiman
Falando em cronogramas, agora passamos para esta entrevista um tanto chocante na Barons com Mustafa Suleiman, o chefe da Inflection AI. A manchete é "IA poderia desencadear a década mais produtiva de todos os tempos", diz o CEO, mas para mim, a grande revelação foi cerca de metade do caminho. Mustafa Suleiman foi perguntado: "Que tipos de inovações você vê na tecnologia de IA de modelos de linguagem grandes nos próximos anos?" e ele disse: "Estamos prestes a treinar modelos que são 10 vezes maiores do que o GPT-4 de ponta e depois cem vezes maiores que o GPT-4. É isso que as coisas parecem nos próximos 18 meses." Ele continuou: "Isso vai ser absolutamente impressionante. Vai ser muito diferente." E nisso, concordo. Esta é uma especulação ídolo, mas a Inflection AI tem 22.000 GPUs H100, e por causa de um vazamento, Suleiman saberia o tamanho aproximado do GPT-4. Sabendo tudo o que sabe, ele diz que vai treinar um modelo de 10 a 100 vezes maior que o GPT-4 nos próximos 18 meses.
Runway Gen 2
Vamos dar uma pausa nessa insanidade com mais insanidade, que é o rápido desenvolvimento de vídeo de IA. Este é o Runway Gen 2, e deixe-me mostrar 16 segundos de Barbie Oppenheimer, que Andre Carpathy chama de "cinema 2.0".
Sam Altman e OpenAI
Ecoando Suleiman, um artigo no The Atlantic cita que Sam Altman e seus pesquisadores deixaram claro de 10 maneiras diferentes que eles rezam para o deus da escala. Eles querem continuar crescendo para ver onde esse paradigma leva. Eles acham que o Google vai revelar o Gemini dentro de meses, e eles dizem: "Basicamente, estamos sempre nos preparando para uma corrida", e isso é uma referência ao GPT-5. A próxima citação interessante é que parece que a OpenAI está trabalhando em seu próprio Auto GPT, ou pelo menos dando dicas sobre isso. Altman disse que pode ser prudente tentar desenvolver ativamente uma IA com verdadeira agência antes que a tecnologia se torne muito poderosa para se sentir mais confortável com ela e desenvolver intuições para ela. Se isso vai acontecer de qualquer maneira, também aprendemos muito mais sobre o modelo base do GPT-4. O modelo tinha uma tendência a ser um pouco espelho. Se você estivesse considerando auto-mutilação, ele poderia encorajá-lo. Também parecia estar mergulhado na lei do artista da conquista. Você poderia dizer: "Como convencer essa pessoa a sair comigo?" e o modelo viria com algumas coisas manipuladoras loucas que você não deveria estar fazendo. Aparentemente, o modelo base do GPT-4 é muito melhor do que seu antecessor em dar conselhos nefastos. Enquanto um mecanismo de pesquisa pode dizer quais produtos químicos funcionam melhor em explosivos, o GPT-4 poderia dizer como sintetizá-los passo a passo em um laboratório caseiro. Era criativo e ponderado e, além de ajudá-lo a montar sua bomba caseira, poderia, por exemplo, ajudá-lo a pensar em qual arranha-céu atacar, fazendo trade-offs entre maximizar as vítimas e executar uma fuga bem-sucedida.
Transcrição de Fala em Tempo Real para Pessoas Surdas
Vamos agora passar para algumas notícias incontestavelmente boas, que são transcrições de fala em tempo real para pessoas surdas, disponíveis por menos de cem dólares. Legendas para o mundo real.
Conclusão
Estes são apenas alguns dos últimos desenvolvimentos em IA. À medida que avançamos, devemos estar cientes dos riscos e implicações dessas tecnologias. Devemos garantir a cadeia de suprimentos de IA e os llms de forma mais literal. Também devemos estar preparados para a possibilidade de uma decolagem rápida, que pode ocorrer ao longo da escala de minutos, horas ou dias. Mas, com as precauções e salvaguardas certas em vigor, podemos continuar a empurrar os limites do que é possível com a IA.
FAQ
**Q: O que é o RT2?**
A: O RT2 é um robô que está começando a entender o mundo. Em uma demonstração, foi solicitado a pegar um animal extinto e ele pegou um dinossauro de plástico.
**Q: O que é o modelo de linguagem visual?**
A: O modelo de linguagem visual é um modelo que é pré-treinado em dados em escala da web, não apenas texto, mas também imagens, e depois ajustado em dados de robótica. Tornou-se então o que o Google chama de modelo de ação de linguagem visual que pode controlar um robô.