Grandes modelos de linguagem não são pessoas. Vamos parar de testá-los como se fossem.

Com as esperanças e os receios em relação a esta tecnologia, é hora de concordar sobre o que ela pode e o que não pode fazer.

Quando Taylor Webb experimentou o GPT-3 no início de 2022, ele ficou impressionado com o que o grande modelo de linguagem da OpenAI parecia ser capaz de fazer. Aqui estava uma rede neural treinada apenas para prever a próxima palavra em um bloco de texto – um preenchimento automático acelerado. E ainda assim deu respostas corretas para muitos dos problemas abstratos que Webb lhe propôs — o tipo de coisa que você encontraria em um teste de QI. “Fiquei realmente chocado com sua capacidade de resolver esses problemas”, diz ele. “Isso derrubou completamente tudo o que eu teria previsto.”

Webb é psicólogo da Universidade da Califórnia, em Los Angeles, e estuda as diferentes maneiras pelas quais as pessoas e os computadores resolvem problemas abstratos. Ele estava acostumado a construir redes neurais que possuíam capacidades de raciocínio específicas. Mas o GPT-3 parecia tê-los aprendido de graça.

Conversas exclusivas que nos levam aos bastidores de um fenômeno cultural.

No mês passado, Webb e seus colegas publicaram um artigo na Nature, no qual descrevem a capacidade do GPT-3 de passar em uma variedade de testes desenvolvidos para avaliar o uso da analogia para resolver problemas (conhecido como raciocínio analógico). Em alguns desses testes, o GPT-3 teve uma pontuação melhor do que um grupo de alunos de graduação. “A analogia é fundamental para o raciocínio humano”, diz Webb. “Pensamos nisso como uma das principais coisas que qualquer tipo de inteligência de máquina precisaria demonstrar.”

O que a pesquisa de Webb destaca é apenas o mais recente de uma longa série de truques notáveis executados por grandes modelos de linguagem. Por exemplo, quando a OpenAI revelou o sucessor do GPT-3, o GPT-4, em março, a empresa publicou uma lista impressionante de avaliações profissionais e acadêmicas que alegou que seu novo modelo de linguagem grande havia obtido, incluindo algumas dezenas de testes do ensino médio. e o exame da ordem. Mais tarde, a OpenAI trabalhou com a Microsoft para mostrar que o GPT-4 poderia passar em partes do Exame de Licenciamento Médico dos Estados Unidos.

E vários pesquisadores afirmam ter demonstrado que grandes modelos de linguagem podem passar em testes projetados para identificar certas habilidades cognitivas em humanos, desde o raciocínio em cadeia de pensamento (trabalhar um problema passo a passo) até a teoria da mente (adivinhar o que outras pessoas estão pensando ).

Este tipo de resultados estão a alimentar uma máquina de propaganda que prevê que estas máquinas surgirão em breve para empregos de colarinho branco, substituindo professores, médicos, jornalistas e advogados. Geoffrey Hinton destacou a aparente capacidade do GPT-4 de unir pensamentos como uma das razões pelas quais ele agora está com medo da tecnologia que ajudou a criar.

Mas há um problema: há pouco acordo sobre o que esses resultados realmente significam. Algumas pessoas ficam deslumbradas com o que consideram lampejos de inteligência semelhante à humana; outros não estão nem um pouco convencidos.

“Existem vários problemas críticos com as atuais técnicas de avaliação para grandes modelos de linguagem”, diz Natalie Shapira, cientista da computação da Universidade Bar-Ilan em Ramat Gan, Israel. “Isso cria a ilusão de que eles têm capacidades maiores do que aquilo que realmente existe.”

É por isso que um número crescente de investigadores – cientistas da computação, cientistas cognitivos, neurocientistas, linguistas – quer rever a forma como são avaliados, exigindo uma avaliação mais rigorosa e exaustiva. Alguns pensam que a prática de pontuar máquinas em testes humanos é equivocada, ponto final, e deveria ser abandonada.

“As pessoas têm aplicado testes de inteligência humana – testes de QI e assim por diante – em máquinas desde o início da IA”, diz Melanie Mitchell, pesquisadora de inteligência artificial do Instituto Santa Fé, no Novo México. “A questão é o que significa quando você testa uma máquina como esta. Não significa a mesma coisa que significa para um ser humano.”

“Há muita antropomorfização acontecendo”, diz ela. “E isso influencia a maneira como pensamos sobre esses sistemas e como os testamos.”

Com as esperanças e os receios relativamente a esta tecnologia em alta, é crucial que tenhamos um controlo sólido sobre o que os grandes modelos de linguagem podem ou não fazer.

blog

Grandes modelos de linguagem não são pessoas. Vamos parar de testá-los como se fossem.