segunda-feira, 9 de dezembro de 2024

AUTOCOMPLETAR TUDO: A ASCENSÃO DOS MODELOS DE LINGUAGEM, de Mustafa Suleyman e Michael Bhaskar

 


Há não muito tempo, o processamento de linguagem natural parecia complexo, variado e com nuances demais para a IA moderna. Então, em novembro de 2022, a empresa de pesquisa de inteligência artificial OpenAI lançou o ChatGPT. Em uma semana, ele tinha mais de 1 milhão de usuários e era descrito em termos extasiados, uma tecnologia tão perfeitamente útil que poderia eclipsar a pesquisa do Google em pouco tempo.

O ChatGPT é, em termos simples, um chatbot. Mas é muito mais poderoso e polímata que qualquer coisa já apresentada ao público. Faça uma pergunta e ele responde instantaneamente em prosa fluente. Peça que ele escreva um ensaio, um comunicado de imprensa ou um plano de negócios no estilo da Bíblia do rei James ou de um rapper da década de 1980 e ele fará isso em segundos. Peça que ele escreva o programa de um curso de física, um manual de dieta ou um script de Python e ele responderá à altura.

Grande parte do que torna os humanos inteligentes é o fato de olharmos para o passado a fim de prevermos o que pode acontecer no futuro. Nesse sentido, a inteligência pode ser entendida como a habilidade de gerar cenários plausíveis sobre como o mundo à nossa volta pode se modificar e basear ações razoáveis nessas previsões. Em 2017, um pequeno grupo de pesquisadores do Google estava focado em uma versão mais específica desse problema: como fazer com que um sistema de IA focasse somente nas partes importantes de uma série de dados, a fim de fazer previsões precisas e eficientes sobre o que viria em seguida. O trabalho desse grupo criou a base do que foi nada menos do que uma revolução no campo dos grandes modelos de linguagem (LLMs em inglês) — incluindo o ChatGPT.

Os LLMs tiram vantagem do fato de que os dados da linguagem fluem em ordem sequencial. Cada unidade de informação está, de alguma forma, relacionada a dados anteriores em uma série. Os modelos leem números muito grandes de frases, aprendem uma representação abstrata das informações contidas nelas e então geram uma previsão sobre o que virá a seguir. O desafio está em projetar um algoritmo que “saiba onde olhar” em busca de sinais em determinada frase. Quais são as palavras-chave, mais salientes, e como elas se relacionam umas com as outras? Na IA, essa noção é comumente chamada de “atenção”.

Quando um grande modelo de linguagem ingere uma frase, ele constrói o que pode ser considerado um “mapa de atenção”. Primeiro, ele organiza os grupos de letras ou de sinais de pontuação que ocorrem mais comumente em “tokens”, algo como sílabas, mas, na verdade, somente amontoados de letras que ocorrem frequentemente e que tornam mais fácil o processamento das informações. Vale notar que os humanos fazem isso com palavras, é claro, mas o modelo não usa nosso vocabulário. Ele cria um novo vocabulário de tokens comuns que o ajuda a localizar padrões em bilhões e bilhões de documentos. No mapa de atenção, cada token tem algum relacionamento com todos os outros tokens antes dele e, para cada frase dada, a força desse relacionamento descreve algo sobre a importância do token naquela frase. Na prática, o LLM aprende em quais palavras prestar atenção.

Assim, na frase “Haverá uma grande tempestade no Brasil amanhã” o modelo provavelmente criaria tokens para as letras “ver” na palavra “haverá” e “ade” na palavra “tempestade” já que elas ocorrem comumente em outras palavras. Ao analisar toda a frase, ele aprenderia que “tempestade”, “Brasil” e “amanhã” são as características-chave, inferindo que Brasil é um lugar, a tempestade ocorrerá no futuro e assim por diante. Com base nisso, sugeriria quais tokens deveriam ocorrer em seguida, ou seja, que output se seguiria logicamente ao input. Em outras palavras, ele autocompletaria o que poderia vir em seguida.

Esses sistemas são chamados de transformadores. Desde que os pesquisadores do Google publicaram o primeiro artigo sobre eles em 2017, o ritmo do progresso foi estonteante. Logo depois, a OpenAI lançou o GPT-2 (GPT significa generative pre-trained transformer ou transformador pré-treinado generativo). Na época, ele era um modelo enorme. Com 1,5 bilhão de parâmetros (o número de parâmetros é uma medida central da escala e complexidade de um sistema de IA),” o GPT-2 foi treinado com 8 milhões de páginas de textos da web. Mas foi só no verão de 2020, quando a OpenAI lançou o GPT-3, que as pessoas realmente começaram a apreender a magnitude do que estava acontecendo. Com colossais 175 bilhões de parâmetros, ele era a maior rede neural já construída, mais de cem vezes maior que seu predecessor de somente um ano antes. Impressionante, sim, mas essa escala agora é rotineira, e o custo de treinar um modelo equivalente caiu dez vezes nos últimos dois anos.

Quando o GPT-4 foi lançado em março de 2023, os resultados foram novamente impressionantes. Como no caso de seus predecessores, você pode pedir ao GP'T-4 para compor poesia no estilo de Emily Dickinson e ele o atenderá; pedir que ele continue a partir de um trecho aleatório de O senhor dos anéis e subitamente estará lendo uma imitação plausível de Tolkien; solicitar planos para uma startup e o resultado será parecido com o de ter uma sala cheia de executivos. Além disso, ele acerta todas as questões de um teste-padrão do GRE (Graduate Record Examination).

Ele também consegue trabalhar com imagens e códigos, elaborar jogos em 3D que rodam em navegadores, criar apps para smartphone, corrigir bugs em programas, identificar fragilidades em contratos e sugerir componentes para novos medicamentos, chegando a oferecer maneiras de modificá-los a fm de que não sejam patenteados. Ele produz websites a partir de imagens desenhadas à mão e entende dinâmicas humanas sutis em cenas complexas; mostre a ele uma geladeira e ele dará sugestões de receitas com base no que há dentro; escreva o esboço de uma apresentação e ele a finalizará com aparência profissional. Ele parece “entender” raciocínio espacial e causal, medicina, leis e psicologia humana. Dias após o lançamento, as pessoas já haviam construído ferramentas para automatizar petições iniciais, ajudar pais a criarem os filhos e oferecer conselhos de moda em tempo real. Semanas depois, haviam criado extensões para que o GPT-4 pudesse realizar tarefas complexas como projetar aplicativos para celulares ou pesquisar e escrever detalhados relatórios de mercado.

E tudo isso é só o começo. Estamos apenas começando a ver o profundo impacto que os grandes modelos de linguagem estão prestes a ter. Se o DQN e o AlphaGo foram os primeiros sinais de que algo chegara à praia, o ChatGPT e os LLMs indicam que a onda já começou a quebrar à nossa volta. Em 1996, 36 milhões de pessoas usaram a internet; este ano, serão bem mais de 5 bilhões. Esse é o tipo de trajetória que devemos esperar dessas ferramentas, só que muito mais rapidamente. Acredito que nos próximos cinco anos a IA se tornará tão onipresente quanto a internet: igualmente disponível e com consequências ainda mais importantes."



(A próxima onda: inteligência artificial, poder e o maior dilema do século XXI; tradução de Alessandra Bonrruquer)



(Ilustração: Integração entre humano e máquina. Imagem gerada por inteligência artificial pelo Adobe Firefly)

Nenhum comentário:

Postar um comentário