Grandes modelos de linguagem (LLM) como o GPT-3 avançaram ao ponto de se tornar difícil medir os limites de suas capacidades. Quando se tem uma rede neural muito grande que pode gerar artigos, escrever código de software e se envolver em conversas sobre senciência e vida, deve-se esperar que ela seja capaz de raciocinar sobre tarefas e planejar como um humano faz, certo?
Errado! Um estudo realizado por pesquisadores da Arizona State University, em Tempe, mostra que, quando se trata de planejar e pensar metodicamente, os LLMs têm um desempenho muito ruim e apresentaam várias das falhas observadas nos atuais sistemas de aprendizado profundo.
Curiosamente, o estudo descobriu que, embora LLMs muito grandes como GPT-3, LaMDA e PaLM passem em muitos dos testes destinados a avaliar as capacidades de raciocínio e sistemas de inteligência artificial, eles o fazem porque esses benchmarks são muito simplistas ou simplesmente falhos e podem ser “enganados” por meio de truques estatísticos, cenário do qual os sistemas de aprendizado profundo são muito bons.
Com os LLMs abrindo novos caminhos todos os dias, os autores sugerem um novo benchmark para testar os recursos de planejamento e raciocínio dos sistemas de IA. Os pesquisadores esperam que suas descobertas possam ajudar a direcionar a pesquisa de IA para o desenvolvimento de sistemas de inteligência artificial que possam lidar com o que se tornou popularmente conhecido como tarefas de “System 2 Thinking”.
A ilusão de planejar e raciocinar
“No ano passado, estávamos avaliando a capacidade do GPT-3 de extrair planos de descrições de texto – uma tarefa que foi tentada com métodos de propósito especial anteriormente – e descobrimos que o GPT-3 de prateleira funciona muito bem em comparação com os métodos de propósito especial”, disse Subbarao Kambhampati, professor da Arizona State University e coautor do estudo, ao TechTalks. “Isso naturalmente nos fez pensar que ‘capacidades emergentes’ o GPT3 teria para resolver os problemas de planejamento mais simples (por exemplo, gerar planejamentos em brinquedos de estratégia). Descobrimos imediatamente que o GPT3 é espetacularmente ruim em testes anedóticos.”
No entanto, um fato interessante é que o GPT-3 e outros grandes modelos de linguagem têm um desempenho muito bom em benchmarks projetados para raciocínio de senso comum, raciocínio lógico e raciocínio ético, habilidades que antes eram consideradas fora dos limites para sistemas de aprendizado profundo. Um estudo anterior do grupo de Kambhampati na Arizona State University mostra a eficácia de grandes modelos de linguagem na geração de planejamentos a partir de descrições de texto. Outros estudos recentes incluem um que mostra que os LLMs podem fazer raciocínio de tiro zero (zero-shot reasoning) se fornecidos com uma frase-gatilho especial.
No entanto, o “raciocínio” é frequentemente usado amplamente nesses benchmarks e estudos, acredita Kambhampati. O que os LLMs estão fazendo, na verdade, é criar uma aparência de planejamento e raciocínio por meio do reconhecimento de padrões.
“A maioria dos benchmarks depende do tipo de raciocínio superficial (uma ou duas etapas), bem como tarefas para as quais às vezes não há verdade real (por exemplo, fazer com que os LLMs raciocinem sobre dilemas éticos)”, disse ele. “É possível que um mecanismo puramente de conclusão de padrões sem recursos de raciocínio ainda funcione bem em alguns desses benchmarks. Afinal, enquanto, algumas vezes, as habilidades do System 2 Reasoning podem ser compiladas para o System 1, em outras situações as ‘habilidades de raciocínio’ do System 1 podem ser apenas respostas reflexivas de padrões que o sistema percebeu em seus dados de treinamento, sem realmente realizar nada que se assemelhe ao raciocínio.”
System 1 e System 2 Thinking
Os sistemas de pensamento System 1 e o System 2 Thinking foram popularizados pelo psicólogo Daniel Kahneman em seu livro “Thinking Fast and Slow”. O primeiro (System 1) é o tipo de pensamento e ação rápido, reflexivo e automatizado que fazemos na maioria das vezes, como caminhar, escovar os dentes, amarrar os sapatos ou dirigir em uma área familiar. Mesmo uma grande parte da fala é realizada pelo System 1.
O System 2, por outro lado, é o modo de pensamento mais lento, que usamos para tarefas baseadas em planejamento e análise metódicos. Usamos o System 2 para resolver equações de cálculo, jogar xadrez, projetar software, planejar uma viagem, resolver um quebra-cabeça etc.
Porém, a linha entre o System 1 e o System 2 não é clara e evidente. Ao analisarmos a condução de um veículo, por exemplo, vemos como os sistemas podem se sobrepor. Quando estamos aprendendo a dirigir, devemos nos concentrar totalmente em como coordenar seus músculos para controlar a marcha, o volante e os pedais, ao mesmo tempo em que estamos de olho na estrada e nos espelhos laterais e traseiros. Este é claramente o System 2 em ação. Consome muita energia, requer toda nossa atenção e é lento. Mas à medida que repetimos os procedimentos gradualmente, aprendemos a fazê-los sem pensar. A tarefa de dirigir muda para o nosso System 1, permitindo que a executemos sem sobrecarregar a mente. Um dos critérios de uma tarefa que foi integrada ao System 1 é a capacidade de fazê-la inconscientemente enquanto se concentra em outra tarefa (por exemplo, podemos amarrar o sapato e falar ao mesmo tempo, escovar os dentes e ler, dirigir e conversar etc.).
Mesmo muitas das tarefas muito complicadas que permanecem no domínio do System 2 acabam se tornando parcialmente integradas ao System 1. Por exemplo, jogadores profissionais de xadrez confiam muito no reconhecimento de padrões para acelerar seu processo de tomada de decisão. Podemos ver exemplos semelhantes em matemática e programação, onde, depois de fazer as coisas repetidamente, algumas das tarefas que anteriormente exigiam um pensamento cuidadoso vêm a nós automaticamente.
Um fenômeno semelhante pode estar acontecendo em sistemas de aprendizado profundo que foram expostos a conjuntos de dados muito grandes. Eles podem ter aprendido a fazer a fase simples de reconhecimento de padrões de tarefas complexas de raciocínio.
“A geração de planos requer o encadeamento de etapas de raciocínio para chegar a um plano, e uma verdade firme sobre a correção pode ser estabelecida”, disse Kambhampati.
Um novo benchmark para planejamento de testes em LLMs
“Dada a empolgação em torno das propriedades ocultas/emergentes dos LLMs, no entanto, pensamos que seria mais construtivo desenvolver um benchmark que fornecesse uma variedade de tarefas de planejamento/raciocínio que pudessem servir como referência à medida que as pessoas melhorassem os LLMs por meio de ajustes finos e outras abordagens para personalizar/melhorar seu desempenho em tarefas de raciocínio. Foi isso que acabamos fazendo”, disse Kambhampati.
A equipe desenvolveu seu benchmark com base nos domínios usados na Competição Internacional de Planejamento (International Planning Competition - IPC). A estrutura consiste em várias tarefas que avaliam diferentes aspectos do raciocínio. Por exemplo, algumas tarefas avaliam a capacidade do LLM de criar planos válidos para atingir uma determinada meta, enquanto outras testam se o plano gerado é o ideal. Outros testes incluem raciocinar sobre os resultados de um plano, reconhecer se diferentes descrições de texto se referem ao mesmo objetivo, reutilizar partes de um plano em outro, embaralhar planos e muito mais.
Para realizar os testes, a equipe usou o Blocks World, um framework de problemas que gira em torno da colocação de um conjunto de diferentes blocos em uma determinada ordem. Cada problema tem uma condição inicial, um objetivo final e um conjunto de ações permitidas.
“O benchmark em si é extensível e deve ter testes de vários domínios IPC”, disse Kambhampati. “Usamos os Blocos exemplos mundiais para ilustrar as diferentes tarefas. Cada uma dessas tarefas (por exemplo, geração de planos, embaralhamento de metas etc.) também pode ser colocada em outros domínios do IPC.”
O benchmark desenvolvido por Kambhampati e seus colegas usa o Few-Shot Learning, onde o prompt dado ao modelo de aprendizado de máquina inclui um exemplo resolvido além do problema principal que deve ser resolvido.
Ao contrário de outros benchmarks, as descrições dos problemas desse novo benchmark são muito longas e detalhadas. Resolvê-los requer concentração e planejamento metódico e não pode ser enganado pelo reconhecimento de padrões. Mesmo um humano que quisesse resolvê-los teria que pensar cuidadosamente sobre cada problema, fazer anotações, possivelmente fazer visualizações e planejar a solução passo a passo.
“O raciocínio é uma tarefa do System 2 em geral. A ilusão coletiva da comunidade tem sido olhar para esses tipos de benchmarks de raciocínio que provavelmente poderiam ser tratados por meio de compilação para o System 1 (por exemplo, 'a resposta para esse dilema ético, por conclusão de padrão, é essa') em vez de realmente raciocinar sobre o que é realmente necessário para execução da tarefa em mãos”, disse Kambhampati.
Grandes modelos de linguagem são ruins em planejamento
Os pesquisadores testaram sua estrutura no Davinci, a maior versão do GPT-3. Seus experimentos mostram que o GPT-3 tem desempenho medíocre em alguns tipos de tarefas de planejamento, porém apresenta um péssimo desempenho em áreas como reutilização de planos, generalização de planos, planejamento ideal e replanejamento.
“Os estudos iniciais que vimos mostram basicamente que os LLMs são particularmente ruins em qualquer coisa que seja considerada tarefas de planejamento – incluindo geração de planos, geração de planos ideais, reutilização ou replanejamento de planos”, disse Kambhampati. “Eles se saem melhor nas tarefas relacionadas ao planejamento que não exigem cadeias de raciocínio – como embaralhar as metas.”
No futuro, os pesquisadores adicionarão casos de teste com base em outros domínios do IPC e fornecerão linhas de base de desempenho com sujeitos humanos nos mesmos benchmarks.
“Também estamos curiosos para saber se outras variantes de LLMs se saem melhor nesses benchmarks”, disse Kambhampati.
Kambhampati enfatiza que o objetivo do projeto é lançar o benchmark e dar uma ideia de onde está a linha de base atual. Os pesquisadores esperam que seu trabalho abra novas janelas para o desenvolvimento de capacidade de planejamento e raciocínio para os atuais sistemas de IA. Por exemplo, uma direção que eles propõem é avaliar a eficácia do ajuste fino de LLMs para raciocínio e planejamento em domínios específicos. A equipe já tem resultados preliminares em uma variante do GPT-3 que segue instruções que parece ter um desempenho marginalmente melhor nas tarefas fáceis, embora também permaneça em torno do nível de 5% para tarefas reais de geração de planos, disse Kambhampati.
Kambhampati também acredita que aprender e adquirir modelos de mundo seria um passo essencial para qualquer sistema de IA que possa raciocinar e planejar. Outros cientistas, incluindo o Deep Learning Pioneer Yann LeCun, fizeram sugestões semelhantes.
“Se concordarmos que o raciocínio faz parte da inteligência e pretendermos afirmar que os LLMs atingem esse patamar, certamente precisaremos de benchmarks de geração de planos para validar essa tese”, disse Kambhampati. “Ao invés de assumir uma posição negativa magistral, estamos fornecendo um benchmark, para que as pessoas que acreditam que o raciocínio pode emergir de LLMs, mesmo sem quaisquer mecanismos especiais, como modelos de mundo e raciocínio sobre dinâmica, possam usar o benchmark para apoiar seu ponto de vista."
Este artigo foi originalmente publicado por Ben Dickson (Twitter @bendee983) no TechTalks, uma publicação que examina as tendências em tecnologia, como elas afetam a maneira como vivemos e fazemos negócios e os problemas que elas resolvem. Mas também discutimos o lado maligno da tecnologia, as implicações mais sombrias da nova tecnologia e o que precisamos observar. Leia o artigo original aqui.
Nenhum comentário:
Postar um comentário