Os sistemas de pensamento System 1 e o System 2 Thinking foram popularizados pelo psicólogo Daniel Kahneman em seu livro “Thinking Fast and Slow”. O primeiro (System 1) é o tipo de pensamento e ação rápido, reflexivo e automatizado que fazemos na maioria das vezes, como caminhar, escovar os dentes, amarrar os sapatos ou dirigir em uma área familiar. Mesmo uma grande parte da fala é realizada pelo System 1.
O System 2, por outro lado, é o modo de pensamento mais lento, que usamos para tarefas baseadas em planejamento e análise metódicos. Usamos o System 2 para resolver equações de cálculo, jogar xadrez, projetar software, planejar uma viagem, resolver um quebra-cabeça etc.
Porém, a linha entre o System 1 e o System 2 não é clara e evidente. Ao analisarmos a condução de um veículo, por exemplo, vemos como os sistemas podem se sobrepor. Quando estamos aprendendo a dirigir, devemos nos concentrar totalmente em como coordenar seus músculos para controlar a marcha, o volante e os pedais, ao mesmo tempo em que estamos de olho na estrada e nos espelhos laterais e traseiros. Este é claramente o System 2 em ação. Consome muita energia, requer toda nossa atenção e é lento. Mas à medida que repetimos os procedimentos gradualmente, aprendemos a fazê-los sem pensar. A tarefa de dirigir muda para o nosso System 1, permitindo que a executemos sem sobrecarregar a mente. Um dos critérios de uma tarefa que foi integrada ao System 1 é a capacidade de fazê-la inconscientemente enquanto se concentra em outra tarefa (por exemplo, podemos amarrar o sapato e falar ao mesmo tempo, escovar os dentes e ler, dirigir e conversar etc.).
Mesmo muitas das tarefas muito complicadas que permanecem no domínio do System 2 acabam se tornando parcialmente integradas ao System 1. Por exemplo, jogadores profissionais de xadrez confiam muito no reconhecimento de padrões para acelerar seu processo de tomada de decisão. Podemos ver exemplos semelhantes em matemática e programação, onde, depois de fazer as coisas repetidamente, algumas das tarefas que anteriormente exigiam um pensamento cuidadoso vêm a nós automaticamente.
Um fenômeno semelhante pode estar acontecendo em sistemas de aprendizado profundo que foram expostos a conjuntos de dados muito grandes. Eles podem ter aprendido a fazer a fase simples de reconhecimento de padrões de tarefas complexas de raciocínio.
“A geração de planos requer o encadeamento de etapas de raciocínio para chegar a um plano, e uma verdade firme sobre a correção pode ser estabelecida”, disse Kambhampati.
Um novo benchmark para planejamento de testes em LLMs
“Dada a empolgação em torno das propriedades ocultas/emergentes dos LLMs, no entanto, pensamos que seria mais construtivo desenvolver um benchmark que fornecesse uma variedade de tarefas de planejamento/raciocínio que pudessem servir como referência à medida que as pessoas melhorassem os LLMs por meio de ajustes finos e outras abordagens para personalizar/melhorar seu desempenho em tarefas de raciocínio. Foi isso que acabamos fazendo”, disse Kambhampati.
A equipe desenvolveu seu benchmark com base nos domínios usados na Competição Internacional de Planejamento (International Planning Competition - IPC). A estrutura consiste em várias tarefas que avaliam diferentes aspectos do raciocínio. Por exemplo, algumas tarefas avaliam a capacidade do LLM de criar planos válidos para atingir uma determinada meta, enquanto outras testam se o plano gerado é o ideal. Outros testes incluem raciocinar sobre os resultados de um plano, reconhecer se diferentes descrições de texto se referem ao mesmo objetivo, reutilizar partes de um plano em outro, embaralhar planos e muito mais.
Para realizar os testes, a equipe usou o Blocks World, um framework de problemas que gira em torno da colocação de um conjunto de diferentes blocos em uma determinada ordem. Cada problema tem uma condição inicial, um objetivo final e um conjunto de ações permitidas.
“O benchmark em si é extensível e deve ter testes de vários domínios IPC”, disse Kambhampati. “Usamos os Blocos exemplos mundiais para ilustrar as diferentes tarefas. Cada uma dessas tarefas (por exemplo, geração de planos, embaralhamento de metas etc.) também pode ser colocada em outros domínios do IPC.”
O benchmark desenvolvido por Kambhampati e seus colegas usa o Few-Shot Learning, onde o prompt dado ao modelo de aprendizado de máquina inclui um exemplo resolvido além do problema principal que deve ser resolvido.
Ao contrário de outros benchmarks, as descrições dos problemas desse novo benchmark são muito longas e detalhadas. Resolvê-los requer concentração e planejamento metódico e não pode ser enganado pelo reconhecimento de padrões. Mesmo um humano que quisesse resolvê-los teria que pensar cuidadosamente sobre cada problema, fazer anotações, possivelmente fazer visualizações e planejar a solução passo a passo.
“O raciocínio é uma tarefa do System 2 em geral. A ilusão coletiva da comunidade tem sido olhar para esses tipos de benchmarks de raciocínio que provavelmente poderiam ser tratados por meio de compilação para o System 1 (por exemplo, 'a resposta para esse dilema ético, por conclusão de padrão, é essa') em vez de realmente raciocinar sobre o que é realmente necessário para execução da tarefa em mãos”, disse Kambhampati.
Grandes modelos de linguagem são ruins em planejamento
Os pesquisadores testaram sua estrutura no Davinci, a maior versão do GPT-3. Seus experimentos mostram que o GPT-3 tem desempenho medíocre em alguns tipos de tarefas de planejamento, porém apresenta um péssimo desempenho em áreas como reutilização de planos, generalização de planos, planejamento ideal e replanejamento.
“Os estudos iniciais que vimos mostram basicamente que os LLMs são particularmente ruins em qualquer coisa que seja considerada tarefas de planejamento – incluindo geração de planos, geração de planos ideais, reutilização ou replanejamento de planos”, disse Kambhampati. “Eles se saem melhor nas tarefas relacionadas ao planejamento que não exigem cadeias de raciocínio – como embaralhar as metas.”
No futuro, os pesquisadores adicionarão casos de teste com base em outros domínios do IPC e fornecerão linhas de base de desempenho com sujeitos humanos nos mesmos benchmarks.
“Também estamos curiosos para saber se outras variantes de LLMs se saem melhor nesses benchmarks”, disse Kambhampati.
Kambhampati enfatiza que o objetivo do projeto é lançar o benchmark e dar uma ideia de onde está a linha de base atual. Os pesquisadores esperam que seu trabalho abra novas janelas para o desenvolvimento de capacidade de planejamento e raciocínio para os atuais sistemas de IA. Por exemplo, uma direção que eles propõem é avaliar a eficácia do ajuste fino de LLMs para raciocínio e planejamento em domínios específicos. A equipe já tem resultados preliminares em uma variante do GPT-3 que segue instruções que parece ter um desempenho marginalmente melhor nas tarefas fáceis, embora também permaneça em torno do nível de 5% para tarefas reais de geração de planos, disse Kambhampati.
Kambhampati também acredita que aprender e adquirir modelos de mundo seria um passo essencial para qualquer sistema de IA que possa raciocinar e planejar. Outros cientistas, incluindo o Deep Learning Pioneer Yann LeCun, fizeram sugestões semelhantes.
“Se concordarmos que o raciocínio faz parte da inteligência e pretendermos afirmar que os LLMs atingem esse patamar, certamente precisaremos de benchmarks de geração de planos para validar essa tese”, disse Kambhampati. “Ao invés de assumir uma posição negativa magistral, estamos fornecendo um benchmark, para que as pessoas que acreditam que o raciocínio pode emergir de LLMs, mesmo sem quaisquer mecanismos especiais, como modelos de mundo e raciocínio sobre dinâmica, possam usar o benchmark para apoiar seu ponto de vista."
Este artigo foi originalmente publicado por Ben Dickson (Twitter @bendee983) no TechTalks, uma publicação que examina as tendências em tecnologia, como elas afetam a maneira como vivemos e fazemos negócios e os problemas que elas resolvem. Mas também discutimos o lado maligno da tecnologia, as implicações mais sombrias da nova tecnologia e o que precisamos observar. Leia o artigo original aqui.