Demência digital? A IA também perde memória à medida que envelhece

A Inteligência Artificial (IA) não aprendeu apenas a imitar a nossa forma de escrever e falar. Agora foi descoberto que ela também envelhece de forma semelhante à dos humanos.

mente, IA, memória
Chatbots mostraram que com os anos apresentam sinais de envelhecimento.

Nas últimas décadas, a Inteligência Artificial (IA) avançou a passos largos, transformando não só a nossa vida quotidiana, mas também áreas como a saúde, a educação e a tecnologia. Grandes modelos de linguagem, popularmente conhecidos como “chatbots”, desenvolveram a capacidade de realizar uma ampla variedade de tarefas, aprendendo e replicando a forma como nos comunicamos.

No entanto, um novo estudo descobriu que não é a única coisa que compartilhamos: assim como os humanos, a IA também envelhece. Esta tecnologia começa a mostrar sinais de comprometimento cognitivo leve quando submetida a testes destinados a detectar demência em estágios iniciais.

Assim como nossos avós às vezes se perdem em uma conversa ou esquecem o nome de um ator famoso, grandes modelos de linguagem também passam por lapsos semelhantes. Mesmo os chatbots mais avançados apresentam sinais de esquecimento e confusão, principalmente em tarefas como traçar um caminho conectando números e letras, ou desenhar um relógio com hora específica.

O objetivo do estudo não era diagnosticar clinicamente estas IAs, mas sim questionar uma onda de pesquisas que afirma que esta tecnologia é suficientemente competente para ser utilizada como ferramenta de diagnóstico na área médica.

“Estas descobertas desafiam a ideia de que a inteligência artificial substituirá em breve os médicos humanos. O declínio cognitivo observado nos principais chatbots pode afetar a sua confiabilidade nos diagnósticos médicos e minar a confiança dos pacientes”, observaram os pesquisadores.

Avaliação MoCA

Os pesquisadores analisaram as capacidades cognitivas dos principais modelos de linguagem disponíveis ao público: ChatGPT em suas versões 4 e 4o (desenvolvido pela OpenAI), Claude 3.5 “Sonnet” (da Anthropic) e Gemini em suas versões 1 e 1.5 (da Alphabet), utilizando o teste Montreal Cognitive Assessment (MoCA).

robô e pessoa
A avaliação das IAs foi a mesma realizada nas pessoas.

As instruções dadas aos modelos de IA para cada tarefa foram idênticas às dadas aos pacientes humanos durante a realização do teste MoCA. A pontuação foi avaliada seguindo as diretrizes oficiais e conduzida por um neurologista, replicando o processo usado para analisar o desempenho cognitivo de uma pessoa.

Este teste, desenvolvido para avaliar diversas habilidades cognitivas, inclui uma série de tarefas e perguntas curtas que medem aspectos como atenção, memória, linguagem, habilidades visuoespaciais e funções executivas. A pontuação máxima é de 30 pontos, sendo considerado normal atingir 26 ou mais.

Resultados de cada IA

Os resultados mostraram que todos os chatbots se destacaram na maioria das tarefas testadas, principalmente nomeação, atenção, linguagem e abstração.

No entanto, todos os chatbots apresentaram baixo desempenho nas habilidades visuoespaciais e nas tarefas executivas. Em particular, eles falharam em exercícios como conectar números e letras em ordem crescente, cada um dentro de um círculo, e no teste de desenhar um mostrador de relógio indicando uma hora específica.

Entre os modelos avaliados, o ChatGPT 4o obteve a maior pontuação no teste MoCA, alcançando 26 pontos em 30. O ChatGPT 4 e o Claude obtiveram 25 pontos, enquanto o Gemini 1.0 obteve a menor pontuação, com apenas 16 pontos em 30.

Apenas o ChatGPT 4o conseguiu passar no teste Stroop, desenvolvido para medir a capacidade de inibir respostas automáticas e focar em uma tarefa específica. Neste teste são apresentadas palavras que nomeiam cores (como “vermelho”), mas são escritas em uma cor diferente daquela que indicam (por exemplo, a palavra “vermelho” escrita em azul).

Ambos os modelos Gemini falharam notavelmente em uma tarefa de memória atrasada relativamente simples de lembrar uma sequência de cinco palavras. Embora isso não reflita um desempenho cognitivo brilhante, o problema se agrava quando se considera sua aplicação na área médica, onde os profissionais devem processar novas informações fornecidas pelos pacientes, além do que está registrado em seus prontuários.

Além disso, os pesquisadores observaram uma preocupante falta de empatia em todos os chatbots testados, uma característica que descreveram como “um sintoma característico da demência frontotemporal”.

Por esta razão, concluíram: “Não só é pouco provável que os neurologistas sejam substituídos por grandes modelos linguísticos num futuro próximo, mas as nossas descobertas sugerem que poderão enfrentar um novo desafio: tratar pacientes virtuais, ou seja, modelos de inteligência artificial que apresentam sinais de deterioramento cognitivo".

Referência da notícia

Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis. 20 de dezembro, 2024. Dayan, R. et al.