Ferramenta global busca medir com precisão a exatidão das respostas da IA
Pesquisadores de vários países, incluindo o Brasil, desenvolveram um banco de dados avançado para avaliar, com alto rigor, o desempenho de sistemas de inteligência artificial (IA). Batizado de Humanity’s Last Exam (HLE, na sigla em inglês, “Último Exame da Humanidade”), o conjunto de testes reúne questões de múltiplas áreas do conhecimento e foi detalhado em um artigo publicado na revista científica Nature. O objetivo é criar um instrumento capaz de medir, de forma comparável e confiável, até onde os modelos atuais de IA conseguem chegar.
O HLE foi concebido como um grande exame multidisciplinar. Ele abrange temas que vão de ciências naturais e matemática até áreas de humanidades e conhecimentos gerais. Ao todo, o banco de dados é formado por cerca de 2.500 perguntas elaboradas em nível avançado, muitas em patamar de especialista acadêmico, o que o torna um dos benchmarks mais ambiciosos já utilizados para testar a capacidade de modelos de IA.
Emily de Oliveira Santos, pesquisadora do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, integra o grupo internacional que idealizou o HLE. Segundo ela, a proposta central é acompanhar, de maneira sistemática, o progresso dos modelos de IA. Quando empresas de tecnologia divulgam um novo sistema – como ocorre com modelos de propósito geral, a exemplo de chatbots baseados em linguagem -, a prática é compará-lo a benchmarks reconhecidos, como SWE-Bench, GPQA Diamond e FrontierMath. O HLE passa agora a compor esse conjunto de referências de avaliação.
Benchmarks, explica a pesquisadora, são coleções de problemas e tarefas desenhadas para testar habilidades específicas de um modelo. A diferença do HLE é a ambição: ele foi pensado como um “benchmark supremo”, isto é, um teste em que um desempenho próximo a 100% equivaleria a uma capacidade de solução de problemas comparável à humana em uma faixa muito ampla de domínios. A partir disso, torna-se possível observar, a cada geração lançada, o quanto os modelos se aproximam – ou ainda estão distantes – de desempenhos de nível humano avançado.
Um dos pontos-chave do HLE é o fato de suas questões terem respostas finais objetivas e facilmente verificáveis. As perguntas são formuladas de modo que dois especialistas no assunto, respondendo independentemente, cheguem exatamente ao mesmo resultado. Em muitos casos, a resposta é um número inteiro ou uma expressão simples, o que reduz ambiguidades e facilita a checagem automática. Dessa forma, evita-se a subjetividade que costuma dificultar avaliações baseadas em textos abertos ou opiniões.
Essa característica permite o uso de scripts para testar modelos de IA de forma padronizada. Um programa pode enviar a mesma instrução a diferentes Modelos de Linguagem de Grande Porte (LLMs, na sigla em inglês), coletar as respostas geradas e, em seguida, compará-las ao gabarito do HLE. A partir da porcentagem de acertos, os pesquisadores conseguem medir o desempenho do modelo e fazer comparações diretas entre versões distintas ou entre sistemas desenvolvidos por empresas diferentes.
Por ser um benchmark diversificado, o HLE testa um leque amplo de competências. As questões incluem conteúdos de áreas científicas, mas também abordam conhecimentos gerais, história, fatos do cotidiano e noções de senso comum. Isso é importante porque modelos de IA de uso geral, hoje, são empregados tanto em tarefas altamente técnicas – como análise de dados científicos – quanto em atividades do dia a dia, como responder dúvidas de usuários, redigir textos ou auxiliar em estudos.
Além de avaliar conhecimentos factuais, o HLE também foi desenhado para verificar a capacidade de raciocínio e, em certa medida, de “agência”, isto é, a habilidade da IA de planejar e descrever ações no mundo real. Um exemplo citado pelos pesquisadores é uma questão que envolve a arte do origami: o modelo precisa seguir mentalmente as etapas de dobrar um papel em forma de tsuru (um pássaro tradicional na cultura japonesa), imaginar o processo de desmontar a dobradura e, então, calcular em quantas regiões o papel foi particionado pelas dobras. Esse tipo de problema exige visualização espacial, lógica e compreensão detalhada de instruções sequenciais.
O HLE também inclui questões de áreas altamente especializadas, como mecânica quântica. Em uma delas, o modelo precisa lidar com a equação de Schrödinger para determinar propriedades de sistemas quânticos, algo que demanda não apenas conhecimento teórico, mas também habilidade de aplicar fórmulas em contextos específicos. Esse tipo de pergunta ajuda a diferenciar modelos que apenas “decoram” informações daqueles que demonstram capacidade real de raciocínio científico.
O conjunto de testes do Humanity’s Last Exam foi disponibilizado ao público para servir de base a pesquisas acadêmicas e ao desenho de políticas públicas relacionadas à IA. Ao fornecer um retrato detalhado das habilidades e limitações dos modelos atuais, o HLE pode subsidiar debates regulatórios sobre uso responsável de IA, riscos em setores sensíveis – como saúde, justiça e finanças – e definição de padrões mínimos de desempenho para aplicações críticas.
A criação de um benchmark dessa natureza é particularmente relevante em um momento em que sistemas de IA começam a ser incorporados em processos de decisão. Saber se um modelo realmente compreende conceitos matemáticos, físicos ou históricos, ou se apenas reproduz padrões estatísticos dos dados nos quais foi treinado, é crucial para avaliar se ele pode ser usado, por exemplo, na elaboração de diagnósticos médicos, pareceres técnicos ou apoio a decisões complexas.
Outro aspecto importante é a transparência. Resultados em benchmarks amplamente conhecidos ajudam pesquisadores independentes e a sociedade a acompanhar o discurso das empresas de tecnologia. Quando um novo modelo é lançado com a promessa de ser “mais inteligente”, o HLE oferece um referencial concreto para medir em que áreas essa inteligência de fato avançou, onde permanece estagnada e em quais domínios continua aquém do conhecimento humano.
Também é preciso considerar as limitações desses testes. Embora o HLE seja amplo, nenhum benchmark consegue abranger toda a diversidade de tarefas que humanos realizam no cotidiano. Competências socioemocionais, julgamento ético, criatividade aberta e interação contextual com o mundo real são dimensões difíceis de capturar em uma coleção de perguntas fechadas. Por isso, especialistas têm defendido o uso combinado de múltiplos benchmarks, experimentos em cenários reais e auditorias independentes para avaliar modelos de IA de forma mais holística.
Ainda assim, bancos de dados como o Humanity’s Last Exam têm um papel decisivo na evolução tecnológica. Eles funcionam como uma espécie de “maratona” permanente, em que novos modelos tentam superar marcas anteriores. Esse processo competitivo, ao mesmo tempo em que acelera a inovação, ajuda a tornar mais claro quais avanços são consistentes e replicáveis, e quais são apenas resultados pontuais ou fruto de otimizações específicas para certos testes.
Na prática, a existência de um benchmark robusto também facilita o trabalho de pesquisadores que não dispõem da mesma infraestrutura das grandes empresas de tecnologia. Com o HLE, grupos acadêmicos podem testar seus próprios modelos de IA, comparar os resultados com sistemas de ponta e identificar lacunas de pesquisa. Isso democratiza a avaliação de desempenho e incentiva o desenvolvimento de soluções alternativas, inclusive com foco em contextos locais e idiomas menos representados.
O impacto de ferramentas como o HLE tende a crescer à medida que governos e organizações passam a exigir maior responsabilidade das empresas que desenvolvem IA. Políticas que determinam padrões mínimos de qualidade, níveis aceitáveis de erro em determinados domínios e necessidade de testes independentes antes da adoção em larga escala podem se apoiar em benchmarks padronizados. Dessa forma, medir com precisão “o que a IA sabe” deixa de ser apenas um exercício acadêmico e passa a ser uma questão de segurança, governança e confiança pública.
No cenário brasileiro, a participação de pesquisadoras e pesquisadores em iniciativas globais como o Humanity’s Last Exam reforça a importância da ciência nacional no debate internacional sobre IA. Ao contribuir para a criação de métricas robustas, a comunidade científica do país se coloca em posição estratégica para influenciar tanto o desenvolvimento tecnológico quanto a formulação de políticas que definam limites, garantias e usos socialmente benéficos da inteligência artificial.