Francophones’ favourite AIs aren’t the ones you’d expect.

Gareth H. Whitfield • April 14, 2026 02:12

Uma ferramenta pública em França, com centenas de milhares de votos, acaba de virar de pernas para o ar o “ranking” das inteligências artificiais.

Em vez de medir qual é mais potente, esta plataforma olha para outra coisa: qual resposta soa mais clara, próxima e humana. O resultado desta experiência, centrada no público francófono, expõe um choque entre os rankings técnicos e as preferências reais de quem usa IA no dia a dia.

Um laboratório público que se tornou um termómetro de preferência

Desde outubro de 2024, qualquer pessoa que fale francês pode entrar no compar:IA, responder a uma pergunta proposta e ver duas respostas de IA, lado a lado, sem rótulos, sem marca, sem logótipo. A tarefa é simples: escolher qual resposta parece mais clara, útil ou convincente.

Cada escolha torna-se um voto. E cada voto alimenta um sistema de pontuação baseado no modelo estatístico Bradley–Terry, muito usado no desporto para transformar duelos diretos numa classificação geral. Não existe nota de 0 a 10, nem “exame de admissão” para algoritmos. O que conta é: em quantos confrontos uma IA convence mais do que outra.

O compar:IA não mede quem acerta mais, mas quem agrada mais. É um ranking de perceção, não de potência bruta.

O projeto foi desenvolvido pela Direção Interministerial do Digital de França, em parceria com o Ministério da Cultura, e apresenta-se como um serviço público participativo. Sem subscrição, sem publicidade, sem selo de “vencedor oficial”.

Até agora, já acumula mais de 230 mil votos. Os dados são abertos e reprocessados semanalmente, o que transforma a ferramenta numa espécie de observatório do que o público francófono gosta, estranha ou rejeita nas respostas de IA.

Quando o estilo ganha à força bruta

Os primeiros resultados consolidados, divulgados em novembro de 2025, surpreenderam muita gente. O topo do ranking não foi ocupado pelo GPT-4, nem pelo Claude, nem pelo Gemini Pro. Quem liderou foi o Mistral Medium 3.1, um modelo francês de dimensão intermédia, pensado para equilibrar custo e desempenho.

Logo abaixo surge outro grupo inesperado: modelos otimizados para velocidade e leveza, como o Gemini 2.5 Flash e o Qwen 3 Max. Os grandes “flagships” internacionais, frequentemente citados em benchmarks, ficaram fora do pódio.

Quando se compara este cenário com plataformas globais de avaliação, como a LMArena, o contraste é nítido. Nesses comparadores internacionais, quem aparece no topo são gigantes como Claude Opus 4.1, GPT-4.5 Preview ou Gemini 2.5 Pro, avaliados em tarefas de raciocínio, exatidão factual e versatilidade.

Nos testes técnicos, vence quem calcula melhor. No compar:IA, ganha quem conversa melhor.

Ou seja: a métrica muda tudo. O experimento francês valoriza fluidez, tom próximo, naturalidade da linguagem e sensação de utilidade imediata. Uma IA que escreve de forma agradável, organizada e empática tende a vencer, mesmo que cometa mais deslizes factuais do que uma concorrente “genial, mas emperrada”.

O peso da língua, da cultura e do ouvido

Pesquisas como as da escola AIvancity ajudam a explicar este fenómeno: utilizadores comuns avaliam sobretudo como se sentem perante a resposta, e não a veracidade de cada dado. Verificar fontes, confirmar números e comparar estudos científicos exige tempo e literacia. Já perceber se o texto está confuso, arrogante ou demasiado longo é instantâneo.

Neste jogo, os modelos treinados com forte foco em francês partem em vantagem. Captam melhor tiques de linguagem, gíria ligeira, formas de tratamento e referências culturais que soam “normais” aos ouvidos francófonos.

Usam construções típicas do francês corrente.
Ajustam o tom entre formal e informal com mais precisão.
Compreendem nuances culturais em exemplos, piadas ou metáforas.
Evocam referências locais, da política ao entretenimento.

Já modelos “globais”, muitas vezes centrados no inglês, precisam de traduzir internamente raciocínios e estilos. Podem ser excelentes em lógica, mas acabam por parecer mais frios, genéricos ou distantes aos olhos de um utilizador francófono que procura companhia intelectual, e não apenas a resposta certa.

Soberania digital e símbolo político

O desempenho do Mistral Medium 3.1 também foi lido em França como um sinal político. Num debate europeu cada vez mais intenso sobre soberania digital, ver um modelo local superar gigantes norte-americanos ou chineses - ainda que num recorte específico - alimenta discursos a favor de uma infraestrutura tecnológica mais autónoma no continente.

Meios como a Radio France destacam outro aspeto: o compar:IA abriu espaço para discutir algo quase invisível na conversa diária sobre IA - a pegada ecológica. Algumas empresas passaram a detalhar o consumo energético dos seus modelos em Wh por mil tokens processados, permitindo comparar, de forma aproximada, o custo ambiental de cada resposta.

Fator observado	Impacto na perceção pública
Origem geográfica do modelo	Reforça debates sobre soberania e regulação local
Consumo de energia estimado	Gera preocupações ambientais em parte do público
Transparência de dados	Aumenta a confiança, mesmo quando o modelo não lidera o ranking

Isto não significa que as IAs mais bem avaliadas sejam as mais eficientes em energia. Mas abre uma frente de discussão: até que ponto vale priorizar modelos gigantes, mais caros e potencialmente mais poluentes, quando o utilizador médio tende a preferir respostas simples, curtas e em bom francês?

Preferências coletivas que reescrevem o mapa das IAs

Um ponto central desta experiência francesa é que ela desmonta a ideia de “vencedor universal” em IA. Sem uma recomendação oficial do governo ou de uma entidade reguladora, o que surge é um mosaico de gostos coletivos. E esse mosaico redesenha o mapa das IAs preferidas.

Para o utilizador francófono médio, a IA ideal parece mais um bom cronista de rádio do que um matemático brilhante.

Isto não representa um fracasso automático dos modelos norte-americanos, chineses ou globais. Significa que, quando o critério é proximidade linguística e conforto de leitura, a balança tende a inclinar-se para quem fala como “gente da casa”.

Esta constatação interessa diretamente o público brasileiro. Num país onde o português tem variações regionais fortes, sotaques e expressões muito próprias, uma IA treinada maioritariamente em textos portugueses de Portugal, por exemplo, pode soar estranha. O mesmo vale para modelos ajustados em inglês e apenas “adaptados” ao português.

O que isto ensina para quem usa IA em português

Termos que vale a pena compreender melhor

Dois conceitos ajudam a ler experiências como a do compar:IA:

Benchmark técnico: bateria de testes padronizados, geralmente académicos, que medem precisão, raciocínio lógico, capacidade de programação, entre outros. É o “A-level” das IAs.
Avaliação de preferência: comparação direta de respostas, do ponto de vista do utilizador final, sem verificação profunda de factos. É mais parecido com uma sondagem do tipo “qual texto prefere?”.

Os dois tipos de avaliação não são substitutos. Uma IA pode ir muito bem em benchmarks e causar estranheza em conversas quotidianas. Outra pode agradar no chat e escorregar em temas técnicos sensíveis, como saúde ou finanças.

Cenário para o Brasil: o que poderia acontecer

Imagine um serviço semelhante ao compar:IA, mas focado em português do Brasil, com perguntas reais de utilizadores brasileiros. Alguns cenários são bem plausíveis:

Modelos ajustados por empresas locais, mesmo menores, a ganhar terreno em temas como apoio ao cliente e educação básica.
Plataformas globais a dominar áreas que exigem alta precisão, como investigação científica e programação avançada.
Divisão clara por uso: uma IA para “conversar e compreender”, outra para “confirmar dados e calcular”.

Este tipo de cenário também ajuda a pensar riscos. Se o público se orientar apenas pela simpatia da resposta, aumenta a probabilidade de confiar cegamente em explicações incorretas. Em saúde, direito ou finanças, isso pode ter consequências graves - de erros médicos a decisões jurídicas mal informadas.

Por outro lado, há benefícios concretos. Modelos mais adaptados ao português brasileiro podem reduzir barreiras de acesso à informação, facilitar o uso por pessoas com menor escolaridade e ajudar em tarefas do quotidiano, como ler um documento público ou compreender um contrato.

Uma combinação promissora tende a ser o uso em camadas: primeiro, conversar com uma IA “mais humana” para compreender um tema; depois, validar os pontos críticos com uma IA ou ferramenta especializada, mais seca e técnica, ou com um profissional da área.

À medida que experiências como o compar:IA ganham espaço, aumenta a probabilidade de vermos debates públicos semelhantes no Brasil: que IA fala como nós, qual respeita melhor as nossas referências culturais, qual consome menos energia e qual realmente ajuda a tomar decisões mais responsáveis.