A Microsoft divulgou recentemente que seu sistema de IA, o MAI-DxO, teria superado médicos em diagnósticos complexos, atingindo 85% de acerto contra apenas 20% dos especialistas humanos. A notícia repercutiu fortemente em veículos de mídia, mas uma análise mais atenta revela falhas metodológicas graves que colocam em dúvida a credibilidade do resultado.
O principal problema é que a IA foi avaliada em casos já resolvidos e publicados no New England Journal of Medicine (NEJM). Como esses registros provavelmente já faziam parte dos dados de treinamento do modelo, o teste se tornou artificialmente mais fácil. É como entregar o gabarito antes da prova: memorizar respostas conhecidas não reflete a realidade da prática clínica, em que diagnósticos são incertos, incompletos e muitas vezes nunca plenamente determinados.
Outro ponto crítico é que o estudo se limitou a simulações históricas, sem validar o sistema em interações com pacientes reais. Enquanto médicos enfrentam sintomas ambíguos, históricos incompletos e variações individuais, a IA atuou em um cenário controlado. Um teste robusto exigiria pacientes de verdade, incluindo casos inéditos, condições raras e acompanhamento longitudinal para verificar a evolução dos diagnósticos.
A comparação também foi injusta porque os médicos avaliados foram privados de ferramentas essenciais, como internet, consulta a diretrizes atualizadas, discussão com colegas e acesso a bases de dados. Na prática, a medicina é colaborativa e fundamentada em múltiplas referências, enquanto o experimento isolou profissionais de seus recursos cotidianos.
Esse tipo de distorção não é novo e recebe o nome de “contaminação de benchmark”: quando o conjunto de testes já está presente no treinamento do modelo, inflando artificialmente os números. Além disso, o processo diagnóstico na vida real não é uma resposta única, mas um percurso iterativo influenciado por fatores sociais e emocionais. Erros humanos e erros de IA não têm o mesmo peso: o médico pode justificar sua decisão, enquanto a IA pode simplesmente “alucinar” sem aviso.
No fim, a Microsoft conseguiu chamar atenção com a narrativa de que a IA superou médicos, mas a realidade é mais complexa. Em vez de competir, esses sistemas deveriam ser desenvolvidos para apoiar profissionais de saúde. Porque superar casos arquivados é bem diferente de enfrentar a imprevisibilidade e a responsabilidade da medicina real.
Link para o artigo: Is Microsoft’s New AI System Better Than Doctors? Probably Not.
David Matos