Os Large Language Models (LLMs) estão transformando rapidamente o setor de saúde, demonstrando capacidades sem precedentes no processamento de linguagem natural e na compreensão de textos complexos. No entanto, a integração dessas tecnologias exige uma avaliação rigorosa de seu desempenho e o reconhecimento de seus desafios inerentes.
O Benchmark de 9 LLMs
Para comparar a performance e a precisão dos modelos no domínio médico, foi realizado um benchmark com nove LLMs utilizando o conjunto de dados MedQA (referências ao final deste artigo). Este conjunto de dados é composto por questões clínicas de múltipla escolha de nível de pós-graduação, derivadas de perguntas do Exame de Licenciamento Médico dos Estados Unidos (USMLE).
A metodologia de avaliação comparou o desempenho de LLMs com foco na área de saúde (ajustados com fine-tuning supervisionado) versus modelos de uso geral (como o GPT-4) em tarefas de resposta a perguntas médicas. Os modelos responderam aos mesmos cenários clínicos de múltipla escolha usando um prompt padronizado, permitindo uma comparação direta da precisão. Além da acurácia, a latência (tempo médio para gerar uma resposta a uma única questão do MedQA) também foi registrada.
Modelos testados:
• Me-LLaMA 70B
• Meditron 70B
• Med-PaLM 2
• ChatGPT (testado diretamente e não via API como os modelos abaixo)
• OpenAI GPT-4/4.1
• OpenAI o1
• OpenAI o3
• OpenAI o3 mini
• OpenAI GPT-5
Resultados e Diferenciais:
• o1 foi identificado como o modelo com melhor desempenho geral.
• o3 mini foi considerado a melhor opção de baixo custo.
• GPT 4.1 demonstrou a melhor velocidade e tempo de resposta.
Os modelos diferem nas suas abordagens; por exemplo, o3 utiliza uma abordagem analítica e passo a passo, enquanto o GPT-5 responde de forma mais empática, organizando e explicando informações claramente para não especialistas.
Além dos modelos testados no benchmark, as arquiteturas de LLMs também foram categorizadas em: Modelos BERT-like (otimizados para codificação e classificação de textos biomédicos), modelos ChatGPT / LLaMA-like (otimizados para tarefas interativas e diálogos clínicos), e modelos GPT / PaLM-like (ajustados para geração e resumo de textos de propósito geral).
Aplicações Transformadoras dos LLMs na Saúde
A versatilidade dos LLMs permite sua aplicação em diversas áreas clínicas, educacionais e administrativas, descritas abaixo.
1. Transcrição Médica: Os LLMs podem receber o diálogo entre paciente e clínico, extrair detalhes médicos e condensar os dados em registros médicos compatíveis com as seções relevantes do Prontuário Eletrônico do Paciente (EHR). O MedLM do Google é um exemplo real que captura e transforma conversas em transcrições médicas.
2. Aprimoramento de Prontuários Eletrônicos (EHR): Os LLMs podem aprimorar o EHR ao organizar dados não estruturados de várias fontes, automatizando operações que antes eram demoradas e propensas a erros. O MedLM do Google é usado pela BenchSci, Accenture e Deloitte para esse aprimoramento, inclusive ajudando a otimizar a pesquisa pré-clínica ou minimizando o atrito na busca por tratamento.
3. Suporte à Decisão Clínica: Modelos de linguagem podem resumir conceitos médicos complexos, oferecendo insights valiosos para o processo de tomada de decisões. O IBM Watson Oncology, por exemplo, é usado no Memorial Sloan Kettering Cancer Center para analisar dados de pacientes e literatura médica, recomendando opções de tratamento baseadas em evidências para oncologistas.
4. Assistência à Pesquisa Médica: LLMs são capazes de analisar e resumir vastas quantidades de dados, extrair achados importantes de novas pesquisas e fornecer insights sintetizados. Chatbots como o da John Snow, por exemplo, ajudam pesquisadores a encontrar artigos científicos relevantes.
5. Comunicação Automatizada com Pacientes: LLMs podem elaborar respostas informativas às dúvidas dos pacientes, auxiliando na gestão de medicamentos, monitoramento de saúde pós-operatório e fornecendo comunicações informativas e educacionais sobre condições como hipertensão. O Buoy Health (utilizado no Boston Children’s Hospital) atua como um verificador de sintomas online, fazendo triagem de pacientes ao analisar seus sintomas e aconselhando se precisam consultar um médico.
6. Previsão de Resultados de Saúde: Ao identificar padrões nos dados, os LLMs auxiliam na análise preditiva, como na determinação do risco de readmissão de pacientes por farmacêuticos (utilizando dados do EHR).
7. Planos de Tratamento Personalizados: LLMs podem sugerir planos de tratamento adaptados ao histórico médico individual e às necessidades específicas do paciente. O chatbot de IA da Babylon Health oferece recomendações de saúde individualizadas, analisando sintomas e histórico médico.
8. Codificação e Faturamento Médico: Os modelos podem automatizar processos de auditoria, analisando prontuários de pacientes e EHRs, e monitorando anomalias em padrões de acesso a informações confidenciais ou inconsistências no faturamento. No entanto, embora seja promissor, os LLMs ainda não estão prontos para a codificação médica, pois geram códigos incorretos com frequência, atingindo uma acurácia máxima de 50%.
9. Treinamento e Educação: A IA generativa e os LLMs funcionam como ferramentas educacionais interativas, esclarecendo conceitos complexos ou oferecendo simulações imersivas. A Oxford Medical Simulation, por exemplo, usa LLMs integrados à realidade virtual para criar simulações de pacientes, preparando os estudantes para a variabilidade dos ambientes clínicos.
É importante notar que a escolha da arquitetura do LLM influencia a aplicação: modelos baseados em GPT são mais adequados para fins comunicativos e de geração de texto (como preparação para exames ou diálogos com pacientes), enquanto modelos baseados em BERT são mais adequados para tarefas como classificação, descoberta de conhecimento ou extração de sintomas de textos.
Desafios Críticos e Limitações na Implementação
Apesar do potencial, a integração responsável dos LLMs na saúde exige que os seguintes desafios sejam abordados:
1. Preocupações com a Privacidade: Há incerteza sobre como os LLMs e ferramentas associadas processam os dados de saúde confidenciais inseridos pelos usuários e se cumprem as leis de proteção de dados.
2. Acurácia e Alucinações: Os LLMs são propensos a gerar alucinações, que são informações incorretas ou enganosas, mas com sonoridade plausível. Por exemplo, o GPT-3.5 incorretamente recomendou tetraciclina para uma paciente grávida, apesar de explicar corretamente o potencial dano ao feto. A correção das previsões é o foco de pesquisa mais proeminente, pois erros podem ter consequências graves.
3. Vieses e Implicações Éticas: Existe o risco de que os LLMs perpetuem vieses presentes nos dados de treinamento, o que pode levar a recomendações de tratamento desiguais para diferentes grupos demográficos. Além disso, a falta de regulamentação levanta questões sobre quem é responsabilizado por erros de diagnóstico ou tratamento.
4. Generalização versus Especialização: O setor de saúde abrange uma vasta gama de especialidades. Um LLM treinado em dados médicos gerais pode não ter a expertise detalhada necessária para tarefas especializadas. A adaptação de domínio é essencial para que os modelos funcionem com precisão em tarefas clínicas.
5. Interpretabilidade e Explicação: Profissionais de saúde precisam de informações claras e precisas para tomar decisões. Enquanto os modelos BERT-based parecem mais adequados para inovação e descoberta de conhecimento, os LLMs de uso geral podem não ser capazes de explicar ou raciocinar suas previsões no estado atual.
O Futuro dos LLMs na Saúde
O potencial inexplorado dos LLMs na saúde é significativo, especialmente na otimização de tarefas administrativas que contribuem para o esgotamento dos clínicos. No futuro, espera-se que os modelos evoluam para interagir com comportamento, mais contexto e emoções, fornecendo suporte mais personalizado e empático.
Avanços futuros provavelmente se concentrarão em capacidades multimodais (integrando texto, imagens e dados estruturados), modelos mais específicos para domínios clínicos especializados e aprimoramento de estruturas regulatórias para garantir transparência e segurança. A colaboração Humano-IA, onde os LLMs atuam como ferramentas de suporte em vez de substitutos autônomos, é vista como o caminho ideal para a integração segura e eficaz.
Conclusão
Pense nos LLMs como novos estagiários médicos incrivelmente rápidos. Eles têm acesso a praticamente todo o conhecimento médico já escrito (os dados de treinamento) e podem processá-lo em segundos (velocidade). No entanto, eles ainda precisam de supervisão constante (desafio das alucinações e vieses) e precisam aprender a aplicar esse vasto conhecimento à complexidade única de cada paciente e a interagir com a sensibilidade necessária (desafio da interpretabilidade e empatia). Com a orientação correta e a adaptação especializada, eles se tornarão ferramentas indispensáveis aos profissionais de saúde.
David Matos
Referências:
Aplicações de Large Language Models (LLMs) na Área Médica
Compare 9 Large Language Models in Healthcare
Large Language Models in Healthcare and Medical Applications: A Review
Large Language Model Architectures in Health Care: Scoping Review of Research Perspectives
Me LLaMA: Foundation Large Language Models for Medical Applications
