Em sistemas de RAG (Retrieval Augmented Generation), a qualidade da resposta final depende diretamente da qualidade do contexto recuperado antes da geração. O modelo de linguagem só consegue responder bem quando recebe informações suficientes, corretas e relevantes.
Por isso, avaliar apenas a resposta final não é suficiente: também é necessário avaliar a etapa de recuperação, o momento em que o sistema busca, no índice vetorial, os trechos que serão enviados ao modelo.
Duas métricas são fundamentais nessa avaliação: Context Recall e Context Precision. Elas respondem a perguntas diferentes, mas complementares. Context Recall mede se o sistema recuperou tudo o que precisava recuperar. Context Precision mede se aquilo que foi recuperado era realmente útil para responder à pergunta.

Context Recall: a Métrica da Cobertura
Context Recall avalia, entre todas as informações necessárias para responder corretamente a uma pergunta, quanto foi de fato encontrado pelo mecanismo de busca. Um sistema com alto Context Recall consegue trazer os trechos essenciais do conhecimento disponível, reduzindo o risco de deixar de fora uma evidência importante.
Em Termos Simples: De tudo o que era necessário para responder bem, quanto apareceu no contexto recuperado? Quanto maior esse valor, menor a chance de o modelo responder com base em informação parcial.
Context Precision: a Métrica da Relevância
Context Precision avalia, entre todos os trechos recuperados, quantos realmente ajudam a responder à pergunta. Um sistema com alta precisão evita enviar ruído ao modelo, ou seja, evita incluir documentos vagos, duplicados, pouco relacionados ou até potencialmente confusos.
Em Termos Simples: Do que foi entregue ao modelo como contexto, quanto era realmente necessário? Quanto maior esse valor, menor o volume de ruído e maior a chance de o modelo produzir uma resposta objetiva, fiel e bem fundamentada.
Um Exemplo: Cancelar um Contrato
Imagine que um usuário pergunte quais são os requisitos para cancelar um contrato. A resposta correta depende de três informações essenciais. A tabela abaixo mostra esses trechos essenciais e alguns trechos que o índice também contém, mas que não contribuem para a resposta.

Se o sistema recupera apenas os trechos sobre prazo e multa, mas deixa de fora o canal oficial, o Context Recall não é ideal: mesmo que os trechos recuperados sejam relevantes, a cobertura está incompleta.
Por outro lado, se o sistema recupera as três informações essenciais, porém também traz renovação automática, troca de titularidade, reajuste anual e política de suporte, o Context Recall pode ser alto, mas o Context Precision será menor, porque o contexto contém muitos trechos que não contribuem diretamente para a resposta.
Por Que Analisar as Duas Juntas?
A diferença entre essas métricas é importante porque um sistema pode ir bem em uma e mal na outra. A matriz a seguir cruza os dois eixos e descreve cada cenário possível.

Na prática, um RAG eficiente não deve apenas encontrar algum trecho relevante. Ele precisa encontrar os trechos certos, em quantidade suficiente, sem sobrecarregar o modelo com conteúdo desnecessário. A boa recuperação está no equilíbrio entre cobertura e relevância.
Impacto na Resposta Gerada
Esse equilíbrio afeta diretamente a qualidade da resposta. Quando o recall é baixo, o modelo pode produzir uma resposta incompleta, genérica ou até incorreta, porque não recebeu todas as evidências necessárias. Quando a precisão é baixa, o modelo pode se distrair com informações irrelevantes, misturar assuntos ou responder de forma menos objetiva.
![]()
A avaliação ideal de um sistema de RAG deve observar essas três camadas. Context Recall e Context Precision atuam principalmente na camada do meio (o contexto recuperado) e ajudam a entender se o problema está na recuperação ou na geração. Muitas vezes, uma resposta ruim não é culpa do modelo de linguagem, mas sim do contexto incompleto ou ruidoso que ele recebeu.
Diagnóstico de Problemas no Pipeline
Quando uma das métricas está baixa, ela aponta para causas prováveis em pontos específicos do pipeline. A tabela a seguir resume os sintomas e suas possíveis origens.

Como Melhorar Cada Métrica

Cuidado com o Trade-off: Nem sempre aumentar o número de documentos recuperados melhora o sistema. Trazer mais contexto pode aumentar o recall, mas reduzir a precisão; restringir demais os resultados pode melhorar a precisão, mas prejudicar o recall. A avaliação deve considerar o tipo de pergunta, o domínio da aplicação e o nível de completude exigido pela resposta.
Qual Métrica Pesa Mais em Cada Domínio?

Conclusão
Context Recall mede cobertura: o sistema trouxe tudo o que era necessário? Context Precision mede relevância: o que o sistema trouxe era realmente útil? Juntas, essas métricas permitem avaliar a qualidade do retrieval de forma muito mais precisa e orientar melhorias concretas no pipeline de RAG.
Um bom sistema de RAG não é aquele que apenas recupera documentos semanticamente parecidos. É aquele que recupera as evidências certas, na quantidade certa, com o mínimo possível de ruído. Context Recall e Context Precision são, portanto, métricas essenciais para transformar o RAG de uma solução aparentemente funcional em uma arquitetura confiável, auditável e pronta para uso em cenários reais.
David Matos
Referências:
Inteligência Aumentada com RAG, GraphRAG e Agentic RAG
Pipelines Para LLMs com ETL e Orquestração de Dados Não Estruturados
