Ciência e Dados
Menu
  • Home
  • Sobre
  • Contato
Menu
Os 3 Principais Beneficios de Usar GraphRAG em IA Generativa

Os 3 Principais Benefícios de Usar GraphRAG em IA Generativa

Posted on 29 de julho de 2024 by David Matos

Este é o terceiro artigo sobre GraphRAG. Para acessar o primeiro artigo, clique aqui.

Os benefícios que estamos vendo do GraphRAG em relação ao RAG somente vetorial se enquadram em três grupos principais:

– Maior precisão e respostas mais completas (benefício de tempo de execução/produção).
– Depois de criar o grafo de conhecimento, será mais fácil construir e posteriormente manter o aplicativo RAG (benefício de tempo de desenvolvimento/manutenção).
– Melhor explicabilidade, rastreabilidade e controles de acesso (benefício de governança).

Vamos detalhar então Os 3 Principais Benefícios de Usar GraphRAG em IA Generativa:

Nº 1: Maior Precisão e Respostas Mais Úteis

O primeiro (e mais imediatamente tangível) benefício que vemos com o GraphRAG são as respostas de maior qualidade. Um exemplo é o da empresa de catálogo de dados Data.world. No final de 2023, eles publicaram um estudo (link ao final do artigo) que mostrou que o GraphRAG, em média, melhorou a precisão das respostas do LLM em 3x em 43 questões de negócios. O benchmark encontrou evidências de uma melhoria significativa na precisão das respostas quando apoiada por um grafo de conhecimento.

Mais recentemente, e talvez mais conhecida, houve uma série de postagens da Microsoft começando em fevereiro de 2024 com um post intitulado GraphRAG: Desbloqueando a descoberta de LLM em dados privados narrativos, junto com um artigo de pesquisa associado e lançamento de software (link no final deste artigo). Nesse trabalho eles observaram que o RAG padrão (ou seja, com vetores) tem os dois problemas a seguir:

  • O Baseline RAG luta para conectar os pontos. Isso acontece quando responder a uma pergunta exige a passagem de informações díspares por meio de seus atributos compartilhados, a fim de fornecer novos insights sintetizados.
  • O Baseline RAG tem um desempenho ruim quando solicitado a compreender holisticamente conceitos semânticos resumidos em grandes coleções de dados ou até mesmo em grandes documentos singulares.

A Microsoft descobriu que “ao usar o grafo de conhecimento gerado pelo LLM, o GraphRAG melhora enormemente a parte de ‘recuperação’ do RAG, preenchendo a janela de contexto com conteúdo de maior relevância, resultando em melhores respostas e capturando a proveniência das evidências”. Eles também descobriram que o GraphRAG exigia entre 26% e 97% menos tokens do que abordagens alternativas, tornando-o não apenas melhor no fornecimento de respostas, mas também mais barato e mais escalável.

Indo mais fundo no tópico da precisão, não é apenas importante saber se uma resposta está correta; é também o quão úteis são as respostas. O que as pessoas têm descoberto com o GraphRAG é que as respostas não são apenas mais precisas, mas também mais ricas, mais completas e mais úteis. O artigo recente do LinkedIn descrevendo o impacto do GraphRAG em seu aplicativo de atendimento ao cliente fornece um excelente exemplo disso.

O GraphRAG melhora a correção e a riqueza (e, portanto, a utilidade) para responder perguntas de atendimento ao cliente, reduzindo o tempo médio de resolução por problema em 28,6% para uma equipe de atendimento ao cliente.

Um outro exemplo notável que incluirei vem do Writer. Recentemente, eles anunciaram um relatório de benchmarking RAG baseado na estrutura RobustQA, comparando sua abordagem baseada em GraphRAG com as melhores ferramentas competitivas do setor. O GraphRAG resultou em uma pontuação de 86%, o que é uma melhoria significativa em relação à concorrência, cujas pontuações variaram entre 33% e 76%, com latência equivalente ou melhor.

Nº 2: Melhor Compreensão dos Dados, Iteração Mais Rápida

Os grafos de conhecimento são intuitivos tanto conceitualmente quanto visualmente. Ser capaz de explorá-los muitas vezes revela novos insights. Um benefício colateral inesperado que muitos usuários estão relatando é que, depois de investirem na criação de seu grafo de conhecimento, eles descobrem que isso os ajuda a construir e depurar seus aplicativos GenAI de maneiras inesperadas. Em parte, isso tem a ver com a forma como ver os dados como um grafo pinta uma imagem viva dos dados ao aplicativo. O grafo também fornece ganchos para rastrear respostas até os dados e rastrear esses dados na cadeia causal.

Ao trabalhar com seus dados como um grafo, você pode apreendê-los de uma forma que não é possível com uma representação vetorial.

Aqui está um exemplo de um webinar recente do LlamaIndex, mostrando sua capacidade de extrair o grafo de pedaços vetorizados (o grafo lexical) e entidades extraídas do LLM (o grafo de domínio) e unir os dois com relacionamentos “MENTIONS”:

extract-lexical-domain-graphs

Olhando para este diagrama, você provavelmente começará a ver como ter uma estrutura rica onde seus dados residem abre uma ampla gama de novas possibilidades de desenvolvimento e depuração. Os dados individuais mantêm seu valor e a própria estrutura armazena e transmite significado adicional, que você pode usar para adicionar mais inteligência ao seu aplicativo.

Não é apenas a visualização. É também o efeito de ter seus dados estruturados de uma forma que transmitam e armazenem significado.

Nº 3: Governança – Explicabilidade e Segurança

Quanto maior o impacto de uma decisão da GenAI, mais você precisa ser capaz de convencer a pessoa que está usando a solução a confiar na decisão. Isso normalmente envolve a capacidade de auditar cada decisão. Também requer um histórico sólido e reproduzível de boas decisões. Mas isso não é suficiente. Você também precisa ser capaz de explicar o raciocínio a essa pessoa quando ela toma uma decisão.

Os LLMs não oferecem uma boa maneira de fazer isso por conta própria. Sim, você pode obter referências dos documentos utilizados para tomar a decisão. Mas isso não explica a decisão em si – sem falar no fato de que os LLMs são conhecidos por fazerem essas referências! Os grafos de conhecimento operam em um nível totalmente diferente, tornando a lógica de raciocínio dentro dos pipelines GenAI muito mais clara e as entradas muito mais explicáveis.

Vamos continuar com um dos exemplos acima, onde Charles da Lettria carrega um grafo de conhecimento com entidades extraídas de 10.000 artigos financeiros e usa isso com um LLM para realizar o GraphRAG. Vimos como isso fornece melhores respostas. Vamos dar uma olhada nos dados:

nodes-retrieved-vector-search

Ver os dados como um grafo é a primeira parte. Os dados também são navegáveis ​​e consultáveis ​​e podem ser corrigidos e atualizados com o passar do tempo. A vantagem da governança é que se torna muito mais fácil visualizar e auditar o “modelo mundial” dos dados.

O uso de um grafo torna mais provável que o ser humano responsável pela decisão o compreenda, em relação a receber a versão vetorial dos mesmos dados. Do lado da garantia de qualidade, ter os dados em um grafo de conhecimento torna muito mais fácil detectar erros e surpresas nos dados (agradáveis ​​ou não) e rastreá-los até sua origem.

Você também pode capturar informações de procedência e confiança no grafo e usá-las não apenas em seus cálculos, mas também em sua explicação. Isso simplesmente não é possível quando você olha para a versão apenas vetorial dos mesmos dados que, como discutimos anteriormente, é bastante inescrutável para o ser humano médio – e até mesmo acima da média!

Os grafos de conhecimento também podem melhorar significativamente a segurança e a privacidade. Isso tende a ser menos importante ao construir um protótipo, mas é uma parte crítica do caminho para a produção. Se você atua em um negócio regulamentado, como bancário ou de saúde, o acesso que qualquer funcionário tem às informações provavelmente depende da função dessa pessoa.

Nem os LLMs nem os bancos de dados vetoriais têm uma boa maneira de limitar o escopo da informação para corresponder à função. Você pode lidar com isso prontamente com permissões dentro de um grafo de conhecimento, onde a capacidade de qualquer ator de acessar dados é governada pelo banco de dados e excluir resultados que eles não têm permissão para ver. Aqui está um modelo de uma política de segurança simples que você pode implementar em um grafo de conhecimento com controles de acesso refinados:

example-security-policy

Embora esteja longe de ser perfeito e ainda bem no início, o GraphRAG pode trazer benefícios consideráveis ao customizar o uso de LLM para aplicações corporativas.

David Matos

Referências:

Formação LLM 4.0

The GraphRAG Manifesto: Adding Knowledge to GenAI

GraphRAG: A New Approach for Question & Answering on Private Data

Generative AI Benchmark: Increasing the Accuracy of LLMs in the Enterprise with a Knowledge Graph

GraphRAG: Unlocking LLM discovery on narrative private data

From Local to Global: A Graph RAG Approach to Query-Focused Summarization

Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering

Compartilhar

  • Clique para compartilhar no X(abre em nova janela) 18+
  • Clique para compartilhar no Facebook(abre em nova janela) Facebook
  • Clique para compartilhar no LinkedIn(abre em nova janela) LinkedIn
  • Clique para compartilhar no WhatsApp(abre em nova janela) WhatsApp
  • Clique para compartilhar no Telegram(abre em nova janela) Telegram
  • Clique para compartilhar no Tumblr(abre em nova janela) Tumblr
  • Clique para compartilhar no Pinterest(abre em nova janela) Pinterest

Relacionado

Deixe um comentário Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assinar blog por e-mail

Digite seu endereço de e-mail para assinar este blog e receber notificações de novas publicações por e-mail.

Buscar

Tags Mais Comuns nos Posts

Agentes de IA Analytics Análise de Negócios Apache Spark AWS Big Data Blockchain Business Intelligence Cache-Augmented Generation (CAG) ChatGPT Cientista de Dados Cientistas de Dados Ciência de Dados Cloud Computing Data Lake Data Mesh Data Science Data Scientist Data Warehouse Deep Learning Deploy Engenharia de Dados Estatística GPU GraphRAG Hadoop IA Generativa Inteligência Artificial Internet of Things Linguagem Python Linguagem R LLM LLMs Machine Learning Metadados Normalização NVIDIA Oracle Pipeline de Dados Predictive Analytics Probabilidade PySpark Python RAG Storytelling

Histórico de Posts

  • maio 2025 (1)
  • abril 2025 (2)
  • março 2025 (4)
  • fevereiro 2025 (8)
  • janeiro 2025 (5)
  • dezembro 2024 (4)
  • novembro 2024 (1)
  • outubro 2024 (1)
  • setembro 2024 (1)
  • agosto 2024 (1)
  • julho 2024 (3)
  • junho 2024 (1)
  • maio 2024 (1)
  • abril 2024 (2)
  • março 2024 (1)
  • fevereiro 2024 (1)
  • janeiro 2024 (1)
  • dezembro 2023 (1)
  • outubro 2023 (2)
  • setembro 2023 (1)
  • agosto 2023 (4)
  • julho 2023 (2)
  • junho 2023 (4)
  • maio 2023 (2)
  • abril 2023 (2)
  • março 2023 (3)
  • fevereiro 2023 (3)
  • janeiro 2023 (3)
  • dezembro 2022 (7)
  • novembro 2022 (6)
  • outubro 2022 (2)
  • setembro 2022 (3)
  • agosto 2022 (2)
  • julho 2022 (2)
  • junho 2022 (3)
  • maio 2022 (1)
  • abril 2022 (3)
  • março 2022 (1)
  • fevereiro 2022 (3)
  • janeiro 2022 (2)
  • dezembro 2021 (1)
  • novembro 2021 (5)
  • outubro 2021 (2)
  • setembro 2021 (3)
  • agosto 2021 (1)
  • junho 2021 (1)
  • fevereiro 2021 (2)
  • janeiro 2021 (1)
  • dezembro 2020 (1)
  • novembro 2020 (1)
  • outubro 2020 (2)
  • agosto 2020 (1)
  • abril 2020 (1)
  • março 2020 (1)
  • fevereiro 2020 (2)
  • agosto 2019 (1)
  • abril 2019 (1)
  • setembro 2018 (2)
  • julho 2018 (1)
  • junho 2018 (3)
  • abril 2018 (1)
  • março 2018 (1)
  • fevereiro 2018 (2)
  • janeiro 2018 (1)
  • dezembro 2017 (1)
  • novembro 2017 (1)
  • outubro 2017 (1)
  • setembro 2017 (1)
  • julho 2017 (1)
  • junho 2017 (1)
  • maio 2017 (2)
  • abril 2017 (1)
  • janeiro 2017 (1)
  • novembro 2016 (1)
  • outubro 2016 (1)
  • setembro 2016 (1)
  • julho 2016 (1)
  • junho 2016 (1)
  • maio 2016 (1)
  • abril 2016 (1)
  • fevereiro 2016 (1)
  • janeiro 2016 (3)
  • dezembro 2015 (4)
  • novembro 2015 (6)
  • outubro 2015 (9)
  • setembro 2015 (9)
  • agosto 2015 (9)
©2025 Ciência e Dados
 

Carregando comentários...