O Mito do “LLM Local Perfeito”: O Que Ninguém Conta Sobre Quantização

Nos últimos meses virou quase um mantra: “rode seu próprio LLM localmente e tenha independência total”. Na prática, quando você começa a olhar os números de perto, percebe que a história é bem diferente. Existe um gap enorme entre o discurso e a realidade de hardware, performance e qualidade.

Vamos colocar isso em termos técnicos, sem romantização.

O Ponto de Partida: Modelos Gigantes em FP16 / BF16

LLMs modernos são treinados e armazenados, em geral, em formatos de 16 bits como FP16 ou BF16.

Isso significa que cada peso ocupa 2 bytes.

Agora faça a conta:

35 bilhões de parâmetros × 2 bytes ≈ 70 GB+

Na prática, os arquivos ficam na casa de 75 GB.

Isso já elimina praticamente qualquer GPU de consumidor da equação. Uma Nvidia RTX 4090 com 24 GB de VRAM simplesmente não consegue carregar isso. Nem chega perto.

A solução prática: quantização

É aqui que entra a quantização, que nada mais é do que um trade-off clássico de engenharia: menos precisão numérica em troca de viabilidade computacional

Você pega pesos em 16 bits e reduz para 8 bits ou 4 bits.

Isso muda a perspectiva.

Q8: O “Mínimo Aceitável” (com custo alto)

No cenário Q8, cada peso passa a ocupar 1 byte.

O modelo cai para algo entre 37 e 40 GB.

Isso já é uma redução relevante, mas ainda exige hardware pesado.

Para rodar localmente com desempenho razoável:

NVIDIA: uma RTX 6000 (48 GB) ou duas RTX 4090
Apple Silicon: algo como um M3 ou M4 Ultra com 64 GB de memória unificada

Em termos de performance:

NVIDIA: ~40 a 60 tokens por segundo
Apple Silicon: pode chegar próximo de 80 tokens por segundo em setups mais robustos

A qualidade aqui já começa a se aproximar de algo utilizável para tarefas mais exigentes. Ainda não é equivalente a APIs modernas, mas está no território “profissional”.

Q4: O Ponto de Entrada Real

No Q4, cada peso ocupa apenas meio byte.

O modelo desce para algo entre 19 e 22 GB.

Agora sim entra no radar do hardware de alto nível consumidor:

RTX 3090 ou 4090 (24 GB)
Macs com M3 ou M4 Pro (24 GB ou idealmente 36 GB)

E a performance melhora:

RTX 4090: ~120 tokens por segundo
Apple Silicon: ~80 tokens por segundo

Isso acontece porque menos dados trafegam pela memória, que é justamente o gargalo dominante nesses workloads.

O Problema: Qualidade

Aqui está o ponto que costuma ser ignorado.

Existe uma diferença brutal entre:

Um modelo 35B em FP16
O mesmo modelo em Q8
O mesmo modelo em Q4

No Q4, mesmo com boas técnicas de calibração, você começa a ver:

Degradação em reasoning encadeado
Maior propensão a erros em código
Respostas menos consistentes

Para tarefas simples, chat e automações leves, funciona bem.

Mas se você já usa APIs como Claude, GPT ou Gemini no dia a dia, a diferença é imediatamente perceptível.

O Q8 melhora bastante esse cenário, mas volta ao problema inicial: custo de hardware.

O Fator Arquitetura: Por Que MoE Ajuda?

Modelos como o Qwen utilizam arquitetura Mixture of Experts (MoE).

Isso significa que, em vez de ativar todos os parâmetros a cada inferência, apenas um subconjunto é usado.

Na prática:

Reduz custo computacional efetivo
Aumenta throughput
Melhora eficiência em hardware limitado

É um dos motivos pelos quais você consegue ver números como 120 tokens/s no Q4.

Mas isso não resolve o problema fundamental de qualidade quando os pesos estão altamente quantizados.

A Realidade Econômica

Vamos ser diretos.

Para rodar algo próximo de “nível API” localmente, você precisa:

Hardware de dezenas de milhares de dólares
Ou setups multi-GPU
Ou máquinas Apple topo de linha com muita memória unificada

Para a maioria dos casos, pagar por API ainda é:

Mais barato
Mais simples
Mais escalável
Com qualidade superior

Então Vale a Pena Rodar Local?

Depende do objetivo.

Faz sentido quando você precisa de:

Privacidade total
Controle do pipeline
Customização profunda
Inferência offline

Não faz sentido quando o objetivo é:

Máxima qualidade
Custo-benefício
Simplicidade operacional

Conclusão

A ideia de “rodar tudo local” ainda está longe de ser uma solução universal.

Quantização é uma engenharia brilhante que torna o impossível viável, mas não faz milagre. Você sempre paga a conta em algum lugar:

Precisão
Custo
Complexidade

Hoje, o cenário é claro:

Q4 é acessível, rápido e limitado
Q8 é bom, mas caro
FP16 é ideal, mas impraticável para consumo

O hype continua. A física e a economia continuam vencendo.

E o próximo capítulo dessa história provavelmente não será sobre rodar tudo local, mas sobre encontrar o equilíbrio certo entre local e cloud.

David Matos

Referências:

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

QLoRA: Efficient Finetuning of Quantized LLMs

Selecting a quantization method

Mixed Precision Training

O Mito do “LLM Local Perfeito”: O Que Ninguém Conta Sobre Quantização

O Ponto de Partida: Modelos Gigantes em FP16 / BF16

Q8: O “Mínimo Aceitável” (com custo alto)

Q4: O Ponto de Entrada Real

O Problema: Qualidade

O Fator Arquitetura: Por Que MoE Ajuda?

A Realidade Econômica

Então Vale a Pena Rodar Local?

Conclusão

Relacionado

Deixe um comentário Cancelar resposta

O Ponto de Partida: Modelos Gigantes em FP16 / BF16

Q8: O “Mínimo Aceitável” (com custo alto)

Q4: O Ponto de Entrada Real

O Problema: Qualidade

O Fator Arquitetura: Por Que MoE Ajuda?

A Realidade Econômica

Então Vale a Pena Rodar Local?

Conclusão

Compartilhar

Relacionado

Deixe um comentário Cancelar resposta