Nos últimos meses virou quase um mantra: “rode seu próprio LLM localmente e tenha independência total”. Na prática, quando você começa a olhar os números de perto, percebe que a história é bem diferente. Existe um gap enorme entre o discurso e a realidade de hardware, performance e qualidade.
Vamos colocar isso em termos técnicos, sem romantização.
O Ponto de Partida: Modelos Gigantes em FP16 / BF16
LLMs modernos são treinados e armazenados, em geral, em formatos de 16 bits como FP16 ou BF16.
Isso significa que cada peso ocupa 2 bytes.
Agora faça a conta:
35 bilhões de parâmetros × 2 bytes ≈ 70 GB+
Na prática, os arquivos ficam na casa de 75 GB.
Isso já elimina praticamente qualquer GPU de consumidor da equação. Uma Nvidia RTX 4090 com 24 GB de VRAM simplesmente não consegue carregar isso. Nem chega perto.
A solução prática: quantização
É aqui que entra a quantização, que nada mais é do que um trade-off clássico de engenharia: menos precisão numérica em troca de viabilidade computacional
Você pega pesos em 16 bits e reduz para 8 bits ou 4 bits.
Isso muda a perspectiva.
Q8: O “Mínimo Aceitável” (com custo alto)
No cenário Q8, cada peso passa a ocupar 1 byte.
O modelo cai para algo entre 37 e 40 GB.
Isso já é uma redução relevante, mas ainda exige hardware pesado.
Para rodar localmente com desempenho razoável:
- NVIDIA: uma RTX 6000 (48 GB) ou duas RTX 4090
- Apple Silicon: algo como um M3 ou M4 Ultra com 64 GB de memória unificada
Em termos de performance:
- NVIDIA: ~40 a 60 tokens por segundo
- Apple Silicon: pode chegar próximo de 80 tokens por segundo em setups mais robustos
A qualidade aqui já começa a se aproximar de algo utilizável para tarefas mais exigentes. Ainda não é equivalente a APIs modernas, mas está no território “profissional”.
Q4: O Ponto de Entrada Real
No Q4, cada peso ocupa apenas meio byte.
O modelo desce para algo entre 19 e 22 GB.
Agora sim entra no radar do hardware de alto nível consumidor:
- RTX 3090 ou 4090 (24 GB)
- Macs com M3 ou M4 Pro (24 GB ou idealmente 36 GB)
E a performance melhora:
- RTX 4090: ~120 tokens por segundo
- Apple Silicon: ~80 tokens por segundo
Isso acontece porque menos dados trafegam pela memória, que é justamente o gargalo dominante nesses workloads.
O Problema: Qualidade
Aqui está o ponto que costuma ser ignorado.
Existe uma diferença brutal entre:
- Um modelo 35B em FP16
- O mesmo modelo em Q8
- O mesmo modelo em Q4
No Q4, mesmo com boas técnicas de calibração, você começa a ver:
- Degradação em reasoning encadeado
- Maior propensão a erros em código
- Respostas menos consistentes
Para tarefas simples, chat e automações leves, funciona bem.
Mas se você já usa APIs como Claude, GPT ou Gemini no dia a dia, a diferença é imediatamente perceptível.
O Q8 melhora bastante esse cenário, mas volta ao problema inicial: custo de hardware.
O Fator Arquitetura: Por Que MoE Ajuda?
Modelos como o Qwen utilizam arquitetura Mixture of Experts (MoE).
Isso significa que, em vez de ativar todos os parâmetros a cada inferência, apenas um subconjunto é usado.
Na prática:
- Reduz custo computacional efetivo
- Aumenta throughput
- Melhora eficiência em hardware limitado
É um dos motivos pelos quais você consegue ver números como 120 tokens/s no Q4.
Mas isso não resolve o problema fundamental de qualidade quando os pesos estão altamente quantizados.
A Realidade Econômica
Vamos ser diretos.
Para rodar algo próximo de “nível API” localmente, você precisa:
- Hardware de dezenas de milhares de dólares
- Ou setups multi-GPU
- Ou máquinas Apple topo de linha com muita memória unificada
Para a maioria dos casos, pagar por API ainda é:
- Mais barato
- Mais simples
- Mais escalável
- Com qualidade superior
Então Vale a Pena Rodar Local?
Depende do objetivo.
Faz sentido quando você precisa de:
- Privacidade total
- Controle do pipeline
- Customização profunda
- Inferência offline
Não faz sentido quando o objetivo é:
- Máxima qualidade
- Custo-benefício
- Simplicidade operacional
Conclusão
A ideia de “rodar tudo local” ainda está longe de ser uma solução universal.
Quantização é uma engenharia brilhante que torna o impossível viável, mas não faz milagre. Você sempre paga a conta em algum lugar:
- Precisão
- Custo
- Complexidade
Hoje, o cenário é claro:
- Q4 é acessível, rápido e limitado
- Q8 é bom, mas caro
- FP16 é ideal, mas impraticável para consumo
O hype continua. A física e a economia continuam vencendo.
E o próximo capítulo dessa história provavelmente não será sobre rodar tudo local, mas sobre encontrar o equilíbrio certo entre local e cloud.
David Matos
Referências:
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers
QLoRA: Efficient Finetuning of Quantized LLMs
