📏 Métricas de Avaliação para LLMs
Avaliar corretamente um modelo de linguagem (LLM) ou uma aplicação que o utiliza é essencial para garantir qualidade, utilidade e confiança. Ao contrário de modelos tradicionais de ML, que respondem com classificações ou números, os LLMs geram texto aberto – o que exige métricas especializadas, muitas vezes combinando avaliação automática, humana e com outros LLMs como juízes.
📚 O que são métricas de avaliação em LLMs?
Métricas de avaliação são critérios objetivos (ou semi-objetivos) usados para determinar a qualidade das respostas geradas por um LLM. Essas métricas podem verificar:
- Se a resposta está correta.
- Se ela é clara e completa.
- Se está embasada nos dados fornecidos.
- Se contém conteúdos inadequados, enviesados ou sensíveis.
🧪 Principais Métricas
| Métrica | Descrição | Quando usar |
|---|---|---|
| Factualidade | A resposta está de acordo com os fatos conhecidos/contexto? | RAG, suporte, agentes |
| Groundedness | A resposta está baseada exclusivamente no contexto/documento fornecido? | RAG, buscadores |
| Completude | A resposta aborda todos os pontos solicitados pelo usuário? | QA, assistentes |
| Relevância | A resposta tem relação direta com a pergunta feita? | Chatbots, copilots |
| Clareza | O conteúdo está compreensível, bem estruturado e sem ambiguidade? | Todos |
| Consistência | A resposta não contém contradições internas? | QA complexa |
| Toxicidade | A resposta contém conteúdo ofensivo, agressivo ou inapropriado? | Chatbots, educação |
| Sensibilidade | A resposta revela dados pessoais, confidenciais ou sensíveis? | Qualquer app com PII |
| Helpfulness (utilidade) | Ajudou o usuário de forma útil, resolvendo sua dúvida/tarefa? | Suporte, copilots |
| Hallucination rate | Frequência de afirmações inventadas ou não verificáveis. | RAG, copilots |
| Latency | Tempo de resposta, percepção de fluidez. | Produção, apps ao vivo |
| BLEU / ROUGE | Comparação de texto com referência; útil para sumarização ou tradução automática. | Casos com “gabarito” |
🧠 Avaliação por Tipo de Aplicação
🤖 Chatbots Genéricos
Foco em qualidade de conversação, tom e utilidade.
Métricas recomendadas:
- Helpfulness
- Relevância
- Toxicidade
- Clareza
- Consistência
🧩 RAG (Retrieval-Augmented Generation)
Foco em embasamento factual e precisão da recuperação.
Métricas recomendadas:
- Groundedness
- Factualidade
- Hallucination rate
- Completude
🧾 Assistentes de Suporte ao Cliente
Foco em utilidade, tom apropriado e confiança nas informações.
Métricas recomendadas:
- Helpfulness
- Factualidade
- Clareza
- Relevância
- Toxicidade
🗂️ Classificação e Rótulos via LLM
Foco em previsibilidade e controle dos outputs.
Métricas recomendadas:
- Corretude
- Precision / Recall / F1 (em classificações diretas)
- Latência
- Hallucination rate
🧠 Copilots / Agentes Multitarefa
Foco em autonomia, completude e raciocínio coerente.
Métricas recomendadas:
- Consistência
- Completude
- Factualidade
- Groundedness
- Helpfulness
🔍 Exemplo Prático de Groundedness
Contexto:
“A Lei 8.666/93 estabelece normas gerais sobre licitações e contratos.”
Pergunta:
“Essa lei permite contratos sem licitação?”
Resposta esperada:
“Sim, a Lei 8.666/93 prevê casos específicos em que é possível contratar sem licitação, como em situações emergenciais.”
Resposta do modelo:
“Sim, qualquer órgão público pode contratar sem licitação sempre que quiser.”
Avaliação:
- ❌ Factualidade: incorreta
- ❌ Groundedness: não está baseada no texto de entrada
- ❌ Helpfulness: pode induzir erro grave
🧰 Ferramentas com suporte a essas métricas
-
DeepEval → Métricas de groundedness, factualidade, completude, etc.
https://deepeval.com/docs/metrics-introduction -
Langfuse → Logging + LLM-as-a-judge + avaliação manual e automática.
https://langfuse.com/docs -
RAGAS → Foco em RAG: groundedness, context precision, relevância, etc.
https://github.com/explodinggradients/ragas -
LangSmith → Comparação entre versões, execução de benchmarks, integração com feedbacks humanos.
https://docs.smith.langchain.com/ -
OpenEvals (LangChain) → Avaliação em lote com prompts e respostas.
https://github.com/langchain-ai/evals
🧠 Dicas para Escolher Métricas
- Use múltiplas métricas para cobrir diferentes aspectos da resposta.
- Foque no objetivo da aplicação, não apenas na linguagem.
- Inclua feedback humano sempre que possível para calibrar métricas automáticas.
- Implemente pipelines automatizados para comparar versões de modelos em PRs ou deploys.
- Use suas métricas como referência para melhorias de prompt.
📚 Referências
- DeepEval - Métricas de Avaliação
- Reddit - Guia prático para avaliar chatbots LLM
- RAGAS - Métricas para sistemas RAG
- LangSmith - Avaliação de Chains
- Langfuse - Logging + Avaliação
Resumo
A escolha de métricas certas depende do tipo de aplicação. Use groundedness e factualidade para RAG, clareza e utilidade para chatbots, e consistência para agentes complexos. Ferramentas modernas como Langfuse, DeepEval, RAGAS e LangSmith ajudam a medir essas métricas de forma escalável e confiável.