📏 Métricas de Avaliação para LLMs

Avaliar corretamente um modelo de linguagem (LLM) ou uma aplicação que o utiliza é essencial para garantir qualidade, utilidade e confiança. Ao contrário de modelos tradicionais de ML, que respondem com classificações ou números, os LLMs geram texto aberto – o que exige métricas especializadas, muitas vezes combinando avaliação automática, humana e com outros LLMs como juízes.

📚 O que são métricas de avaliação em LLMs?

Métricas de avaliação são critérios objetivos (ou semi-objetivos) usados para determinar a qualidade das respostas geradas por um LLM. Essas métricas podem verificar:

Se a resposta está correta.
Se ela é clara e completa.
Se está embasada nos dados fornecidos.
Se contém conteúdos inadequados, enviesados ou sensíveis.

🧪 Principais Métricas

Métrica	Descrição	Quando usar
Factualidade	A resposta está de acordo com os fatos conhecidos/contexto?	RAG, suporte, agentes
Groundedness	A resposta está baseada exclusivamente no contexto/documento fornecido?	RAG, buscadores
Completude	A resposta aborda todos os pontos solicitados pelo usuário?	QA, assistentes
Relevância	A resposta tem relação direta com a pergunta feita?	Chatbots, copilots
Clareza	O conteúdo está compreensível, bem estruturado e sem ambiguidade?	Todos
Consistência	A resposta não contém contradições internas?	QA complexa
Toxicidade	A resposta contém conteúdo ofensivo, agressivo ou inapropriado?	Chatbots, educação
Sensibilidade	A resposta revela dados pessoais, confidenciais ou sensíveis?	Qualquer app com PII
Helpfulness (utilidade)	Ajudou o usuário de forma útil, resolvendo sua dúvida/tarefa?	Suporte, copilots
Hallucination rate	Frequência de afirmações inventadas ou não verificáveis.	RAG, copilots
Latency	Tempo de resposta, percepção de fluidez.	Produção, apps ao vivo
BLEU / ROUGE	Comparação de texto com referência; útil para sumarização ou tradução automática.	Casos com “gabarito”

🧠 Avaliação por Tipo de Aplicação

🤖 Chatbots Genéricos

Foco em qualidade de conversação, tom e utilidade.

Métricas recomendadas:

Helpfulness
Relevância
Toxicidade
Clareza
Consistência

🧩 RAG (Retrieval-Augmented Generation)

Foco em embasamento factual e precisão da recuperação.

Métricas recomendadas:

Groundedness
Factualidade
Hallucination rate
Completude

🧾 Assistentes de Suporte ao Cliente

Foco em utilidade, tom apropriado e confiança nas informações.

Métricas recomendadas:

Helpfulness
Factualidade
Clareza
Relevância
Toxicidade

🗂️ Classificação e Rótulos via LLM

Foco em previsibilidade e controle dos outputs.

Métricas recomendadas:

Corretude
Precision / Recall / F1 (em classificações diretas)
Latência
Hallucination rate

🧠 Copilots / Agentes Multitarefa

Foco em autonomia, completude e raciocínio coerente.

Métricas recomendadas:

Consistência
Completude
Factualidade
Groundedness
Helpfulness

🔍 Exemplo Prático de Groundedness

Contexto:

“A Lei 8.666/93 estabelece normas gerais sobre licitações e contratos.”

Pergunta:

“Essa lei permite contratos sem licitação?”

Resposta esperada:

“Sim, a Lei 8.666/93 prevê casos específicos em que é possível contratar sem licitação, como em situações emergenciais.”

Resposta do modelo:

“Sim, qualquer órgão público pode contratar sem licitação sempre que quiser.”

Avaliação:

❌ Factualidade: incorreta
❌ Groundedness: não está baseada no texto de entrada
❌ Helpfulness: pode induzir erro grave

🧰 Ferramentas com suporte a essas métricas

DeepEval → Métricas de groundedness, factualidade, completude, etc.
https://deepeval.com/docs/metrics-introduction
Langfuse → Logging + LLM-as-a-judge + avaliação manual e automática.
https://langfuse.com/docs
RAGAS → Foco em RAG: groundedness, context precision, relevância, etc.
https://github.com/explodinggradients/ragas
LangSmith → Comparação entre versões, execução de benchmarks, integração com feedbacks humanos.
https://docs.smith.langchain.com/
OpenEvals (LangChain) → Avaliação em lote com prompts e respostas.
https://github.com/langchain-ai/evals

🧠 Dicas para Escolher Métricas

Use múltiplas métricas para cobrir diferentes aspectos da resposta.
Foque no objetivo da aplicação, não apenas na linguagem.
Inclua feedback humano sempre que possível para calibrar métricas automáticas.
Implemente pipelines automatizados para comparar versões de modelos em PRs ou deploys.
Use suas métricas como referência para melhorias de prompt.

📚 Referências

Resumo

A escolha de métricas certas depende do tipo de aplicação. Use groundedness e factualidade para RAG, clareza e utilidade para chatbots, e consistência para agentes complexos. Ferramentas modernas como Langfuse, DeepEval, RAGAS e LangSmith ajudam a medir essas métricas de forma escalável e confiável.