Skip to Content

📏 Métricas de Avaliação para LLMs

Avaliar corretamente um modelo de linguagem (LLM) ou uma aplicação que o utiliza é essencial para garantir qualidade, utilidade e confiança. Ao contrário de modelos tradicionais de ML, que respondem com classificações ou números, os LLMs geram texto aberto – o que exige métricas especializadas, muitas vezes combinando avaliação automática, humana e com outros LLMs como juízes.


📚 O que são métricas de avaliação em LLMs?

Métricas de avaliação são critérios objetivos (ou semi-objetivos) usados para determinar a qualidade das respostas geradas por um LLM. Essas métricas podem verificar:

  • Se a resposta está correta.
  • Se ela é clara e completa.
  • Se está embasada nos dados fornecidos.
  • Se contém conteúdos inadequados, enviesados ou sensíveis.

🧪 Principais Métricas

MétricaDescriçãoQuando usar
FactualidadeA resposta está de acordo com os fatos conhecidos/contexto?RAG, suporte, agentes
GroundednessA resposta está baseada exclusivamente no contexto/documento fornecido?RAG, buscadores
CompletudeA resposta aborda todos os pontos solicitados pelo usuário?QA, assistentes
RelevânciaA resposta tem relação direta com a pergunta feita?Chatbots, copilots
ClarezaO conteúdo está compreensível, bem estruturado e sem ambiguidade?Todos
ConsistênciaA resposta não contém contradições internas?QA complexa
ToxicidadeA resposta contém conteúdo ofensivo, agressivo ou inapropriado?Chatbots, educação
SensibilidadeA resposta revela dados pessoais, confidenciais ou sensíveis?Qualquer app com PII
Helpfulness (utilidade)Ajudou o usuário de forma útil, resolvendo sua dúvida/tarefa?Suporte, copilots
Hallucination rateFrequência de afirmações inventadas ou não verificáveis.RAG, copilots
LatencyTempo de resposta, percepção de fluidez.Produção, apps ao vivo
BLEU / ROUGEComparação de texto com referência; útil para sumarização ou tradução automática.Casos com “gabarito”

🧠 Avaliação por Tipo de Aplicação

🤖 Chatbots Genéricos

Foco em qualidade de conversação, tom e utilidade.

Métricas recomendadas:

  • Helpfulness
  • Relevância
  • Toxicidade
  • Clareza
  • Consistência

🧩 RAG (Retrieval-Augmented Generation)

Foco em embasamento factual e precisão da recuperação.

Métricas recomendadas:

  • Groundedness
  • Factualidade
  • Hallucination rate
  • Completude

🧾 Assistentes de Suporte ao Cliente

Foco em utilidade, tom apropriado e confiança nas informações.

Métricas recomendadas:

  • Helpfulness
  • Factualidade
  • Clareza
  • Relevância
  • Toxicidade

🗂️ Classificação e Rótulos via LLM

Foco em previsibilidade e controle dos outputs.

Métricas recomendadas:

  • Corretude
  • Precision / Recall / F1 (em classificações diretas)
  • Latência
  • Hallucination rate

🧠 Copilots / Agentes Multitarefa

Foco em autonomia, completude e raciocínio coerente.

Métricas recomendadas:

  • Consistência
  • Completude
  • Factualidade
  • Groundedness
  • Helpfulness

🔍 Exemplo Prático de Groundedness

Contexto:

“A Lei 8.666/93 estabelece normas gerais sobre licitações e contratos.”

Pergunta:

“Essa lei permite contratos sem licitação?”

Resposta esperada:

“Sim, a Lei 8.666/93 prevê casos específicos em que é possível contratar sem licitação, como em situações emergenciais.”

Resposta do modelo:

“Sim, qualquer órgão público pode contratar sem licitação sempre que quiser.”

Avaliação:

  • ❌ Factualidade: incorreta
  • ❌ Groundedness: não está baseada no texto de entrada
  • ❌ Helpfulness: pode induzir erro grave

🧰 Ferramentas com suporte a essas métricas


🧠 Dicas para Escolher Métricas

  • Use múltiplas métricas para cobrir diferentes aspectos da resposta.
  • Foque no objetivo da aplicação, não apenas na linguagem.
  • Inclua feedback humano sempre que possível para calibrar métricas automáticas.
  • Implemente pipelines automatizados para comparar versões de modelos em PRs ou deploys.
  • Use suas métricas como referência para melhorias de prompt.

📚 Referências


Resumo

A escolha de métricas certas depende do tipo de aplicação. Use groundedness e factualidade para RAG, clareza e utilidade para chatbots, e consistência para agentes complexos. Ferramentas modernas como Langfuse, DeepEval, RAGAS e LangSmith ajudam a medir essas métricas de forma escalável e confiável.