shadcn/studio

Métricas

Define qué medir para evaluar la calidad de tu modelo. Opik incluye métricas predefinidas y soporta métricas personalizadas.

Métricas predefinidas

Hallucination Score

Detecta cuando el modelo inventa información que no está en el contexto o conocimiento base.

< 5%

Por qué importa: Crítico para confianza del usuario

Relevance Score

Mide que tan bien la respuesta aborda la pregunta real del usuario.

> 85%

Por qué importa: Indica utilidad de la respuesta

Answer Correctness

Compara la respuesta con una respuesta de referencia (si existe).

> 90%

Por qué importa: Precisión factual

Tone Appropriateness

Evalúa si el tono es profesional, amigable, o el esperado.

> 90%

Por qué importa: Experiencia del usuario

Context Precision

Para RAG: que tan relevante es el contexto recuperado.

> 80%

Por qué importa: Calidad del retrieval

Métricas para ventas

Para bots de ventas, estas métricas adicionales son útiles:

Lead Qualification AccuracyQué tan bien identifica leads valiosos
Objection HandlingEfectividad manejando objeciones de precio, tiempo, etc.
Call-to-Action RateFrecuencia con que guía hacia siguiente paso
Information AccuracyPrecisión en precios, specs, disponibilidad

Interpretación de resultados

90-100%ExcelenteListo para producción
75-90%BuenoPequeñas mejoras posibles
50-75%Necesita trabajoRevisar datos de entrenamiento
< 50%ProblematicoNo desplegar, investigar

Anterior

Auto-Tracing

Siguiente

Experimentos