Observabilidad

Métricas

Define qué medir para evaluar la calidad de tu modelo. Opik incluye métricas predefinidas y soporta métricas personalizadas.

Métricas predefinidas

Hallucination Score

Detecta cuando el modelo inventa información que no está en el contexto o conocimiento base.

< 5%

Por qué importa: Crítico para confianza del usuario

Relevance Score

Mide que tan bien la respuesta aborda la pregunta real del usuario.

> 85%

Por qué importa: Indica utilidad de la respuesta

Answer Correctness

Compara la respuesta con una respuesta de referencia (si existe).

> 90%

Por qué importa: Precisión factual

Tone Appropriateness

Evalúa si el tono es profesional, amigable, o el esperado.

> 90%

Por qué importa: Experiencia del usuario

Context Precision

Para RAG: que tan relevante es el contexto recuperado.

> 80%

Por qué importa: Calidad del retrieval

Métricas para ventas

Para bots de ventas, estas métricas adicionales son útiles:

Lead Qualification Accuracy

Qué tan bien identifica leads valiosos

Objection Handling

Efectividad manejando objeciones de precio, tiempo, etc.

Call-to-Action Rate

Frecuencia con que guía hacia siguiente paso

Information Accuracy

Precisión en precios, specs, disponibilidad

Lead Qualification AccuracyQué tan bien identifica leads valiosos

Objection HandlingEfectividad manejando objeciones de precio, tiempo, etc.

Call-to-Action RateFrecuencia con que guía hacia siguiente paso

Information AccuracyPrecisión en precios, specs, disponibilidad

Interpretación de resultados

90-100%Excelente

Listo para producción

75-90%Bueno

Pequeñas mejoras posibles

50-75%Necesita trabajo

Revisar datos de entrenamiento

< 50%Problematico

No desplegar, investigar

90-100%ExcelenteListo para producción

75-90%BuenoPequeñas mejoras posibles

50-75%Necesita trabajoRevisar datos de entrenamiento

< 50%ProblematicoNo desplegar, investigar

Auto-Tracing

Experimentos