Observabilidad

Experimentos

Compara diferentes versiones de tu modelo con datos de prueba antes de desplegar.

Por que experimentar?

Antes de reemplazar tu modelo en produccion, necesitas saber si el nuevo es realmente mejor. Los experimentos te dan datos objetivos para decidir.

Crear un experimento

python

from opik.evaluation import evaluate

# Evaluar modelo nuevo vs baseline
resultados = evaluate(
    dataset="leads-prueba-enero-2025",
    task=respuesta_mariana_v2,
    scoring_metrics=[
        metrica_alucinacion,
        metrica_relevancia,
        metrica_prediccion_conversion
    ],
    experiment_config={
        "model": "mariana-v2-afinada",
        "baseline": "mariana-v1-prompt"
    }
)

Ejemplo de resultados

Resultados del Experimento: mariana-upgrade-2025

Mariana v1 (prompt):

Alucinacion: 12%

Relevancia: 78%

Est. Conversion: 2.3%

Mariana v2 (afinada):

Alucinacion: 3% -75%

Relevancia: 91% +17%

Est. Conversion: 4.1% +78%

Recomendacion: Desplegar mariana-v2-afinada

Decisiones basadas en datos

python

# Logica de decision automatica
if modelo_nuevo.avg_score > baseline.avg_score:
    print("✓ Modelo mejorado, listo para desplegar")
    desplegar(modelo_nuevo)
else:
    print("✗ Modelo no mejoro, mantener v1")
    desplegar(modelo_baseline)

Buenas practicas

Dataset de holdout: Nunca uses datos de entrenamiento para evaluar
Multiples metricas: No te bases en una sola metrica
Significancia estadistica: Asegurate de tener suficientes muestras
Casos edge: Incluye preguntas dificiles en tu dataset de prueba

Metricas

Volver a Documentación