shadcn/studio
Evaluacion (Opik)/Experimentos

Experimentos

Compara diferentes versiones de tu modelo con datos de prueba antes de desplegar.

Por que experimentar?

Antes de reemplazar tu modelo en produccion, necesitas saber si el nuevo es realmente mejor. Los experimentos te dan datos objetivos para decidir.

Crear un experimento

python
from opik.evaluation import evaluate

# Evaluar modelo nuevo vs baseline
resultados = evaluate(
    dataset="leads-prueba-enero-2025",
    task=respuesta_mariana_v2,
    scoring_metrics=[
        metrica_alucinacion,
        metrica_relevancia,
        metrica_prediccion_conversion
    ],
    experiment_config={
        "model": "mariana-v2-afinada",
        "baseline": "mariana-v1-prompt"
    }
)

Ejemplo de resultados

Resultados del Experimento: mariana-upgrade-2025
├── Mariana v1 (prompt):
│ ├── Alucinacion: 12%
│ ├── Relevancia: 78%
│ └── Est. Conversion: 2.3%
└── Mariana v2 (afinada):
├── Alucinacion: 3% ↓ 75%
├── Relevancia: 91% ↑ 17%
└── Est. Conversion: 4.1% ↑ 78%
✓ Recomendacion: Desplegar mariana-v2-afinada

Decisiones basadas en datos

python
# Logica de decision automatica
if modelo_nuevo.avg_score > baseline.avg_score:
    print("✓ Modelo mejorado, listo para desplegar")
    desplegar(modelo_nuevo)
else:
    print("✗ Modelo no mejoro, mantener v1")
    desplegar(modelo_baseline)

Buenas practicas

  • Dataset de holdout: Nunca uses datos de entrenamiento para evaluar
  • Multiples metricas: No te bases en una sola metrica
  • Significancia estadistica: Asegurate de tener suficientes muestras
  • Casos edge: Incluye preguntas dificiles en tu dataset de prueba

Anterior

Metricas