Sistema de Evaluación
Evalúa automáticamente la calidad de tu modelo entrenado usando LLM-as-a-Judge. Compara contra modelos baseline y obtén métricas detalladas.
Función PRO
El sistema de evaluación está disponible en el plan Professional ($1,999 MXN/mes) o superior. Incluye evaluaciones ilimitadas, métricas personalizadas e integración con Opik.
¿Cómo Funciona?
El sistema de evaluación compara las respuestas de tu modelo entrenado contra un modelo baseline (como GPT-4 o el modelo sin entrenar). Un modelo "juez" (LLM-as-Judge) analiza ambas respuestas y determina cuál es mejor según métricas como precisión, relevancia y coherencia.
Características
LLM-as-a-Judge
Usa modelos grandes como GPT-4 para evaluar automáticamente las respuestas.
Comparación Trained vs Baseline
Compara tu modelo entrenado contra un modelo base para medir mejoras.
Integración Opik
Trazabilidad completa de evaluaciones con métricas y dashboards.
Métricas Personalizadas
Define tus propias métricas de evaluación según tu caso de uso.
Cómo Crear una Evaluación
Accede al Panel de Evaluación
Ve a Evaluación → Panel General en el menú lateral.
Crea una Configuración
Haz clic en "Nueva Configuración" para definir los parámetros de evaluación.
Selecciona los Modelos
Elige tu modelo entrenado y el modelo baseline para comparar.
Define las Preguntas de Test
Agrega preguntas que se usarán para evaluar. Puedes importar desde un dataset.
Configura el Modelo Juez
Selecciona qué modelo LLM evaluará las respuestas (ej: GPT-4).
Ejecuta la Evaluación
Inicia la evaluación y monitorea el progreso en tiempo real.
Analiza los Resultados
Revisa las métricas, gráficos comparativos y exporta los resultados.
Métricas de Evaluación
| Métrica | Descripción |
|---|---|
| Win Rate | Porcentaje de veces que el modelo entrenado gana vs baseline |
| Score Promedio | Puntuación media de las respuestas (0-100) |
| Precisión | Qué tan correctas son las respuestas |
| Relevancia | Qué tan relevantes son las respuestas al contexto |
| Coherencia | Qué tan bien estructuradas y lógicas son las respuestas |
| Latencia | Tiempo de respuesta del modelo en milisegundos |
Estados de Ejecución
Pendiente
pending
Ejecutando
running
Completado
completed
Fallido
failed
Funciones Adicionales
Experimentos
Crea experimentos para comparar diferentes versiones de tu modelo o diferentes configuraciones de entrenamiento.
Ver documentación de OpikAutomatización
PROConfigura reglas para ejecutar evaluaciones automáticamente cuando se entrena un nuevo modelo o se actualiza el dataset.
Trazas
Visualiza el historial completo de operaciones del modelo con integración Opik para debugging y análisis.
Ver documentación de trazasExportación
Exporta los resultados de evaluación en formato CSV o JSON para análisis adicional o reportes.
Interpretando los Resultados
✅ Buenos Resultados
- • Win Rate > 60%: Tu modelo entrenado supera consistentemente al baseline
- • Score Promedio > 75: Las respuestas son de alta calidad
- • Tendencia ascendente en métricas entre versiones
⚠️ Resultados a Mejorar
- • Win Rate 40-60%: El modelo está a la par del baseline, considera más entrenamiento
- • Score Promedio 50-75: Hay espacio para mejorar la calidad de datos
- • Alta varianza: Revisa ejemplos específicos que fallan
❌ Problemas a Investigar
- • Win Rate < 40%: El modelo baseline es mejor, revisa tu dataset
- • Score Promedio < 50: Problemas serios de calidad
- • Latencia muy alta: Considera un modelo más pequeño