Guía de UsoPRO

Sistema de Evaluación

Evalúa automáticamente la calidad de tu modelo entrenado usando LLM-as-a-Judge. Compara contra modelos baseline y obtén métricas detalladas.

Función PRO

El sistema de evaluación está disponible en el plan Professional ($1,999 MXN/mes) o superior. Incluye evaluaciones ilimitadas, métricas personalizadas e integración con Opik.

¿Cómo Funciona?

El sistema de evaluación compara las respuestas de tu modelo entrenado contra un modelo baseline (como GPT-4 o el modelo sin entrenar). Un modelo "juez" (LLM-as-Judge) analiza ambas respuestas y determina cuál es mejor según métricas como precisión, relevancia y coherencia.

Pregunta de testModelo Trained

Pregunta de testModelo Baseline

Ambas respuestasLLM JudgeGanador

Características

LLM-as-a-Judge

Usa modelos grandes como GPT-4 para evaluar automáticamente las respuestas.

Comparación Trained vs Baseline

Compara tu modelo entrenado contra un modelo base para medir mejoras.

Integración Opik

Trazabilidad completa de evaluaciones con métricas y dashboards.

Métricas Personalizadas

Define tus propias métricas de evaluación según tu caso de uso.

Cómo Crear una Evaluación

Accede al Panel de Evaluación

Ve a Evaluación → Panel General en el menú lateral.

Crea una Configuración

Haz clic en "Nueva Configuración" para definir los parámetros de evaluación.

Selecciona los Modelos

Elige tu modelo entrenado y el modelo baseline para comparar.

Define las Preguntas de Test

Agrega preguntas que se usarán para evaluar. Puedes importar desde un dataset.

Configura el Modelo Juez

Selecciona qué modelo LLM evaluará las respuestas (ej: GPT-4).

Ejecuta la Evaluación

Inicia la evaluación y monitorea el progreso en tiempo real.

Analiza los Resultados

Revisa las métricas, gráficos comparativos y exporta los resultados.

Métricas de Evaluación

Métrica	Descripción
Win Rate	Porcentaje de veces que el modelo entrenado gana vs baseline
Score Promedio	Puntuación media de las respuestas (0-100)
Precisión	Qué tan correctas son las respuestas
Relevancia	Qué tan relevantes son las respuestas al contexto
Coherencia	Qué tan bien estructuradas y lógicas son las respuestas
Latencia	Tiempo de respuesta del modelo en milisegundos

Estados de Ejecución

Pendiente

pending

Ejecutando

running

Completado

completed

Fallido

failed

Funciones Adicionales

Experimentos

Crea experimentos para comparar diferentes versiones de tu modelo o diferentes configuraciones de entrenamiento.

Ver documentación de Opik

Automatización

PRO

Configura reglas para ejecutar evaluaciones automáticamente cuando se entrena un nuevo modelo o se actualiza el dataset.

Trazas

Visualiza el historial completo de operaciones del modelo con integración Opik para debugging y análisis.

Ver documentación de trazas

Exportación

Exporta los resultados de evaluación en formato CSV o JSON para análisis adicional o reportes.

Interpretando los Resultados

✅ Buenos Resultados

• Win Rate > 60%: Tu modelo entrenado supera consistentemente al baseline
• Score Promedio > 75: Las respuestas son de alta calidad
• Tendencia ascendente en métricas entre versiones

⚠️ Resultados a Mejorar

• Win Rate 40-60%: El modelo está a la par del baseline, considera más entrenamiento
• Score Promedio 50-75: Hay espacio para mejorar la calidad de datos
• Alta varianza: Revisa ejemplos específicos que fallan

❌ Problemas a Investigar

• Win Rate < 40%: El modelo baseline es mejor, revisa tu dataset
• Score Promedio < 50: Problemas serios de calidad
• Latencia muy alta: Considera un modelo más pequeño

Biblioteca de Prompts Opik Integration