Calidad de las Conversaciones
La calidad de tu dataset es más importante que la cantidad. Aprende a evaluar, mejorar y garantizar que tus conversaciones de entrenamiento producirán un modelo de alto rendimiento.
Principio Fundamental
Tu modelo será tan bueno como tu peor conversación de entrenamiento. Cada ejemplo en tu dataset le enseña al modelo un patrón de comportamiento. Si incluyes conversaciones con respuestas mediocres, el modelo aprenderá a dar respuestas mediocres. Es mejor tener 200 conversaciones excelentes que 1,000 mediocres.
Los 5 Criterios de Evaluación
AstrApp evalúa cada conversación según estos 5 criterios. Úsalos como guía para revisar y mejorar la calidad de tus datos antes del entrenamiento.
Naturalidad
Peso: 20%La conversación fluye de forma natural, como lo haría entre un humano y un asistente real.
Diálogos fluidos con preguntas de seguimiento naturales
Respuestas robóticas, frases forzadas o poco naturales
Calidad del Bot
Peso: 25%Las respuestas del asistente son útiles, completas y bien estructuradas.
Respuestas detalladas que resuelven la consulta del usuario
Respuestas vagas, incompletas o que no responden la pregunta
Tool Calling
Peso: 20%El modelo llama a las herramientas correctas con los parámetros adecuados cuando es necesario.
Herramienta correcta, parámetros exactos, interpretación clara del resultado
Herramienta incorrecta, parámetros mal formateados, respuesta sin usar el resultado
Información Correcta
Peso: 20%Los datos mencionados (precios, horarios, políticas) son precisos y actualizados.
Precios, disponibilidad y políticas verificados y actuales
Información inventada, desactualizada o contradictoria
Valor de Entrenamiento
Peso: 15%La conversación aporta algo útil que el modelo debe aprender.
Escenario realista, respuesta ejemplar, cubre un caso de uso importante
Conversación trivial, repetitiva o que no aporta aprendizaje nuevo
Checklist de Calidad
Antes de enviar tu dataset a entrenamiento, verifica que cumple con todos los puntos de esta lista.
Estructura
- Cada conversación tiene system prompt
- Al menos un mensaje de usuario y uno de asistente
- Formato JSON/JSONL válido
- Encoding UTF-8 correcto
Contenido
- Respuestas completas y útiles
- Sin información inventada o incorrecta
- Lenguaje natural y fluido
- Tono consistente con el system prompt
Diversidad
- Variedad de temas y escenarios
- Diferentes niveles de complejidad
- Mezcla de preguntas cortas y largas
- Casos normales y casos especiales
Limpieza
- Sin duplicados o casi-duplicados
- Sin conversaciones vacías o truncadas
- Sin caracteres especiales corruptos
- Sin PII (información personal identificable)
Errores Comunes y Cómo Corregirlos
Respuestas demasiado cortas
"Sí", "No", "Ok", "Claro"
El modelo aprenderá a dar respuestas monosilábicas
Expande cada respuesta para que sea informativa y útil
Respuestas demasiado largas
Párrafos de 500+ palabras para preguntas simples
El modelo será verboso y perderá la atención del usuario
Ajusta la longitud a la complejidad de la pregunta
Información inventada (alucinaciones)
Precios que no existen, funciones no reales
El modelo aprenderá a inventar datos con confianza
Verifica cada dato factual antes de incluirlo
Conversaciones off-topic
El asistente de ventas dando recetas de cocina
El modelo no aprenderá a mantenerse en su rol
Asegúrate de que todas las conversaciones sean relevantes al dominio
Copy/paste de otras fuentes sin adaptar
FAQ copiadas textualmente sin formato conversacional
El modelo no aprenderá el formato de diálogo
Convierte la información a formato de conversación natural
Datos desbalanceados
80% del dataset sobre un solo tema, 20% sobre todo lo demás
El modelo será experto en un tema y malo en los demás
Distribuye las conversaciones de forma equilibrada entre temas
Tamaño Recomendado del Dataset
La cantidad de conversaciones necesarias depende de la complejidad de tu caso de uso. Aquí tienes una guía general:
Agrega más datos o usa síntesis para complementar
Funcional para pruebas, pero limitado para producción
Suficiente para la mayoría de casos simples
Recomendado para producción
Ideal para dominios complejos
Máxima calidad y cobertura
| Conversaciones | Calidad Esperada | Recomendación |
|---|---|---|
| < 100 | Insuficiente | Agrega más datos o usa síntesis para complementar |
| 100-300 | Básico | Funcional para pruebas, pero limitado para producción |
| 300-500 | Bueno | Suficiente para la mayoría de casos simples |
| 500-1,000 | Muy bueno | Recomendado para producción |
| 1,000-5,000 | Excelente | Ideal para dominios complejos |
| 5,000+ | Premium | Máxima calidad y cobertura |
Consejos para Mejorar la Calidad
Revisa una muestra manualmente
Lee al menos el 10% de tus conversaciones. Si encuentras errores en la muestra, probablemente hay más en el resto.
Pide a otros que revisen
Una segunda opinión ayuda a detectar problemas que tú podrías pasar por alto, especialmente en tono y naturalidad.
Compara con conversaciones reales
Si tienes conversaciones reales de soporte/ventas, compáralas con tu dataset. Las conversaciones de entrenamiento deben ser al menos tan buenas.
Itera y mejora
Después de entrenar, evalúa el modelo y usa los resultados para identificar qué conversaciones necesitan mejorar o qué escenarios faltan.
Elimina duplicados
Conversaciones duplicadas o muy similares no aportan valor y pueden causar overfitting. AstrApp detecta duplicados automáticamente.
Incluye casos difíciles
No solo incluyas preguntas fáciles. Agrega conversaciones con clientes difíciles, preguntas ambiguas y escenarios complejos.
Ejemplo de Evaluación
Aquí tienes un ejemplo de cómo se evalúa una conversación según los 5 criterios:
{
"messages": [
{
"role": "system",
"content": "Eres Luna, asistente virtual de TechStore."
},
{
"role": "user",
"content": "¿Tienen laptops para programar?"
},
{
"role": "assistant",
"content": "¡Hola! Claro que sí. Para programación, te recomiendo laptops con al menos 16GB de RAM y un procesador potente. Tenemos estas opciones:\n\n1. **MacBook Pro M3** - 16GB RAM, SSD 512GB - $29,999\n2. **ThinkPad X1 Carbon** - 16GB RAM, i7, SSD 512GB - $24,999\n3. **ASUS ZenBook 14** - 16GB RAM, Ryzen 7, SSD 512GB - $19,999\n\n¿Qué tipo de programación haces? Así puedo recomendarte mejor."
}
]
}Evaluación: Conversación de alta calidad. El saludo es natural, la respuesta incluye opciones concretas con precios, y termina con una pregunta de seguimiento para personalizar la recomendación. Nota: los precios deben verificarse contra el inventario real.
Requisitos Mínimos para Buen Entrenamiento
Evaluación automatizada con AstrApp
Con el plan Professional, puedes usar el sistema de evaluación automatizado de AstrApp para calificar tus conversaciones usando LLM-as-a-Judge. Esto te permite evaluar miles de conversaciones en minutos en lugar de horas.
Aprender sobre evaluación automatizada