Guía de Uso

Calidad de las Conversaciones

La calidad de tu dataset es más importante que la cantidad. Aprende a evaluar, mejorar y garantizar que tus conversaciones de entrenamiento producirán un modelo de alto rendimiento.

Principio Fundamental

Tu modelo será tan bueno como tu peor conversación de entrenamiento. Cada ejemplo en tu dataset le enseña al modelo un patrón de comportamiento. Si incluyes conversaciones con respuestas mediocres, el modelo aprenderá a dar respuestas mediocres. Es mejor tener 200 conversaciones excelentes que 1,000 mediocres.

Los 5 Criterios de Evaluación

AstrApp evalúa cada conversación según estos 5 criterios. Úsalos como guía para revisar y mejorar la calidad de tus datos antes del entrenamiento.

Naturalidad

Peso: 20%

La conversación fluye de forma natural, como lo haría entre un humano y un asistente real.

Bueno

Diálogos fluidos con preguntas de seguimiento naturales

Malo

Respuestas robóticas, frases forzadas o poco naturales

Calidad del Bot

Peso: 25%

Las respuestas del asistente son útiles, completas y bien estructuradas.

Bueno

Respuestas detalladas que resuelven la consulta del usuario

Malo

Respuestas vagas, incompletas o que no responden la pregunta

Tool Calling

Peso: 20%

El modelo llama a las herramientas correctas con los parámetros adecuados cuando es necesario.

Bueno

Herramienta correcta, parámetros exactos, interpretación clara del resultado

Malo

Herramienta incorrecta, parámetros mal formateados, respuesta sin usar el resultado

Información Correcta

Peso: 20%

Los datos mencionados (precios, horarios, políticas) son precisos y actualizados.

Bueno

Precios, disponibilidad y políticas verificados y actuales

Malo

Información inventada, desactualizada o contradictoria

Valor de Entrenamiento

Peso: 15%

La conversación aporta algo útil que el modelo debe aprender.

Bueno

Escenario realista, respuesta ejemplar, cubre un caso de uso importante

Malo

Conversación trivial, repetitiva o que no aporta aprendizaje nuevo

Checklist de Calidad

Antes de enviar tu dataset a entrenamiento, verifica que cumple con todos los puntos de esta lista.

Estructura

Cada conversación tiene system prompt
Al menos un mensaje de usuario y uno de asistente
Formato JSON/JSONL válido
Encoding UTF-8 correcto

Contenido

Respuestas completas y útiles
Sin información inventada o incorrecta
Lenguaje natural y fluido
Tono consistente con el system prompt

Diversidad

Variedad de temas y escenarios
Diferentes niveles de complejidad
Mezcla de preguntas cortas y largas
Casos normales y casos especiales

Limpieza

Sin duplicados o casi-duplicados
Sin conversaciones vacías o truncadas
Sin caracteres especiales corruptos
Sin PII (información personal identificable)

Errores Comunes y Cómo Corregirlos

Respuestas demasiado cortas

Ejemplo

"Sí", "No", "Ok", "Claro"

Impacto

El modelo aprenderá a dar respuestas monosilábicas

Solución

Expande cada respuesta para que sea informativa y útil

Respuestas demasiado largas

Ejemplo

Párrafos de 500+ palabras para preguntas simples

Impacto

El modelo será verboso y perderá la atención del usuario

Solución

Ajusta la longitud a la complejidad de la pregunta

Información inventada (alucinaciones)

Ejemplo

Precios que no existen, funciones no reales

Impacto

El modelo aprenderá a inventar datos con confianza

Solución

Verifica cada dato factual antes de incluirlo

Conversaciones off-topic

Ejemplo

El asistente de ventas dando recetas de cocina

Impacto

El modelo no aprenderá a mantenerse en su rol

Solución

Asegúrate de que todas las conversaciones sean relevantes al dominio

Copy/paste de otras fuentes sin adaptar

Ejemplo

FAQ copiadas textualmente sin formato conversacional

Impacto

El modelo no aprenderá el formato de diálogo

Solución

Convierte la información a formato de conversación natural

Datos desbalanceados

Ejemplo

80% del dataset sobre un solo tema, 20% sobre todo lo demás

Impacto

El modelo será experto en un tema y malo en los demás

Solución

Distribuye las conversaciones de forma equilibrada entre temas

Tamaño Recomendado del Dataset

La cantidad de conversaciones necesarias depende de la complejidad de tu caso de uso. Aquí tienes una guía general:

< 100Insuficiente

Agrega más datos o usa síntesis para complementar

100-300Básico

Funcional para pruebas, pero limitado para producción

300-500Bueno

Suficiente para la mayoría de casos simples

500-1,000Muy bueno

Recomendado para producción

1,000-5,000Excelente

Ideal para dominios complejos

5,000+Premium

Máxima calidad y cobertura

Conversaciones	Calidad Esperada	Recomendación
< 100	Insuficiente	Agrega más datos o usa síntesis para complementar
100-300	Básico	Funcional para pruebas, pero limitado para producción
300-500	Bueno	Suficiente para la mayoría de casos simples
500-1,000	Muy bueno	Recomendado para producción
1,000-5,000	Excelente	Ideal para dominios complejos
5,000+	Premium	Máxima calidad y cobertura

Consejos para Mejorar la Calidad

Revisa una muestra manualmente

Lee al menos el 10% de tus conversaciones. Si encuentras errores en la muestra, probablemente hay más en el resto.

Pide a otros que revisen

Una segunda opinión ayuda a detectar problemas que tú podrías pasar por alto, especialmente en tono y naturalidad.

Compara con conversaciones reales

Si tienes conversaciones reales de soporte/ventas, compáralas con tu dataset. Las conversaciones de entrenamiento deben ser al menos tan buenas.

Itera y mejora

Después de entrenar, evalúa el modelo y usa los resultados para identificar qué conversaciones necesitan mejorar o qué escenarios faltan.

Elimina duplicados

Conversaciones duplicadas o muy similares no aportan valor y pueden causar overfitting. AstrApp detecta duplicados automáticamente.

Incluye casos difíciles

No solo incluyas preguntas fáciles. Agrega conversaciones con clientes difíciles, preguntas ambiguas y escenarios complejos.

Ejemplo de Evaluación

Aquí tienes un ejemplo de cómo se evalúa una conversación según los 5 criterios:

Conversación de ejemplo

{
  "messages": [
    {
      "role": "system",
      "content": "Eres Luna, asistente virtual de TechStore."
    },
    {
      "role": "user",
      "content": "¿Tienen laptops para programar?"
    },
    {
      "role": "assistant",
      "content": "¡Hola! Claro que sí. Para programación, te recomiendo laptops con al menos 16GB de RAM y un procesador potente. Tenemos estas opciones:\n\n1. **MacBook Pro M3** - 16GB RAM, SSD 512GB - $29,999\n2. **ThinkPad X1 Carbon** - 16GB RAM, i7, SSD 512GB - $24,999\n3. **ASUS ZenBook 14** - 16GB RAM, Ryzen 7, SSD 512GB - $19,999\n\n¿Qué tipo de programación haces? Así puedo recomendarte mejor."
    }
  ]
}

Naturalidad

9/10

Calidad Bot

10/10

Tool Calling

N/A

Info Correcta

8/10

Valor

9/10

Evaluación: Conversación de alta calidad. El saludo es natural, la respuesta incluye opciones concretas con precios, y termina con una pregunta de seguimiento para personalizar la recomendación. Nota: los precios deben verificarse contra el inventario real.

Requisitos Mínimos para Buen Entrenamiento

Al menos 100 conversaciones (500+ recomendado)

System prompt consistente en todas las conversaciones

Respuestas detalladas y útiles del asistente

Variedad de temas, preguntas y escenarios

Información factual verificada y actualizada

Sin duplicados ni conversaciones vacías

Formato JSON/JSONL válido con encoding UTF-8

Tono consistente con la marca del negocio

Evaluación automatizada con AstrApp

Con el plan Professional, puedes usar el sistema de evaluación automatizado de AstrApp para calificar tus conversaciones usando LLM-as-a-Judge. Esto te permite evaluar miles de conversaciones en minutos en lugar de horas.

Aprender sobre evaluación automatizada

System Prompt Configuración Avanzada