Preparación de Datos
La calidad de tu modelo depende directamente de la calidad de tus datos. En esta sección aprenderás todo lo necesario para preparar, formatear y validar las conversaciones que usarás para el fine-tuning.
¿Por qué es crítica la preparación de datos?
El fine-tuning de un LLM es tan bueno como los datos que le proporcionas. Un modelo entrenado con datos de alta calidad puede superar a modelos mucho más grandes, mientras que datos mal preparados producirán un modelo que alucina, se contradice o simplemente no cumple con las expectativas.
La regla de oro: si tú no estarías satisfecho con una respuesta en tu dataset, tu modelo tampoco debería aprenderla.
Contenido de esta Sección
Conversaciones
Importa, sube o crea manualmente las conversaciones que usarás para entrenar tu modelo.
Formatos de Datos
Aprende los formatos ChatML, Harmony/DPO y Tool Calling con ejemplos completos.
System Prompt
Escribe system prompts efectivos que definan la personalidad y comportamiento del modelo.
Calidad de las Conversaciones
Criterios de evaluación, errores comunes y cómo garantizar datos de alta calidad.
Configuración Avanzada
Tool Calling, Thinking Mode, MCP Server, guardrails y escenarios de generación.
Pipeline de Datos
El proceso de preparación de datos sigue un flujo claro de 5 pasos. Cada paso es importante para garantizar que tu modelo se entrene con datos de la mejor calidad posible.
Obtener Datos
Importa desde Hugging Face, sube archivos o crea conversaciones manualmente.
Formatear
Asegúrate de que tus datos estén en formato ChatML o Harmony según el caso de uso.
Etiquetar
Define el system prompt, roles y contexto para cada conversación.
Validar
Revisa la calidad, elimina duplicados y corrige errores antes de entrenar.
Entrenar
Envía tu dataset validado al pipeline de fine-tuning de AstrApp.
¿Primera vez preparando datos?
Te recomendamos comenzar por la página de Conversaciones para aprender cómo importar o crear tus datos, y luego continuar con Formatos para entender la estructura que necesitan.
Comenzar con Conversaciones