Guía de Uso

Preparación de Datos

La calidad de tu modelo depende directamente de la calidad de tus datos. En esta sección aprenderás todo lo necesario para preparar, formatear y validar las conversaciones que usarás para el fine-tuning.

¿Por qué es crítica la preparación de datos?

El fine-tuning de un LLM es tan bueno como los datos que le proporcionas. Un modelo entrenado con datos de alta calidad puede superar a modelos mucho más grandes, mientras que datos mal preparados producirán un modelo que alucina, se contradice o simplemente no cumple con las expectativas.

La regla de oro: si tú no estarías satisfecho con una respuesta en tu dataset, tu modelo tampoco debería aprenderla.

Buenos datos = buen modelo

100+ conversaciones recomendadas

500+ para resultados óptimos

Contenido de esta Sección

Conversaciones

Importa, sube o crea manualmente las conversaciones que usarás para entrenar tu modelo.

Formatos de Datos

Aprende los formatos ChatML, Harmony/DPO y Tool Calling con ejemplos completos.

System Prompt

Escribe system prompts efectivos que definan la personalidad y comportamiento del modelo.

Calidad de las Conversaciones

Criterios de evaluación, errores comunes y cómo garantizar datos de alta calidad.

Configuración Avanzada

Tool Calling, Thinking Mode, MCP Server, guardrails y escenarios de generación.

Pipeline de Datos

El proceso de preparación de datos sigue un flujo claro de 5 pasos. Cada paso es importante para garantizar que tu modelo se entrene con datos de la mejor calidad posible.

Obtener Datos

Formatear

Etiquetar

Validar

Entrenar

Obtener Datos

Importa desde Hugging Face, sube archivos o crea conversaciones manualmente.

Formatear

Asegúrate de que tus datos estén en formato ChatML o Harmony según el caso de uso.

Etiquetar

Define el system prompt, roles y contexto para cada conversación.

Validar

Revisa la calidad, elimina duplicados y corrige errores antes de entrenar.

Entrenar

Envía tu dataset validado al pipeline de fine-tuning de AstrApp.

¿Primera vez preparando datos?

Te recomendamos comenzar por la página de Conversaciones para aprender cómo importar o crear tus datos, y luego continuar con Formatos para entender la estructura que necesitan.

Comenzar con Conversaciones

Crear Datasets Conversaciones