AstrApp
Docs
Volver a Documentación
Guía de Uso

Preparación de Datos

La calidad de tu modelo depende directamente de la calidad de tus datos. En esta sección aprenderás todo lo necesario para preparar, formatear y validar las conversaciones que usarás para el fine-tuning.

¿Por qué es crítica la preparación de datos?

El fine-tuning de un LLM es tan bueno como los datos que le proporcionas. Un modelo entrenado con datos de alta calidad puede superar a modelos mucho más grandes, mientras que datos mal preparados producirán un modelo que alucina, se contradice o simplemente no cumple con las expectativas.

La regla de oro: si tú no estarías satisfecho con una respuesta en tu dataset, tu modelo tampoco debería aprenderla.

Buenos datos = buen modelo
100+ conversaciones recomendadas
500+ para resultados óptimos


Pipeline de Datos

El proceso de preparación de datos sigue un flujo claro de 5 pasos. Cada paso es importante para garantizar que tu modelo se entrene con datos de la mejor calidad posible.

Obtener Datos
Formatear
Etiquetar
Validar
Entrenar
1

Obtener Datos

Importa desde Hugging Face, sube archivos o crea conversaciones manualmente.

2

Formatear

Asegúrate de que tus datos estén en formato ChatML o Harmony según el caso de uso.

3

Etiquetar

Define el system prompt, roles y contexto para cada conversación.

4

Validar

Revisa la calidad, elimina duplicados y corrige errores antes de entrenar.

5

Entrenar

Envía tu dataset validado al pipeline de fine-tuning de AstrApp.


¿Primera vez preparando datos?

Te recomendamos comenzar por la página de Conversaciones para aprender cómo importar o crear tus datos, y luego continuar con Formatos para entender la estructura que necesitan.

Comenzar con Conversaciones