Crear y Gestionar Datasets
Aprende a crear datasets de entrenamiento para tu modelo de IA. Puedes subir archivos, importar desde CRMs o crear datos manualmente.
¿Qué es un Dataset?
Un dataset es una colección de ejemplos que usarás para entrenar tu modelo. Cada ejemplo típicamente contiene una pregunta/instrucción del usuario y la respuesta esperada del asistente.
Métodos para Crear Datasets
Subir Archivo
Sube archivos JSON, JSONL, CSV o TXT directamente
Pasos:
- Ve a Datasets en el menú lateral
- Haz clic en "Crear Dataset"
- Selecciona "Subir Archivo"
- Arrastra o selecciona tu archivo
- Elige el formato de salida (JSONL recomendado)
- El sistema validará y procesará el archivo
Importar desde Kommo CRM
Extrae conversaciones de Kommo y conviértelas a ChatML
Pasos:
- Ve a Datasets y haz clic en "Importar Kommo"
- Asigna un nombre al dataset
- Opcionalmente selecciona un System Prompt
- Define un límite de leads (opcional)
- Inicia la importación
- El sistema extraerá los mensajes y los convertirá a ChatML
Importar desde Supabase
Conecta a otra base de datos Supabase y extrae datos
Pasos:
- Ve a Datasets y haz clic en "Importar Supabase"
- Ingresa la connection string (URL|service_role_key)
- Prueba la conexión para cargar las tablas
- Selecciona la tabla con las conversaciones
- Asigna un nombre y system prompt
- Importa los datos a formato ChatML
Importar desde Hugging Face
Busca e importa datasets públicos de la comunidad HuggingFace Hub
Pasos:
- Ve a Datasets y selecciona la pestaña "Importar de HuggingFace"
- Busca un dataset por nombre (ej: "alpaca", "dolly") o tema (ej: "spanish qa")
- Filtra por formato compatible: ChatML, Alpaca, ShareGPT, Conversational
- Revisa la preview del dataset (primeros 10 ejemplos)
- Selecciona las columnas a mapear (input, output, system)
- Haz clic en "Importar" - el sistema descargará y convertirá automáticamente
- El dataset aparecerá en tu lista listo para entrenar
Crear Manualmente
Ingresa datos directamente en formato JSON
Pasos:
- Ve a Datasets y haz clic en "Crear Dataset"
- Selecciona "Entrada Manual"
- Ingresa un nombre y descripción
- Escribe el contenido en formato JSON o CSV
- Guarda el dataset
Formatos Soportados
| Formato | Extensión | Mejor Para | Límite |
|---|---|---|---|
JSONL | .jsonl | Recomendado | 500MB |
JSON | .json | Arrays de objetos | 100MB |
CSV | .csv | Datos tabulares | 500MB |
Parquet | .parquet | Datasets grandes | 1GB |
Formato ChatML (Recomendado)
ChatML es el formato más utilizado para entrenar modelos de chat. Cada ejemplo contiene un array de mensajes con roles (system, user, assistant).
{"messages": [{"role": "system", "content": "Eres un asistente de ventas amable."}, {"role": "user", "content": "¿Cuál es el precio?"}, {"role": "assistant", "content": "Desde $9.99/mes con 14 días gratis."}]}
{"messages": [{"role": "system", "content": "Eres un asistente de ventas amable."}, {"role": "user", "content": "¿Tienen soporte?"}, {"role": "assistant", "content": "Sí, soporte 24/7 por chat y email."}]}
{"messages": [{"role": "system", "content": "Eres un asistente de ventas amable."}, {"role": "user", "content": "¿Puedo cancelar cuando quiera?"}, {"role": "assistant", "content": "Sí, puedes cancelar sin cargos adicionales."}]}Tip: Si importas desde Kommo o Supabase, el sistema convierte automáticamente las conversaciones a formato ChatML.
Gestionar Datasets
Una vez creado un dataset, puedes realizar las siguientes acciones desde la lista de datasets:
Vista Previa
Revisa los ejemplos antes de entrenar
Editar Conversaciones
Modifica los ejemplos individuales en el editor completo
Exportar
Descarga en JSON, JSONL o CSV
Duplicar
Crea una copia para experimentar
Limpiar Datos
Usa las herramientas integradas para mejorar la calidad
Dividir Dataset
Separa en conjuntos de entrenamiento y prueba
Calificar
Asigna una puntuación de calidad para hacer seguimiento
Editor de Conversaciones
El editor de conversaciones te da control total sobre cada ejemplo de entrenamiento de tu dataset. Para acceder, haz clic en Editar en cualquier dataset de tu lista. Esto abre la ruta /datasets/[id]/edit.
Tip: Para entender en profundidad cómo funcionan las conversaciones en formato ChatML, consulta la guía de Conversaciones.
Capacidades del Editor
Agregar Conversaciones
Añade nuevas conversaciones al dataset directamente desde el editor, sin necesidad de subir un archivo nuevo.
Editar Conversaciones
Haz clic en cualquier mensaje para editarlo directamente en línea. Los cambios se guardan de forma instantánea.
Eliminar Conversaciones
Elimina conversaciones individuales que no aporten valor o que tengan errores de formato o contenido.
Estadísticas del Dataset
Ve de un vistazo el total de conversaciones, cuántas son válidas y cuántas presentan problemas de formato.
Editar Mensajes Individuales
Dentro de cada conversación puedes ver todos los mensajes con sus roles. El editor muestra los turnos en orden y te permite:
- Hacer clic en cualquier mensaje para editar su contenido directamente
- Agregar nuevos turnos de usuario o de asistente al final de la conversación
- Identificar el rol de cada mensaje:
system,useroassistant
Herramientas de Limpieza de Datos
Un dataset limpio produce modelos más precisos. AstrApp incluye herramientas integradas para detectar y corregir problemas comunes antes de iniciar el entrenamiento.
Validar Formato
Verifica la estructura ChatML de cada conversación y marca las que tienen errores.
Detectar Problemas
Resalta conversaciones problemáticas: mensajes vacíos, roles incorrectos o estructura inválida.
Eliminar Duplicados
Encuentra y elimina conversaciones idénticas o casi idénticas del dataset.
Corregir Encoding
Detecta y repara caracteres mal codificados para garantizar compatibilidad UTF-8.
Normalizar Texto
Recorta espacios en blanco sobrantes y normaliza el formato de los mensajes.
Análisis con IA
La IA analiza tu dataset completo y te recomienda mejoras concretas para aumentar la calidad del entrenamiento.
Recomendación: Ejecuta siempre la validación de formato antes de iniciar un entrenamiento. Las conversaciones marcadas como inválidas se excluyen automáticamente del proceso de fine-tuning.
Dividir Dataset (Train/Test Split)
Separar tu dataset en un conjunto de entrenamiento y otro de prueba es una buena práctica para evaluar el rendimiento real de tu modelo con datos que nunca ha visto.
Opciones de División
- Proporción configurable: Define el porcentaje de división, por ejemplo 80/20 o 90/10
- Aleatorio o secuencial: Elige si la selección de ejemplos es aleatoria o respeta el orden original
- Dos nuevos datasets: El proceso crea dos datasets independientes a partir del original, sin modificarlo
Proporciones Habituales
Tip: Si tu dataset tiene menos de 200 conversaciones, usa la proporción 90/10 para conservar la mayor cantidad posible de ejemplos en el entrenamiento.
Exportar y Descargar
Descarga tu dataset en cualquier momento para usarlo fuera de AstrApp, hacer una copia de seguridad o integrarlo con otras herramientas de machine learning.
Exportar como JSON
Formato legible y compatible con la mayoría de las bibliotecas de ML.
Exportar como JSONL
Un objeto JSON por línea. Ideal para datasets grandes y pipelines de entrenamiento.
Exportar como CSV
Formato tabular para análisis en hojas de cálculo o herramientas de datos.
Opciones de Selección al Exportar
- Todas las conversaciones: Exporta el dataset completo tal como está
- Solo válidas: Exporta únicamente las conversaciones que pasaron la validación de formato
- Seleccionadas: Elige manualmente las conversaciones que quieres incluir en la exportación
Calificar y Organizar Datasets
A medida que acumulas más datasets, organizarlos y calificarlos te ayuda a identificar rápidamente los mejores para cada entrenamiento.
Calificar Datasets
Asigna una puntuación de 1 a 5 estrellas a cada dataset para llevar un registro de su calidad y facilitar la selección al momento de entrenar.
Renombrar en Línea
Haz clic directamente sobre el nombre de un dataset en la lista para renombrarlo sin necesidad de abrir una pantalla separada.
Filtrar por Formato y Origen
Filtra tu lista de datasets por formato (JSON, JSONL, CSV, Parquet, ChatML, TXT) o por origen (subido, importado, sintetizado).
Buscar por Nombre
Usa la barra de búsqueda para encontrar rápidamente un dataset por nombre, especialmente útil cuando tienes muchos datasets en tu proyecto.
Validación Automática
AstrApp valida automáticamente tu dataset al subirlo para asegurar la calidad:
Importar desde Hugging Face Hub
Hugging Face Hub es el repositorio más grande de datasets para machine learning. AstrApp te permite importar directamente datasets públicos y convertirlos automáticamente al formato ChatML.
Datasets Populares Compatibles
| Dataset | Tamaño | Idioma | Mejor Para |
|---|---|---|---|
| tatsu-lab/alpaca | 52K | EN | Instrucciones generales |
| databricks/dolly-15k | 15K | EN | Q&A, brainstorming |
| OpenAssistant/oasst1 | 161K | Multi | Conversaciones asistente |
| HuggingFaceH4/ultrachat_200k | 200K | EN | Diálogos multi-turno |
| bertin-project/alpaca-spanish | 52K | ES | Instrucciones en español |
Formatos Soportados de HuggingFace
- Alpaca: instruction, input, output
- ShareGPT: conversations array
- OpenAI: messages array
- Q&A: question, answer columns
Límites de Importación
- • Free: 3 importaciones/mes, máx 5K ejemplos
- • Starter: 20 importaciones/mes, máx 50K ejemplos
- • Professional: Ilimitado, máx 500K ejemplos
- • Enterprise: Sin límites
¿Necesitas más datos?
Con el plan Professional puedes usar la Síntesis de Datos para generar ejemplos de entrenamiento de alta calidad usando IA.
Aprender sobre síntesis de datos