AstrApp
Docs
Volver a Documentación
Guía de Uso

Crear y Gestionar Datasets

Aprende a crear datasets de entrenamiento para tu modelo de IA. Puedes subir archivos, importar desde CRMs o crear datos manualmente.

¿Qué es un Dataset?

Un dataset es una colección de ejemplos que usarás para entrenar tu modelo. Cada ejemplo típicamente contiene una pregunta/instrucción del usuario y la respuesta esperada del asistente.

Mínimo 100 ejemplos recomendados
500+ ejemplos para mejores resultados

Métodos para Crear Datasets

1

Subir Archivo

Sube archivos JSON, JSONL, CSV o TXT directamente

Pasos:

  1. Ve a Datasets en el menú lateral
  2. Haz clic en "Crear Dataset"
  3. Selecciona "Subir Archivo"
  4. Arrastra o selecciona tu archivo
  5. Elige el formato de salida (JSONL recomendado)
  6. El sistema validará y procesará el archivo
2

Importar desde Kommo CRM

Extrae conversaciones de Kommo y conviértelas a ChatML

Pasos:

  1. Ve a Datasets y haz clic en "Importar Kommo"
  2. Asigna un nombre al dataset
  3. Opcionalmente selecciona un System Prompt
  4. Define un límite de leads (opcional)
  5. Inicia la importación
  6. El sistema extraerá los mensajes y los convertirá a ChatML
3

Importar desde Supabase

Conecta a otra base de datos Supabase y extrae datos

Pasos:

  1. Ve a Datasets y haz clic en "Importar Supabase"
  2. Ingresa la connection string (URL|service_role_key)
  3. Prueba la conexión para cargar las tablas
  4. Selecciona la tabla con las conversaciones
  5. Asigna un nombre y system prompt
  6. Importa los datos a formato ChatML
4

Importar desde Hugging Face

Busca e importa datasets públicos de la comunidad HuggingFace Hub

Pasos:

  1. Ve a Datasets y selecciona la pestaña "Importar de HuggingFace"
  2. Busca un dataset por nombre (ej: "alpaca", "dolly") o tema (ej: "spanish qa")
  3. Filtra por formato compatible: ChatML, Alpaca, ShareGPT, Conversational
  4. Revisa la preview del dataset (primeros 10 ejemplos)
  5. Selecciona las columnas a mapear (input, output, system)
  6. Haz clic en "Importar" - el sistema descargará y convertirá automáticamente
  7. El dataset aparecerá en tu lista listo para entrenar
5

Crear Manualmente

Ingresa datos directamente en formato JSON

Pasos:

  1. Ve a Datasets y haz clic en "Crear Dataset"
  2. Selecciona "Entrada Manual"
  3. Ingresa un nombre y descripción
  4. Escribe el contenido en formato JSON o CSV
  5. Guarda el dataset

Formatos Soportados

FormatoExtensiónMejor ParaLímite
JSONL
.jsonlRecomendado500MB
JSON
.jsonArrays de objetos100MB
CSV
.csvDatos tabulares500MB
Parquet
.parquetDatasets grandes1GB

Formato ChatML (Recomendado)

ChatML es el formato más utilizado para entrenar modelos de chat. Cada ejemplo contiene un array de mensajes con roles (system, user, assistant).

ChatML (JSONL)
{"messages": [{"role": "system", "content": "Eres un asistente de ventas amable."}, {"role": "user", "content": "¿Cuál es el precio?"}, {"role": "assistant", "content": "Desde $9.99/mes con 14 días gratis."}]}
{"messages": [{"role": "system", "content": "Eres un asistente de ventas amable."}, {"role": "user", "content": "¿Tienen soporte?"}, {"role": "assistant", "content": "Sí, soporte 24/7 por chat y email."}]}
{"messages": [{"role": "system", "content": "Eres un asistente de ventas amable."}, {"role": "user", "content": "¿Puedo cancelar cuando quiera?"}, {"role": "assistant", "content": "Sí, puedes cancelar sin cargos adicionales."}]}

Tip: Si importas desde Kommo o Supabase, el sistema convierte automáticamente las conversaciones a formato ChatML.


Gestionar Datasets

Una vez creado un dataset, puedes realizar las siguientes acciones desde la lista de datasets:

Vista Previa

Revisa los ejemplos antes de entrenar

Editar Conversaciones

Modifica los ejemplos individuales en el editor completo

Exportar

Descarga en JSON, JSONL o CSV

Duplicar

Crea una copia para experimentar

Limpiar Datos

Usa las herramientas integradas para mejorar la calidad

Dividir Dataset

Separa en conjuntos de entrenamiento y prueba

Calificar

Asigna una puntuación de calidad para hacer seguimiento


Editor de Conversaciones

El editor de conversaciones te da control total sobre cada ejemplo de entrenamiento de tu dataset. Para acceder, haz clic en Editar en cualquier dataset de tu lista. Esto abre la ruta /datasets/[id]/edit.

Tip: Para entender en profundidad cómo funcionan las conversaciones en formato ChatML, consulta la guía de Conversaciones.

Capacidades del Editor

Agregar Conversaciones

Añade nuevas conversaciones al dataset directamente desde el editor, sin necesidad de subir un archivo nuevo.

Editar Conversaciones

Haz clic en cualquier mensaje para editarlo directamente en línea. Los cambios se guardan de forma instantánea.

Eliminar Conversaciones

Elimina conversaciones individuales que no aporten valor o que tengan errores de formato o contenido.

Estadísticas del Dataset

Ve de un vistazo el total de conversaciones, cuántas son válidas y cuántas presentan problemas de formato.

Editar Mensajes Individuales

Dentro de cada conversación puedes ver todos los mensajes con sus roles. El editor muestra los turnos en orden y te permite:

  • Hacer clic en cualquier mensaje para editar su contenido directamente
  • Agregar nuevos turnos de usuario o de asistente al final de la conversación
  • Identificar el rol de cada mensaje: system, user o assistant

Herramientas de Limpieza de Datos

Un dataset limpio produce modelos más precisos. AstrApp incluye herramientas integradas para detectar y corregir problemas comunes antes de iniciar el entrenamiento.

Validar Formato

Verifica la estructura ChatML de cada conversación y marca las que tienen errores.

Detectar Problemas

Resalta conversaciones problemáticas: mensajes vacíos, roles incorrectos o estructura inválida.

Eliminar Duplicados

Encuentra y elimina conversaciones idénticas o casi idénticas del dataset.

Corregir Encoding

Detecta y repara caracteres mal codificados para garantizar compatibilidad UTF-8.

Normalizar Texto

Recorta espacios en blanco sobrantes y normaliza el formato de los mensajes.

Análisis con IA

La IA analiza tu dataset completo y te recomienda mejoras concretas para aumentar la calidad del entrenamiento.

Recomendación: Ejecuta siempre la validación de formato antes de iniciar un entrenamiento. Las conversaciones marcadas como inválidas se excluyen automáticamente del proceso de fine-tuning.


Dividir Dataset (Train/Test Split)

Separar tu dataset en un conjunto de entrenamiento y otro de prueba es una buena práctica para evaluar el rendimiento real de tu modelo con datos que nunca ha visto.

Opciones de División

  • Proporción configurable: Define el porcentaje de división, por ejemplo 80/20 o 90/10
  • Aleatorio o secuencial: Elige si la selección de ejemplos es aleatoria o respeta el orden original
  • Dos nuevos datasets: El proceso crea dos datasets independientes a partir del original, sin modificarlo

Proporciones Habituales

80 / 20Estándar
90 / 10Dataset pequeño
70 / 30Evaluación exhaustiva

Tip: Si tu dataset tiene menos de 200 conversaciones, usa la proporción 90/10 para conservar la mayor cantidad posible de ejemplos en el entrenamiento.


Exportar y Descargar

Descarga tu dataset en cualquier momento para usarlo fuera de AstrApp, hacer una copia de seguridad o integrarlo con otras herramientas de machine learning.

Exportar como JSON

Formato legible y compatible con la mayoría de las bibliotecas de ML.

Exportar como JSONL

Un objeto JSON por línea. Ideal para datasets grandes y pipelines de entrenamiento.

Exportar como CSV

Formato tabular para análisis en hojas de cálculo o herramientas de datos.

Opciones de Selección al Exportar

  • Todas las conversaciones: Exporta el dataset completo tal como está
  • Solo válidas: Exporta únicamente las conversaciones que pasaron la validación de formato
  • Seleccionadas: Elige manualmente las conversaciones que quieres incluir en la exportación

Calificar y Organizar Datasets

A medida que acumulas más datasets, organizarlos y calificarlos te ayuda a identificar rápidamente los mejores para cada entrenamiento.

Calificar Datasets

Asigna una puntuación de 1 a 5 estrellas a cada dataset para llevar un registro de su calidad y facilitar la selección al momento de entrenar.

Renombrar en Línea

Haz clic directamente sobre el nombre de un dataset en la lista para renombrarlo sin necesidad de abrir una pantalla separada.

Filtrar por Formato y Origen

Filtra tu lista de datasets por formato (JSON, JSONL, CSV, Parquet, ChatML, TXT) o por origen (subido, importado, sintetizado).

Buscar por Nombre

Usa la barra de búsqueda para encontrar rápidamente un dataset por nombre, especialmente útil cuando tienes muchos datasets en tu proyecto.


Validación Automática

AstrApp valida automáticamente tu dataset al subirlo para asegurar la calidad:

Formato correcto de keys
Encoding UTF-8
Balance del dataset
Longitud de ejemplos
Detección de duplicados
Estructura de conversaciones

Importar desde Hugging Face Hub

Hugging Face Hub es el repositorio más grande de datasets para machine learning. AstrApp te permite importar directamente datasets públicos y convertirlos automáticamente al formato ChatML.

Datasets Populares Compatibles

DatasetTamañoIdiomaMejor Para
tatsu-lab/alpaca52KENInstrucciones generales
databricks/dolly-15k15KENQ&A, brainstorming
OpenAssistant/oasst1161KMultiConversaciones asistente
HuggingFaceH4/ultrachat_200k200KENDiálogos multi-turno
bertin-project/alpaca-spanish52KESInstrucciones en español

Formatos Soportados de HuggingFace

  • Alpaca: instruction, input, output
  • ShareGPT: conversations array
  • OpenAI: messages array
  • Q&A: question, answer columns

Límites de Importación

  • Free: 3 importaciones/mes, máx 5K ejemplos
  • Starter: 20 importaciones/mes, máx 50K ejemplos
  • Professional: Ilimitado, máx 500K ejemplos
  • Enterprise: Sin límites

¿Necesitas más datos?

Con el plan Professional puedes usar la Síntesis de Datos para generar ejemplos de entrenamiento de alta calidad usando IA.

Aprender sobre síntesis de datos