Guía de Uso

Crear y Gestionar Datasets

Aprende a crear datasets de entrenamiento para tu modelo de IA. Puedes subir archivos, importar desde CRMs o crear datos manualmente.

¿Qué es un Dataset?

Un dataset es una colección de ejemplos que usarás para entrenar tu modelo. Cada ejemplo típicamente contiene una pregunta/instrucción del usuario y la respuesta esperada del asistente.

Mínimo 100 ejemplos recomendados

500+ ejemplos para mejores resultados

Métodos para Crear Datasets

Subir Archivo

Sube archivos JSON, JSONL, CSV o TXT directamente

Pasos:

Ve a Datasets en el menú lateral
Haz clic en "Crear Dataset"
Selecciona "Subir Archivo"
Arrastra o selecciona tu archivo
Elige el formato de salida (JSONL recomendado)
El sistema validará y procesará el archivo

Importar desde Kommo CRM

Extrae conversaciones de Kommo y conviértelas a ChatML

Pasos:

Ve a Datasets y haz clic en "Importar Kommo"
Asigna un nombre al dataset
Opcionalmente selecciona un System Prompt
Define un límite de leads (opcional)
Inicia la importación
El sistema extraerá los mensajes y los convertirá a ChatML

Importar desde Supabase

Conecta a otra base de datos Supabase y extrae datos

Pasos:

Ve a Datasets y haz clic en "Importar Supabase"
Ingresa la connection string (URL|service_role_key)
Prueba la conexión para cargar las tablas
Selecciona la tabla con las conversaciones
Asigna un nombre y system prompt
Importa los datos a formato ChatML

Importar desde Hugging Face

Busca e importa datasets públicos de la comunidad HuggingFace Hub

Pasos:

Ve a Datasets y selecciona la pestaña "Importar de HuggingFace"
Busca un dataset por nombre (ej: "alpaca", "dolly") o tema (ej: "spanish qa")
Filtra por formato compatible: ChatML, Alpaca, ShareGPT, Conversational
Revisa la preview del dataset (primeros 10 ejemplos)
Selecciona las columnas a mapear (input, output, system)
Haz clic en "Importar" - el sistema descargará y convertirá automáticamente
El dataset aparecerá en tu lista listo para entrenar

Crear Manualmente

Ingresa datos directamente en formato JSON

Pasos:

Ve a Datasets y haz clic en "Crear Dataset"
Selecciona "Entrada Manual"
Ingresa un nombre y descripción
Escribe el contenido en formato JSON o CSV
Guarda el dataset

Formatos Soportados

Formato	Extensión	Mejor Para	Límite
JSONL	.jsonl	Recomendado	500MB
JSON	.json	Arrays de objetos	100MB
CSV	.csv	Datos tabulares	500MB
Parquet	.parquet	Datasets grandes	1GB

Formato ChatML (Recomendado)

ChatML es el formato más utilizado para entrenar modelos de chat. Cada ejemplo contiene un array de mensajes con roles (system, user, assistant).

ChatML (JSONL)

{"messages": [{"role": "system", "content": "Eres un asistente de ventas amable."}, {"role": "user", "content": "¿Cuál es el precio?"}, {"role": "assistant", "content": "Desde $9.99/mes con 14 días gratis."}]}
{"messages": [{"role": "system", "content": "Eres un asistente de ventas amable."}, {"role": "user", "content": "¿Tienen soporte?"}, {"role": "assistant", "content": "Sí, soporte 24/7 por chat y email."}]}
{"messages": [{"role": "system", "content": "Eres un asistente de ventas amable."}, {"role": "user", "content": "¿Puedo cancelar cuando quiera?"}, {"role": "assistant", "content": "Sí, puedes cancelar sin cargos adicionales."}]}

Tip: Si importas desde Kommo o Supabase, el sistema convierte automáticamente las conversaciones a formato ChatML.

Gestionar Datasets

Una vez creado un dataset, puedes realizar las siguientes acciones desde la lista de datasets:

Vista Previa

Revisa los ejemplos antes de entrenar

Editar Conversaciones

Modifica los ejemplos individuales en el editor completo

Exportar

Descarga en JSON, JSONL o CSV

Duplicar

Crea una copia para experimentar

Limpiar Datos

Usa las herramientas integradas para mejorar la calidad

Dividir Dataset

Separa en conjuntos de entrenamiento y prueba

Calificar

Asigna una puntuación de calidad para hacer seguimiento

Editor de Conversaciones

El editor de conversaciones te da control total sobre cada ejemplo de entrenamiento de tu dataset. Para acceder, haz clic en Editar en cualquier dataset de tu lista. Esto abre la ruta /datasets/[id]/edit.

Tip: Para entender en profundidad cómo funcionan las conversaciones en formato ChatML, consulta la guía de Conversaciones.

Capacidades del Editor

Agregar Conversaciones

Añade nuevas conversaciones al dataset directamente desde el editor, sin necesidad de subir un archivo nuevo.

Editar Conversaciones

Haz clic en cualquier mensaje para editarlo directamente en línea. Los cambios se guardan de forma instantánea.

Eliminar Conversaciones

Elimina conversaciones individuales que no aporten valor o que tengan errores de formato o contenido.

Estadísticas del Dataset

Ve de un vistazo el total de conversaciones, cuántas son válidas y cuántas presentan problemas de formato.

Editar Mensajes Individuales

Dentro de cada conversación puedes ver todos los mensajes con sus roles. El editor muestra los turnos en orden y te permite:

Hacer clic en cualquier mensaje para editar su contenido directamente
Agregar nuevos turnos de usuario o de asistente al final de la conversación
Identificar el rol de cada mensaje: system, user o assistant

Herramientas de Limpieza de Datos

Un dataset limpio produce modelos más precisos. AstrApp incluye herramientas integradas para detectar y corregir problemas comunes antes de iniciar el entrenamiento.

Validar Formato

Verifica la estructura ChatML de cada conversación y marca las que tienen errores.

Detectar Problemas

Resalta conversaciones problemáticas: mensajes vacíos, roles incorrectos o estructura inválida.

Eliminar Duplicados

Encuentra y elimina conversaciones idénticas o casi idénticas del dataset.

Corregir Encoding

Detecta y repara caracteres mal codificados para garantizar compatibilidad UTF-8.

Normalizar Texto

Recorta espacios en blanco sobrantes y normaliza el formato de los mensajes.

Análisis con IA

La IA analiza tu dataset completo y te recomienda mejoras concretas para aumentar la calidad del entrenamiento.

Recomendación: Ejecuta siempre la validación de formato antes de iniciar un entrenamiento. Las conversaciones marcadas como inválidas se excluyen automáticamente del proceso de fine-tuning.

Dividir Dataset (Train/Test Split)

Separar tu dataset en un conjunto de entrenamiento y otro de prueba es una buena práctica para evaluar el rendimiento real de tu modelo con datos que nunca ha visto.

Opciones de División

Proporción configurable: Define el porcentaje de división, por ejemplo 80/20 o 90/10
Aleatorio o secuencial: Elige si la selección de ejemplos es aleatoria o respeta el orden original
Dos nuevos datasets: El proceso crea dos datasets independientes a partir del original, sin modificarlo

Proporciones Habituales

80 / 20Estándar

90 / 10Dataset pequeño

70 / 30Evaluación exhaustiva

Tip: Si tu dataset tiene menos de 200 conversaciones, usa la proporción 90/10 para conservar la mayor cantidad posible de ejemplos en el entrenamiento.

Exportar y Descargar

Descarga tu dataset en cualquier momento para usarlo fuera de AstrApp, hacer una copia de seguridad o integrarlo con otras herramientas de machine learning.

Exportar como JSON

Formato legible y compatible con la mayoría de las bibliotecas de ML.

Exportar como JSONL

Un objeto JSON por línea. Ideal para datasets grandes y pipelines de entrenamiento.

Exportar como CSV

Formato tabular para análisis en hojas de cálculo o herramientas de datos.

Opciones de Selección al Exportar

Todas las conversaciones: Exporta el dataset completo tal como está
Solo válidas: Exporta únicamente las conversaciones que pasaron la validación de formato
Seleccionadas: Elige manualmente las conversaciones que quieres incluir en la exportación

Calificar y Organizar Datasets

A medida que acumulas más datasets, organizarlos y calificarlos te ayuda a identificar rápidamente los mejores para cada entrenamiento.

Calificar Datasets

Asigna una puntuación de 1 a 5 estrellas a cada dataset para llevar un registro de su calidad y facilitar la selección al momento de entrenar.

Renombrar en Línea

Haz clic directamente sobre el nombre de un dataset en la lista para renombrarlo sin necesidad de abrir una pantalla separada.

Filtrar por Formato y Origen

Filtra tu lista de datasets por formato (JSON, JSONL, CSV, Parquet, ChatML, TXT) o por origen (subido, importado, sintetizado).

Buscar por Nombre

Usa la barra de búsqueda para encontrar rápidamente un dataset por nombre, especialmente útil cuando tienes muchos datasets en tu proyecto.

Validación Automática

AstrApp valida automáticamente tu dataset al subirlo para asegurar la calidad:

Formato correcto de keys

Encoding UTF-8

Balance del dataset

Longitud de ejemplos

Detección de duplicados

Estructura de conversaciones

Importar desde Hugging Face Hub

Hugging Face Hub es el repositorio más grande de datasets para machine learning. AstrApp te permite importar directamente datasets públicos y convertirlos automáticamente al formato ChatML.

Datasets Populares Compatibles

Dataset	Tamaño	Idioma	Mejor Para
tatsu-lab/alpaca	52K	EN	Instrucciones generales
databricks/dolly-15k	15K	EN	Q&A, brainstorming
OpenAssistant/oasst1	161K	Multi	Conversaciones asistente
HuggingFaceH4/ultrachat_200k	200K	EN	Diálogos multi-turno
bertin-project/alpaca-spanish	52K	ES	Instrucciones en español

Formatos Soportados de HuggingFace

Alpaca: instruction, input, output
ShareGPT: conversations array
OpenAI: messages array
Q&A: question, answer columns

Límites de Importación

• Free: 3 importaciones/mes, máx 5K ejemplos
• Starter: 20 importaciones/mes, máx 50K ejemplos
• Professional: Ilimitado, máx 500K ejemplos
• Enterprise: Sin límites

¿Necesitas más datos?

Con el plan Professional puedes usar la Síntesis de Datos para generar ejemplos de entrenamiento de alta calidad usando IA.

Aprender sobre síntesis de datos

Planes y Precios Sintetizar Datos