AstrApp
Docs
Preparación de Datos
Guía de Uso

Conversaciones

Las conversaciones son la base de tu dataset de entrenamiento. Aprende a importar, subir o crear manualmente las conversaciones que definirán el comportamiento de tu modelo.

Requisitos Mínimos

Cantidad de conversaciones

Mínimo100 conversaciones para resultados básicos
Recomendado500+ conversaciones para calidad óptima
Ideal1,000-10,000 para dominios complejos

Estructura requerida

  • Cada conversación debe tener al menos un mensaje de usuario y uno de asistente
  • System prompt consistente (preferiblemente el mismo en todas)
  • Formato ChatML o compatible (JSONL recomendado)

Métodos para Obtener Conversaciones

AstrApp ofrece tres formas de agregar conversaciones a tu dataset. Elige la que mejor se adapte a tu situación.

1

Conectar con Hugging Face

Importa datasets de conversaciones directamente desde Hugging Face Hub.

Pasos:

  1. 1Ve a la sección de Datasets en el menú lateral
  2. 2Haz clic en "Importar de HuggingFace"
  3. 3Busca un dataset por nombre (ej: "oasst1", "ultrachat") o por tema (ej: "spanish customer service")
  4. 4Filtra por formato compatible: ChatML, ShareGPT, Conversational
  5. 5Revisa la preview del dataset (primeros 10 ejemplos)
  6. 6Selecciona las columnas a mapear (messages, conversations, etc.)
  7. 7Define el system prompt que se aplicará a todas las conversaciones
  8. 8Haz clic en "Importar" — AstrApp descargará y convertirá automáticamente al formato requerido
2

Cargar desde tu Equipo

Sube archivos JSONL, JSON o CSV con conversaciones desde tu computadora.

Pasos:

  1. 1Ve a Datasets y haz clic en "Crear Dataset"
  2. 2Selecciona "Subir Archivo"
  3. 3Arrastra tu archivo o haz clic para seleccionarlo desde tu equipo
  4. 4Elige el formato del archivo: JSONL (recomendado), JSON o CSV
  5. 5AstrApp detectará automáticamente la estructura del archivo
  6. 6Revisa la preview para confirmar que se interpretó correctamente
  7. 7Asigna un nombre y descripción al dataset
  8. 8Haz clic en "Crear" para procesar e importar las conversaciones
3

Crear Manualmente con Copy/Paste

Pega directamente conversaciones en formato JSONL dentro de la plataforma.

Pasos:

  1. 1Ve a Datasets y haz clic en "Crear Dataset"
  2. 2Selecciona "Entrada Manual"
  3. 3Asigna un nombre y descripción al dataset
  4. 4En el editor, pega tu contenido en formato JSONL (una conversación por línea)
  5. 5Cada línea debe ser un objeto JSON válido con la key "messages"
  6. 6AstrApp validará el formato en tiempo real y mostrará errores si los hay
  7. 7Puedes agregar más conversaciones en cualquier momento editando el dataset
  8. 8Haz clic en "Guardar" para finalizar

Datasets Populares en Hugging Face

Hugging Face Hub tiene miles de datasets de conversaciones listos para importar. Aquí tienes algunos de los más populares y útiles para fine-tuning:

OpenAssistant/oasst1

Conversaciones asistente de alta calidad

161K ejemplosMulti
HuggingFaceH4/ultrachat_200k

Diálogos multi-turno diversos

200K ejemplosEN
bertin-project/alpaca-spanish

Instrucciones traducidas al español

52K ejemplosES
teknium/OpenHermes-2.5

Conversaciones de alta calidad variadas

1M ejemplosEN
argilla/distilabel-capybara-dpo-7k-binarized

Datos para DPO/preferencia

7K ejemplosEN

Tip: Busca datasets con la etiqueta "conversational" o "chat" en Hugging Face para encontrar datos compatibles con el formato ChatML. También puedes filtrar por idioma para encontrar datasets en español.


Formatos de Archivo Soportados

JSONL

.jsonl

Una conversación por línea, fácil de procesar

Recomendado para conversaciones

JSON

.json

Un array de objetos con la estructura completa

Arrays de conversaciones

CSV

.csv

Columnas para user, assistant y opcionalmente system

Datos tabulares simples

Ejemplo de Archivo JSONL

El formato JSONL es el más recomendado. Cada línea es una conversación completa en formato JSON. Aquí tienes un ejemplo de cómo debe verse tu archivo:

conversaciones.jsonl
{"messages": [{"role": "system", "content": "Eres un asistente de atención al cliente amable y profesional."}, {"role": "user", "content": "Hola, quiero saber el estado de mi pedido"}, {"role": "assistant", "content": "¡Hola! Con gusto te ayudo. ¿Me podrías proporcionar tu número de pedido para verificar el estado?"}]}
{"messages": [{"role": "system", "content": "Eres un asistente de atención al cliente amable y profesional."}, {"role": "user", "content": "Mi pedido #12345 no ha llegado"}, {"role": "assistant", "content": "Lamento la demora. Déjame verificar el estado de tu pedido #12345. Según nuestro sistema, tu paquete fue enviado el lunes y está en camino. El tiempo estimado de entrega es de 3-5 días hábiles."}]}
{"messages": [{"role": "system", "content": "Eres un asistente de atención al cliente amable y profesional."}, {"role": "user", "content": "Quiero hacer una devolución"}, {"role": "assistant", "content": "Por supuesto, puedo ayudarte con el proceso de devolución. Nuestra política permite devoluciones dentro de los 30 días posteriores a la compra. ¿Podrías indicarme el número de pedido y el motivo de la devolución?"}]}

Ejemplo de Entrada Manual

Si eliges crear conversaciones manualmente, simplemente pega el contenido JSONL en el editor. Puedes incluir conversaciones multi-turno de esta forma:

Conversación multi-turno (JSONL)
{"messages": [{"role": "system", "content": "Eres un asistente de ventas de una tienda de tecnología."}, {"role": "user", "content": "Busco una laptop para diseño gráfico"}, {"role": "assistant", "content": "¡Excelente! Para diseño gráfico necesitarás una laptop con buen procesador y pantalla. ¿Tienes un presupuesto aproximado en mente?"}, {"role": "user", "content": "Entre 15,000 y 20,000 pesos"}, {"role": "assistant", "content": "En ese rango te recomiendo la MacBook Air M2 o la ASUS ProArt. Ambas tienen pantallas calibradas para diseño y procesadores potentes. La MacBook Air M2 tiene una pantalla Liquid Retina de 13.6 pulgadas y el chip M2 que maneja aplicaciones como Photoshop y Illustrator sin problema. ¿Te gustaría que compare ambas opciones en detalle?"}]}

Tip: Las conversaciones multi-turno (con varios intercambios usuario-asistente) son más valiosas para el entrenamiento que las de un solo turno, ya que enseñan al modelo a mantener contexto y coherencia a lo largo de la conversación.


Subir desde CSV

Si tienes tus datos en un spreadsheet, puedes exportarlos como CSV. El archivo debe tener columnas para el mensaje del usuario y la respuesta del asistente:

conversaciones.csv
system,user,assistant
"Eres un asistente de soporte técnico.","Mi internet no funciona","Lamento escuchar eso. Vamos a solucionarlo paso a paso. Primero, ¿podrías reiniciar tu router desconectándolo por 30 segundos y volviéndolo a conectar?"
"Eres un asistente de soporte técnico.","La página no carga","Entiendo. Probemos lo siguiente: abre una ventana de incógnito en tu navegador e intenta acceder nuevamente. Si el problema persiste, intenta limpiar la caché del navegador."
"Eres un asistente de soporte técnico.","No puedo iniciar sesión","¿Podrías indicarme si ves algún mensaje de error específico? También verifica que el bloqueo de mayúsculas no esté activado, ya que las contraseñas son sensibles a mayúsculas y minúsculas."

Nota: AstrApp convertirá automáticamente el CSV a formato ChatML durante la importación. Las columnas serán mapeadas a los roles correspondientes (system, user, assistant). Para conversaciones multi-turno, el formato JSONL es más adecuado.


Errores Comunes al Preparar Conversaciones

Error:System prompt inconsistente
Usa el mismo system prompt en todas las conversaciones. AstrApp lo asignará automáticamente si lo defines al importar.
Error:Conversaciones demasiado cortas
Las respuestas de una sola palabra o frase no aportan suficiente información. Asegúrate de que el asistente responda con detalle.
Error:Mezclar idiomas sin intención
Si tu modelo debe responder en español, asegúrate de que todas las conversaciones estén en español.
Error:Información incorrecta o desactualizada
Verifica que los datos (precios, políticas, horarios) sean correctos. El modelo aprenderá exactamente lo que le des.
Error:Formato JSON inválido
Valida tu JSONL antes de subirlo. Cada línea debe ser un JSON válido. Usa herramientas como jsonlint.com para verificar.
Error:Pocas conversaciones (<100)
Con menos de 100 ejemplos, el modelo no tendrá suficiente variedad para generalizar. Apunta a 500+ conversaciones.

¿Necesitas generar más conversaciones?

Si no tienes suficientes conversaciones reales, puedes usar la Síntesis de Datos de AstrApp para generar conversaciones de alta calidad a partir de documentos o ejemplos semilla.

Aprender sobre síntesis de datos