Sintetizar Datos con IA
Genera datos de entrenamiento de alta calidad usando modelos de lenguaje. Perfecta para ampliar tu dataset o crear datos desde cero.
Función PRO
La síntesis de datos está disponible en el plan Professional ($1,999 MXN/mes) o superior. Requiere una conexión a un proveedor LLM (OpenAI, Anthropic, etc.) configurada en Integraciones.
Tipos de Síntesis
Desde Documento
Sube un PDF, DOCX o TXT y genera pares de preguntas-respuestas basados en el contenido.
Caso de uso: Ideal para manuales, FAQs, documentación de productos.
Ejemplos Semilla
Proporciona algunos ejemplos base y genera variaciones manteniendo el estilo.
Caso de uso: Perfecto cuando tienes pocos ejemplos de alta calidad.
Aumentación de Dataset
Amplía un dataset existente con paráfrasis y nuevas variaciones.
Caso de uso: Cuando necesitas más datos sin cambiar el dominio.
Cómo Sintetizar Datos
Accede a Sintetizar Datos
Ve a Datasets → Sintetizar (botón con badge PRO) o directamente desde el menú lateral.
Selecciona el Tipo de Fuente
Elige entre Documento, Ejemplos Semilla o Aumentación de un dataset existente.
Configura el Modelo
Selecciona el proveedor (OpenAI, Anthropic, etc.) y modelo. Define el system prompt y temperatura.
Elige el Formato de Salida
Selecciona ChatML, Alpaca, ShareGPT o define tu propio formato.
Configura Opciones Avanzadas
Activa auto-etiquetado, filtro de calidad y/o deduplicación según necesites.
Inicia la Síntesis
Revisa el costo estimado y haz clic en "Iniciar Síntesis". Puedes pausar y reanudar.
Revisa y Exporta
Revisa los ejemplos generados, edita si es necesario, y exporta el dataset final.
Configuración del Modelo
Puedes usar diferentes proveedores y modelos según tus necesidades:
OpenAI
- gpt-4o
- gpt-4o-mini
- gpt-4-turbo
Anthropic
- claude-3-5-sonnet
- claude-3-haiku
Together AI
- Llama-3.1-70B
- Mixtral-8x7B
Groq
- llama-3.1-70b
- mixtral-8x7b
Nota: Debes tener configurada una conexión al proveedor enIntegracionesantes de poder usar la síntesis.
Formatos de Salida
ChatML
Formato estándar para modelos de chat (OpenAI, etc.)
Alpaca
Formato de instrucciones Stanford Alpaca
ShareGPT
Formato de conversaciones multi-turno
Personalizado
Define tu propio template
<|im_start|>system
Eres un asistente de ventas profesional.<|im_end|>
<|im_start|>user
¿Cuánto cuesta el plan premium?<|im_end|>
<|im_start|>assistant
El plan premium tiene un costo de $99/mes...<|im_end|>Opciones Avanzadas
Auto-etiquetado
Clasifica automáticamente cada ejemplo por intent, tema, etc.
Filtro de Calidad
Descarta automáticamente ejemplos de baja calidad.
Deduplicación
Elimina ejemplos duplicados o muy similares.
Estimación de Costos
El costo de síntesis depende del modelo y la cantidad de ejemplos:
| Modelo | Costo aprox. / ejemplo | 100 ejemplos | 500 ejemplos |
|---|---|---|---|
| gpt-4o-mini / claude-3-haiku | ~$0.005 | ~$0.50 | ~$2.50 |
| gpt-4o / claude-3-5-sonnet | ~$0.02 | ~$2.00 | ~$10.00 |
| Llama-3.1-70B (Together/Groq) | ~$0.01 | ~$1.00 | ~$5.00 |
Tip: Los modelos más pequeños (gpt-4o-mini, claude-3-haiku) son excelentes para síntesis de datos y cuestan significativamente menos que los modelos grandes.
Post-Procesamiento
Después de generar los datos, puedes:
Editar ejemplos
Modifica input, output o etiquetas de cada ejemplo
Seleccionar/Deseleccionar
Elige qué ejemplos incluir en el dataset final
Exportar
Descarga como JSON para usar en entrenamiento
Regenerar
Vuelve a generar ejemplos que no te convenzan