AstrApp
Docs
Volver a Documentación
Guía de UsoPRO

Sintetizar Datos con IA

Genera datos de entrenamiento de alta calidad usando modelos de lenguaje. Perfecta para ampliar tu dataset o crear datos desde cero.

Función PRO

La síntesis de datos está disponible en el plan Professional ($1,999 MXN/mes) o superior. Requiere una conexión a un proveedor LLM (OpenAI, Anthropic, etc.) configurada en Integraciones.

Tipos de Síntesis

Desde Documento

Sube un PDF, DOCX o TXT y genera pares de preguntas-respuestas basados en el contenido.

Caso de uso: Ideal para manuales, FAQs, documentación de productos.

Ejemplos Semilla

Proporciona algunos ejemplos base y genera variaciones manteniendo el estilo.

Caso de uso: Perfecto cuando tienes pocos ejemplos de alta calidad.

Aumentación de Dataset

Amplía un dataset existente con paráfrasis y nuevas variaciones.

Caso de uso: Cuando necesitas más datos sin cambiar el dominio.


Cómo Sintetizar Datos

1

Accede a Sintetizar Datos

Ve a Datasets → Sintetizar (botón con badge PRO) o directamente desde el menú lateral.

2

Selecciona el Tipo de Fuente

Elige entre Documento, Ejemplos Semilla o Aumentación de un dataset existente.

3

Configura el Modelo

Selecciona el proveedor (OpenAI, Anthropic, etc.) y modelo. Define el system prompt y temperatura.

4

Elige el Formato de Salida

Selecciona ChatML, Alpaca, ShareGPT o define tu propio formato.

5

Configura Opciones Avanzadas

Activa auto-etiquetado, filtro de calidad y/o deduplicación según necesites.

6

Inicia la Síntesis

Revisa el costo estimado y haz clic en "Iniciar Síntesis". Puedes pausar y reanudar.

7

Revisa y Exporta

Revisa los ejemplos generados, edita si es necesario, y exporta el dataset final.


Configuración del Modelo

Puedes usar diferentes proveedores y modelos según tus necesidades:

OpenAI

  • gpt-4o
  • gpt-4o-mini
  • gpt-4-turbo

Anthropic

  • claude-3-5-sonnet
  • claude-3-haiku

Together AI

  • Llama-3.1-70B
  • Mixtral-8x7B

Groq

  • llama-3.1-70b
  • mixtral-8x7b

Nota: Debes tener configurada una conexión al proveedor enIntegracionesantes de poder usar la síntesis.


Formatos de Salida

ChatML

Formato estándar para modelos de chat (OpenAI, etc.)

Alpaca

Formato de instrucciones Stanford Alpaca

ShareGPT

Formato de conversaciones multi-turno

Personalizado

Define tu propio template

Ejemplo de salida ChatML
<|im_start|>system
Eres un asistente de ventas profesional.<|im_end|>
<|im_start|>user
¿Cuánto cuesta el plan premium?<|im_end|>
<|im_start|>assistant
El plan premium tiene un costo de $99/mes...<|im_end|>

Opciones Avanzadas

Auto-etiquetado

Clasifica automáticamente cada ejemplo por intent, tema, etc.

Filtro de Calidad

Descarta automáticamente ejemplos de baja calidad.

Deduplicación

Elimina ejemplos duplicados o muy similares.


Estimación de Costos

El costo de síntesis depende del modelo y la cantidad de ejemplos:

ModeloCosto aprox. / ejemplo100 ejemplos500 ejemplos
gpt-4o-mini / claude-3-haiku~$0.005~$0.50~$2.50
gpt-4o / claude-3-5-sonnet~$0.02~$2.00~$10.00
Llama-3.1-70B (Together/Groq)~$0.01~$1.00~$5.00

Tip: Los modelos más pequeños (gpt-4o-mini, claude-3-haiku) son excelentes para síntesis de datos y cuestan significativamente menos que los modelos grandes.

Post-Procesamiento

Después de generar los datos, puedes:

Editar ejemplos

Modifica input, output o etiquetas de cada ejemplo

Seleccionar/Deseleccionar

Elige qué ejemplos incluir en el dataset final

Exportar

Descarga como JSON para usar en entrenamiento

Regenerar

Vuelve a generar ejemplos que no te convenzan