shadcn/studio

Datasets

Los datasets contienen los datos de entrenamiento para tus modelos. Soportamos formato JSONL, CSV y JSON.

Formato JSONL (recomendado)

Una linea JSON por registro. Ideal para conversaciones.

jsonl
{"conversation": "¿Cual es el precio?", "response": "Desde $9.99/mes", "category": "pricing"}
{"conversation": "¿Tienen soporte?", "response": "Si, 24/7", "category": "support"}
{"conversation": "¿Puedo cancelar?", "response": "Si, sin cargos", "category": "billing"}

Subir dataset

bash
PROJ_ID="proj_1a2b3c4d"

curl -X POST https://api.astrapp.lat/api/v1/projects/$PROJ_ID/datasets \
  -H "Authorization: Bearer sk_live_xxxxxxxxxxxxx" \
  -F "file=@training_data.jsonl" \
  -F "name=Datos Q1 2025" \
  -F "description=Conversaciones de ventas"
json
{
  "id": "dataset_abc123",
  "project_id": "proj_1a2b3c4d",
  "name": "Datos Q1 2025",
  "status": "validating",
  "total_records": 0,
  "created_at": "2024-12-23T10:00:00Z"
}

Estados del dataset

validatingValidando formato y contenido
validatedListo para entrenar
failedError en validacion

Verificar estado

bash
curl -X GET https://api.astrapp.lat/api/v1/projects/$PROJ_ID/datasets/$DATASET_ID \
  -H "Authorization: Bearer sk_live_xxxxxxxxxxxxx"
json
{
  "id": "dataset_abc123",
  "status": "validated",
  "total_records": 150,
  "statistics": {
    "avg_conversation_length": 45,
    "categories": ["pricing", "support", "billing"]
  }
}

Recomendaciones

  • • Minimo 100 ejemplos para resultados decentes
  • 500+ ejemplos para resultados buenos
  • • Incluye variaciones de la misma pregunta
  • • Balancea categorias (no 90% pricing, 10% resto)
  • • Revisa datos antes de subir (garbage in, garbage out)

Anterior

Proyectos

Siguiente

Entrenamiento