Datasets
Los datasets contienen los datos de entrenamiento para tus modelos. Soportamos formato JSONL, CSV y JSON.
Formato JSONL (recomendado)
Una linea JSON por registro. Ideal para conversaciones.
jsonl
{"conversation": "¿Cual es el precio?", "response": "Desde $9.99/mes", "category": "pricing"}
{"conversation": "¿Tienen soporte?", "response": "Si, 24/7", "category": "support"}
{"conversation": "¿Puedo cancelar?", "response": "Si, sin cargos", "category": "billing"}Subir dataset
bash
PROJ_ID="proj_1a2b3c4d"
curl -X POST https://api.astrapp.lat/api/v1/projects/$PROJ_ID/datasets \
-H "Authorization: Bearer sk_live_xxxxxxxxxxxxx" \
-F "file=@training_data.jsonl" \
-F "name=Datos Q1 2025" \
-F "description=Conversaciones de ventas"json
{
"id": "dataset_abc123",
"project_id": "proj_1a2b3c4d",
"name": "Datos Q1 2025",
"status": "validating",
"total_records": 0,
"created_at": "2024-12-23T10:00:00Z"
}Estados del dataset
validatingValidando formato y contenidovalidatedListo para entrenarfailedError en validacionVerificar estado
bash
curl -X GET https://api.astrapp.lat/api/v1/projects/$PROJ_ID/datasets/$DATASET_ID \
-H "Authorization: Bearer sk_live_xxxxxxxxxxxxx"json
{
"id": "dataset_abc123",
"status": "validated",
"total_records": 150,
"statistics": {
"avg_conversation_length": 45,
"categories": ["pricing", "support", "billing"]
}
}Recomendaciones
- • Minimo 100 ejemplos para resultados decentes
- • 500+ ejemplos para resultados buenos
- • Incluye variaciones de la misma pregunta
- • Balancea categorias (no 90% pricing, 10% resto)
- • Revisa datos antes de subir (garbage in, garbage out)
Anterior
ProyectosSiguiente
Entrenamiento