Hugging Face Hub
Importa datasets públicos de la comunidad más grande de Machine Learning directamente a AstrApp para entrenar tu modelo.
¿Qué es Hugging Face Hub?
Hugging Face Hub es el repositorio más grande de datasets y modelos de ML del mundo. Con AstrApp puedes buscar e importar datasets públicos con un solo clic, sin necesidad de descargar archivos manualmente.
Cómo Importar Datasets
Accede a Datasets
Ve a Datasets en el menú lateral y selecciona "Importar de HuggingFace".
Busca un Dataset
Usa la barra de búsqueda para encontrar datasets por nombre o tema.
Revisa la Preview
Explora los primeros 10 ejemplos para verificar que el formato es correcto.
Mapea Columnas
Asigna las columnas del dataset a input, output y system prompt.
Importa
Haz clic en Importar. El sistema descarga y convierte a ChatML automáticamente.
Datasets Populares
Estos son algunos de los datasets más usados para fine-tuning de modelos de chat:
tatsu-lab/alpacaInstrucciones generales Stanford
databricks/dolly-15kQ&A y brainstorming
OpenAssistant/oasst1Conversaciones de asistente
HuggingFaceH4/ultrachat_200kDiálogos multi-turno
bertin-project/alpaca-spanishAlpaca traducido a español
somosnlp/es-cienciaPreguntas científicas
| Dataset | Tamaño | Idioma | Descripción |
|---|---|---|---|
| tatsu-lab/alpaca | 52K | EN | Instrucciones generales Stanford |
| databricks/dolly-15k | 15K | EN | Q&A y brainstorming |
| OpenAssistant/oasst1 | 161K | Multi | Conversaciones de asistente |
| HuggingFaceH4/ultrachat_200k | 200K | EN | Diálogos multi-turno |
| bertin-project/alpaca-spanish | 52K | ES | Alpaca traducido a español |
| somosnlp/es-ciencia | 10K | ES | Preguntas científicas |
Formatos Soportados
Alpaca
instruction, input, outputFormato de instrucciones
ShareGPT
conversations[]Conversaciones multi-turno
OpenAI
messages[]Formato ChatML
Q&A
question, answerPreguntas y respuestas
Límites por Plan
Free
Importaciones: 3/mes
Tamaño máx: 5K ejemplos
Starter
Importaciones: 20/mes
Tamaño máx: 50K ejemplos
Professional
Importaciones: Ilimitado
Tamaño máx: 500K ejemplos
Enterprise
Importaciones: Ilimitado
Tamaño máx: Sin límite
Tips para Importar
- Busca datasets en español con términos como "spanish", "es", "español"
- Revisa la preview antes de importar para verificar la calidad
- Combina datasets de HuggingFace con tus propios datos para mejores resultados