AstrApp
Docs
Volver a Documentación
Integración

Hugging Face Hub

Importa datasets públicos de la comunidad más grande de Machine Learning directamente a AstrApp para entrenar tu modelo.

¿Qué es Hugging Face Hub?

Hugging Face Hub es el repositorio más grande de datasets y modelos de ML del mundo. Con AstrApp puedes buscar e importar datasets públicos con un solo clic, sin necesidad de descargar archivos manualmente.

Cómo Importar Datasets

1

Accede a Datasets

Ve a Datasets en el menú lateral y selecciona "Importar de HuggingFace".

2

Busca un Dataset

Usa la barra de búsqueda para encontrar datasets por nombre o tema.

3

Revisa la Preview

Explora los primeros 10 ejemplos para verificar que el formato es correcto.

4

Mapea Columnas

Asigna las columnas del dataset a input, output y system prompt.

5

Importa

Haz clic en Importar. El sistema descarga y convierte a ChatML automáticamente.


Datasets Populares

Estos son algunos de los datasets más usados para fine-tuning de modelos de chat:

tatsu-lab/alpaca
52KEN

Instrucciones generales Stanford

databricks/dolly-15k
15KEN

Q&A y brainstorming

OpenAssistant/oasst1
161KMulti

Conversaciones de asistente

HuggingFaceH4/ultrachat_200k
200KEN

Diálogos multi-turno

bertin-project/alpaca-spanish
52KES

Alpaca traducido a español

somosnlp/es-ciencia
10KES

Preguntas científicas


Formatos Soportados

Alpaca

instruction, input, output

Formato de instrucciones

ShareGPT

conversations[]

Conversaciones multi-turno

OpenAI

messages[]

Formato ChatML

Q&A

question, answer

Preguntas y respuestas


Límites por Plan

Free

Importaciones: 3/mes

Tamaño máx: 5K ejemplos

Starter

Importaciones: 20/mes

Tamaño máx: 50K ejemplos

Professional

Importaciones: Ilimitado

Tamaño máx: 500K ejemplos

Enterprise

Importaciones: Ilimitado

Tamaño máx: Sin límite

Tips para Importar

  • Busca datasets en español con términos como "spanish", "es", "español"
  • Revisa la preview antes de importar para verificar la calidad
  • Combina datasets de HuggingFace con tus propios datos para mejores resultados