Volver a Guía de Fine-tuning
Guía de Modelos
¿Qué Modelo Debo Usar para Fine-tuning?
Llama, Qwen, Mistral, Phi... Guía completa para seleccionar el modelo ideal para tu caso de uso.
Pasos para Elegir
1
Identifica tu caso de uso
Código, chat, visión, análisis de documentos...
2
Revisa licencias y requisitos
Apache 2.0, Llama License, restricciones comerciales
3
Evalúa tus recursos
VRAM disponible, storage, tiempo de entrenamiento
4
Considera tu dataset
<300 filas → Instruct, 1000+ filas → Base
¿Modelo Instruct o Base?
Modelo Instruct
Pre-entrenado con instrucciones incorporadas. Listo para usar sin fine-tuning.
- ✓Menos datos requeridos
- ✓Chat templates: ChatML, ShareGPT
- ✓Mejor para datasets <1000 filas
Modelo Base
Versión original sin instruction tuning. Diseñado para personalización completa.
- ✓Control total sobre el comportamiento
- ✓Templates: Alpaca, Vicuna
- ✓Mejor para datasets 1000+ filas
Recomendación por Tamaño de Dataset
| Filas | Recomendación | Razón |
|---|---|---|
| < 300 | Instruct | Preserva capacidades existentes |
| 300 - 1,000 | Ambos viables | Evalúa calidad del dataset |
| 1,000+ | Base | Máximo control y personalización |
Requisitos de VRAM
| Tamaño del Modelo | QLoRA (4-bit) | LoRA (16-bit) |
|---|---|---|
| 1B-3B | 2-4 GB | 8-12 GB |
| 7B-8B | 4-6 GB | 16-24 GB |
| 13B | 8-10 GB | 32-40 GB |
| 30B-34B | 16-20 GB | 64-80 GB |
| 70B | 35-48 GB | 140+ GB |
💡 Tip: AstrApp optimiza automáticamente la configuración para tu modelo elegido.
Catálogo de Modelos
Propósito General
| Modelo | Tamaños | Mejor Para | Licencia |
|---|---|---|---|
| Llama 3.3 | 70B | Mejor modelo 70B | Llama License |
| Llama 3.1 | 8B, 70B, 405B | General, alta calidad | Llama License |
| Qwen 2.5 | 0.5B-72B | Multilingüe, versátil | Apache 2.0 |
| Mistral | 7B | Eficiente, rápido | Apache 2.0 |
| Phi-4 | 14B | Compacto, eficiente | MIT |
Especializados en Código
| Modelo | Tamaños | Mejor Para | Licencia |
|---|---|---|---|
| Qwen Coder 2.5 | 1.5B-32B | Mejor para código | Apache 2.0 |
| DeepSeek Coder V2 | 16B, 236B | Alta calidad | DeepSeek |
| CodeLlama | 7B, 13B, 34B | Python, C++ | Llama |
Visión (VLMs)
| Modelo | Tamaños | Mejor Para | Licencia |
|---|---|---|---|
| Llama 3.2 Vision | 11B, 90B | Imágenes + texto | Llama License |
| Qwen2-VL | 2B, 7B, 72B | Visión multimodal | Apache 2.0 |
Razonamiento
| Modelo | Tamaños | Mejor Para | Licencia |
|---|---|---|---|
| DeepSeek-R1 | 1.5B-70B | Chain-of-thought | DeepSeek |
| Qwen2.5-Math | 1.5B-72B | Matemáticas | Apache 2.0 |
Recomendaciones por Caso de Uso
Chatbot general
Llama 3.1 8B
InstructAsistente de código
Qwen Coder 2.5 7B
InstructAnálisis de imágenes
Llama 3.2 Vision 11B
VisionRazonamiento
DeepSeek-R1 8B
Reasoning