Volver a Documentación
Guía Técnica
¿Qué Modelo Debo Usar para Fine-tuning?
Llama, Qwen, Mistral, Phi... Guía completa para seleccionar el modelo ideal para tu caso de uso.
Pasos para Elegir
1
Identifica tu caso de uso
Código, chat, visión, análisis de documentos...
2
Revisa licencias y requisitos
Apache 2.0, Llama License, restricciones comerciales
3
Evalúa tus recursos
VRAM disponible, storage, tiempo de entrenamiento
4
Considera tu dataset
<300 filas → Instruct, 1000+ filas → Base
¿Modelo Instruct o Base?
Modelo Instruct
Pre-entrenado con instrucciones incorporadas. Listo para usar sin fine-tuning.
- -Menos datos requeridos
- -Chat templates: ChatML, ShareGPT
- -Mejor para datasets <1000 filas
Modelo Base
Versión original sin instruction tuning. Diseñado para personalización completa.
- -Control total sobre el comportamiento
- -Templates: Alpaca, Vicuna
- -Mejor para datasets 1000+ filas
Recomendación por Tamaño de Dataset
< 300 filasInstruct
Preserva capacidades existentes
300 - 1,000 filasAmbos viables
Evalúa calidad del dataset
1,000+ filasBase
Máximo control y personalización
Recomendación por Tamaño de Dataset
| Filas | Recomendación | Razón |
|---|---|---|
| < 300 | Instruct | Preserva capacidades existentes |
| 300 - 1,000 | Ambos viables | Evalúa calidad del dataset |
| 1,000+ | Base | Máximo control y personalización |
Requisitos de VRAM
1B-3B
QLoRA (4-bit)
2-4 GB
LoRA (16-bit)
8-12 GB
7B-8B
QLoRA (4-bit)
4-6 GB
LoRA (16-bit)
16-24 GB
13B
QLoRA (4-bit)
8-10 GB
LoRA (16-bit)
32-40 GB
30B-34B
QLoRA (4-bit)
16-20 GB
LoRA (16-bit)
64-80 GB
70B
QLoRA (4-bit)
35-48 GB
LoRA (16-bit)
140+ GB
| Tamaño del Modelo | QLoRA (4-bit) | LoRA (16-bit) |
|---|---|---|
| 1B-3B | 2-4 GB | 8-12 GB |
| 7B-8B | 4-6 GB | 16-24 GB |
| 13B | 8-10 GB | 32-40 GB |
| 30B-34B | 16-20 GB | 64-80 GB |
| 70B | 35-48 GB | 140+ GB |
Tip: AstrApp optimiza automáticamente la configuración para tu modelo elegido.
Catálogo de Modelos
Propósito General
Llama 3.3
Tamaños: 70B
Licencia: Llama License
Mejor modelo 70B
Llama 3.1
Tamaños: 8B, 70B, 405B
Licencia: Llama License
General, alta calidad
Qwen 2.5
Tamaños: 0.5B-72B
Licencia: Apache 2.0
Multilingüe, versátil
Mistral
Tamaños: 7B
Licencia: Apache 2.0
Eficiente, rápido
Phi-4
Tamaños: 14B
Licencia: MIT
Compacto, eficiente
| Modelo | Tamaños | Mejor Para | Licencia |
|---|---|---|---|
| Llama 3.3 | 70B | Mejor modelo 70B | Llama License |
| Llama 3.1 | 8B, 70B, 405B | General, alta calidad | Llama License |
| Qwen 2.5 | 0.5B-72B | Multilingüe, versátil | Apache 2.0 |
| Mistral | 7B | Eficiente, rápido | Apache 2.0 |
| Phi-4 | 14B | Compacto, eficiente | MIT |
Especializados en Código
Qwen Coder 2.5
Tamaños: 1.5B-32B
Licencia: Apache 2.0
Mejor para código
DeepSeek Coder V2
Tamaños: 16B, 236B
Licencia: DeepSeek
Alta calidad
CodeLlama
Tamaños: 7B, 13B, 34B
Licencia: Llama
Python, C++
| Modelo | Tamaños | Mejor Para | Licencia |
|---|---|---|---|
| Qwen Coder 2.5 | 1.5B-32B | Mejor para código | Apache 2.0 |
| DeepSeek Coder V2 | 16B, 236B | Alta calidad | DeepSeek |
| CodeLlama | 7B, 13B, 34B | Python, C++ | Llama |
Visión (VLMs)
Llama 3.2 Vision
Tamaños: 11B, 90B
Licencia: Llama License
Imágenes + texto
Qwen2-VL
Tamaños: 2B, 7B, 72B
Licencia: Apache 2.0
Visión multimodal
| Modelo | Tamaños | Mejor Para | Licencia |
|---|---|---|---|
| Llama 3.2 Vision | 11B, 90B | Imágenes + texto | Llama License |
| Qwen2-VL | 2B, 7B, 72B | Visión multimodal | Apache 2.0 |
Razonamiento
DeepSeek-R1
Tamaños: 1.5B-70B
Licencia: DeepSeek
Chain-of-thought
Qwen2.5-Math
Tamaños: 1.5B-72B
Licencia: Apache 2.0
Matemáticas
| Modelo | Tamaños | Mejor Para | Licencia |
|---|---|---|---|
| DeepSeek-R1 | 1.5B-70B | Chain-of-thought | DeepSeek |
| Qwen2.5-Math | 1.5B-72B | Matemáticas | Apache 2.0 |
Recomendaciones por Caso de Uso
Chatbot general
Llama 3.1 8B
InstructAsistente de código
Qwen Coder 2.5 7B
InstructAnálisis de imágenes
Llama 3.2 Vision 11B
VisionRazonamiento
DeepSeek-R1 8B
Reasoning