Guía Técnica

¿Qué Modelo Debo Usar para Fine-tuning?

Llama, Qwen, Mistral, Phi... Guía completa para seleccionar el modelo ideal para tu caso de uso.

Pasos para Elegir

Identifica tu caso de uso

Código, chat, visión, análisis de documentos...

Revisa licencias y requisitos

Apache 2.0, Llama License, restricciones comerciales

Evalúa tus recursos

VRAM disponible, storage, tiempo de entrenamiento

Considera tu dataset

<300 filas → Instruct, 1000+ filas → Base

¿Modelo Instruct o Base?

Modelo Instruct

Pre-entrenado con instrucciones incorporadas. Listo para usar sin fine-tuning.

-Menos datos requeridos
-Chat templates: ChatML, ShareGPT
-Mejor para datasets <1000 filas

Modelo Base

Versión original sin instruction tuning. Diseñado para personalización completa.

-Control total sobre el comportamiento
-Templates: Alpaca, Vicuna
-Mejor para datasets 1000+ filas

Recomendación por Tamaño de Dataset

< 300 filasInstruct

Preserva capacidades existentes

300 - 1,000 filasAmbos viables

Evalúa calidad del dataset

1,000+ filasBase

Máximo control y personalización

Recomendación por Tamaño de Dataset

Filas	Recomendación	Razón
< 300	Instruct	Preserva capacidades existentes
300 - 1,000	Ambos viables	Evalúa calidad del dataset
1,000+	Base	Máximo control y personalización

Requisitos de VRAM

1B-3B

QLoRA (4-bit)

2-4 GB

LoRA (16-bit)

8-12 GB

7B-8B

QLoRA (4-bit)

4-6 GB

LoRA (16-bit)

16-24 GB

13B

QLoRA (4-bit)

8-10 GB

LoRA (16-bit)

32-40 GB

30B-34B

QLoRA (4-bit)

16-20 GB

LoRA (16-bit)

64-80 GB

70B

QLoRA (4-bit)

35-48 GB

LoRA (16-bit)

140+ GB

Tamaño del Modelo	QLoRA (4-bit)	LoRA (16-bit)
1B-3B	2-4 GB	8-12 GB
7B-8B	4-6 GB	16-24 GB
13B	8-10 GB	32-40 GB
30B-34B	16-20 GB	64-80 GB
70B	35-48 GB	140+ GB

Tip: AstrApp optimiza automáticamente la configuración para tu modelo elegido.

Catálogo de Modelos

Propósito General

Llama 3.3

Tamaños: 70B

Licencia: Llama License

Mejor modelo 70B

Llama 3.1

Tamaños: 8B, 70B, 405B

Licencia: Llama License

General, alta calidad

Qwen 2.5

Tamaños: 0.5B-72B

Licencia: Apache 2.0

Multilingüe, versátil

Mistral

Tamaños: 7B

Licencia: Apache 2.0

Eficiente, rápido

Phi-4

Tamaños: 14B

Licencia: MIT

Compacto, eficiente

Modelo	Tamaños	Mejor Para	Licencia
Llama 3.3	70B	Mejor modelo 70B	Llama License
Llama 3.1	8B, 70B, 405B	General, alta calidad	Llama License
Qwen 2.5	0.5B-72B	Multilingüe, versátil	Apache 2.0
Mistral	7B	Eficiente, rápido	Apache 2.0
Phi-4	14B	Compacto, eficiente	MIT

Especializados en Código

Qwen Coder 2.5

Tamaños: 1.5B-32B

Licencia: Apache 2.0

Mejor para código

DeepSeek Coder V2

Tamaños: 16B, 236B

Licencia: DeepSeek

Alta calidad

CodeLlama

Tamaños: 7B, 13B, 34B

Licencia: Llama

Python, C++

Modelo	Tamaños	Mejor Para	Licencia
Qwen Coder 2.5	1.5B-32B	Mejor para código	Apache 2.0
DeepSeek Coder V2	16B, 236B	Alta calidad	DeepSeek
CodeLlama	7B, 13B, 34B	Python, C++	Llama

Visión (VLMs)

Llama 3.2 Vision

Tamaños: 11B, 90B

Licencia: Llama License

Imágenes + texto

Qwen2-VL

Tamaños: 2B, 7B, 72B

Licencia: Apache 2.0

Visión multimodal

Modelo	Tamaños	Mejor Para	Licencia
Llama 3.2 Vision	11B, 90B	Imágenes + texto	Llama License
Qwen2-VL	2B, 7B, 72B	Visión multimodal	Apache 2.0

Razonamiento

DeepSeek-R1

Tamaños: 1.5B-70B

Licencia: DeepSeek

Chain-of-thought

Qwen2.5-Math

Tamaños: 1.5B-72B

Licencia: Apache 2.0

Matemáticas

Modelo	Tamaños	Mejor Para	Licencia
DeepSeek-R1	1.5B-70B	Chain-of-thought	DeepSeek
Qwen2.5-Math	1.5B-72B	Matemáticas	Apache 2.0

Recomendaciones por Caso de Uso

Chatbot general

Llama 3.1 8B

Instruct

Asistente de código

Qwen Coder 2.5 7B

Instruct

Análisis de imágenes

Llama 3.2 Vision 11B

Vision

Razonamiento

DeepSeek-R1 8B

Reasoning

Volver a Documentación Guía de Datasets