AstrApp
Docs
Volver a Documentación
Guía Técnica

¿Qué Modelo Debo Usar para Fine-tuning?

Llama, Qwen, Mistral, Phi... Guía completa para seleccionar el modelo ideal para tu caso de uso.

Pasos para Elegir

1

Identifica tu caso de uso

Código, chat, visión, análisis de documentos...

2

Revisa licencias y requisitos

Apache 2.0, Llama License, restricciones comerciales

3

Evalúa tus recursos

VRAM disponible, storage, tiempo de entrenamiento

4

Considera tu dataset

<300 filas → Instruct, 1000+ filas → Base


¿Modelo Instruct o Base?

Modelo Instruct

Pre-entrenado con instrucciones incorporadas. Listo para usar sin fine-tuning.

  • -Menos datos requeridos
  • -Chat templates: ChatML, ShareGPT
  • -Mejor para datasets <1000 filas

Modelo Base

Versión original sin instruction tuning. Diseñado para personalización completa.

  • -Control total sobre el comportamiento
  • -Templates: Alpaca, Vicuna
  • -Mejor para datasets 1000+ filas

Recomendación por Tamaño de Dataset

< 300 filasInstruct

Preserva capacidades existentes

300 - 1,000 filasAmbos viables

Evalúa calidad del dataset

1,000+ filasBase

Máximo control y personalización


Requisitos de VRAM

1B-3B
QLoRA (4-bit)
2-4 GB
LoRA (16-bit)
8-12 GB
7B-8B
QLoRA (4-bit)
4-6 GB
LoRA (16-bit)
16-24 GB
13B
QLoRA (4-bit)
8-10 GB
LoRA (16-bit)
32-40 GB
30B-34B
QLoRA (4-bit)
16-20 GB
LoRA (16-bit)
64-80 GB
70B
QLoRA (4-bit)
35-48 GB
LoRA (16-bit)
140+ GB

Tip: AstrApp optimiza automáticamente la configuración para tu modelo elegido.


Catálogo de Modelos

Propósito General

Llama 3.3
Tamaños: 70B
Licencia: Llama License
Mejor modelo 70B
Llama 3.1
Tamaños: 8B, 70B, 405B
Licencia: Llama License
General, alta calidad
Qwen 2.5
Tamaños: 0.5B-72B
Licencia: Apache 2.0
Multilingüe, versátil
Mistral
Tamaños: 7B
Licencia: Apache 2.0
Eficiente, rápido
Phi-4
Tamaños: 14B
Licencia: MIT
Compacto, eficiente

Especializados en Código

Qwen Coder 2.5
Tamaños: 1.5B-32B
Licencia: Apache 2.0
Mejor para código
DeepSeek Coder V2
Tamaños: 16B, 236B
Licencia: DeepSeek
Alta calidad
CodeLlama
Tamaños: 7B, 13B, 34B
Licencia: Llama
Python, C++

Visión (VLMs)

Llama 3.2 Vision
Tamaños: 11B, 90B
Licencia: Llama License
Imágenes + texto
Qwen2-VL
Tamaños: 2B, 7B, 72B
Licencia: Apache 2.0
Visión multimodal

Razonamiento

DeepSeek-R1
Tamaños: 1.5B-70B
Licencia: DeepSeek
Chain-of-thought
Qwen2.5-Math
Tamaños: 1.5B-72B
Licencia: Apache 2.0
Matemáticas

Recomendaciones por Caso de Uso

Chatbot general

Llama 3.1 8B

Instruct

Asistente de código

Qwen Coder 2.5 7B

Instruct

Análisis de imágenes

Llama 3.2 Vision 11B

Vision

Razonamiento

DeepSeek-R1 8B

Reasoning