Desarrollo Básico

SLM (Small Language Model)

Modelos de lenguaje pequeños y eficientes, diseñados para tareas específicas con menor consumo de recursos que los LLMs gigantes.

Pronunciación

/ɛs ɛl ɛm/
"es-el-em"
Escuchar en: Forvo

Qué es

Un SLM (Small Language Model) es un modelo de lenguaje con menos parámetros que los LLMs gigantes, diseñado para:

  1. Tareas específicas en lugar de propósito general
  2. Ejecutar en hardware limitado (laptops, móviles, edge)
  3. Menor latencia y costo operativo
  4. Fine-tuning más fácil y económico

Pronunciación

IPA: /ɛs ɛl ɛm/

Suena como: “es-el-em” - cada letra por separado

Errores comunes:

  • ❌ “eslm” (no es una palabra)
  • ❌ “slim” (no es la palabra inglesa “delgado”)

LLM vs SLM: Comparación

AspectoLLM (Large)SLM (Small)
Parámetros70B - 1T+1B - 13B
HardwareGPUs de datacenterLaptop/móvil
LatenciaSegundosMilisegundos
Costo por query$0.01 - $0.10$0.0001 - $0.001
PropósitoGeneralEspecífico
Fine-tuningCostoso ($10K+)Económico ($100-1K)

Ejemplos de SLMs Populares

ModeloParámetrosCreadorFortaleza
Phi-33.8BMicrosoftRazonamiento
Gemma 22B - 9BGoogleEficiencia
Llama 3.21B - 3BMetaOpen source
Mistral 7B7BMistral AIBalance
Qwen 2.50.5B - 7BAlibabaMultilingüe

Por qué SLMs son tendencia en 2026

“Fine-tuned SLMs will be the big trend and become a staple used by mature AI enterprises in 2026, as the cost and performance advantages will drive usage over out-of-the-box LLMs.” — Chief Data Officer, AT&T

El cambio de paradigma

2023-2024: "Necesitamos el modelo más grande posible"
           └→ GPT-4, Claude 3 Opus, Gemini Ultra

2025-2026: "Necesitamos el modelo correcto para la tarea"
           └→ SLMs fine-tuneados para casos específicos

Caso Práctico: Cuándo usar SLM vs LLM

Escenario: Clasificar tickets de soporte

Opción 1: LLM (GPT-4)

- Costo: ~$0.03 por ticket
- 10,000 tickets/día = $300/día = $9,000/mes
- Latencia: 2-5 segundos
- Requiere: API externa

Opción 2: SLM fine-tuneado (Phi-3)

- Costo: ~$0.0003 por ticket (self-hosted)
- 10,000 tickets/día = $3/día = $90/mes
- Latencia: 50-200ms
- Requiere: GPU pequeña o CPU potente
- Fine-tuning inicial: ~$500

Resultado: El SLM es 100x más económico para esta tarea específica.

Cuándo usar cada uno

Usa SLM cuando:

EscenarioPor qué SLM
Clasificación de textoTarea específica, alta frecuencia
Extracción de entidadesPatrones definidos
Chatbot de FAQRespuestas predecibles
Análisis de sentimientoTarea acotada
Ejecución en edgeHardware limitado
Datos sensiblesProcesamiento local

Usa LLM cuando:

EscenarioPor qué LLM
Razonamiento complejoRequiere conocimiento amplio
Generación creativaDiversidad de outputs
Tareas variadasNo sabes qué pedirán
Prototipado rápidoSin tiempo para fine-tuning
MultimodalidadImágenes + texto

Cómo implementar un SLM

Paso 1: Elegir el modelo base

# Ejemplo con Hugging Face
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "microsoft/Phi-3-mini-4k-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

Paso 2: Fine-tuning (opcional pero recomendado)

from datasets import load_dataset
from trl import SFTTrainer

# Cargar tu dataset específico
dataset = load_dataset("json", data_files="mis_datos.json")

# Configurar trainer
trainer = SFTTrainer(
    model=model,
    train_dataset=dataset["train"],
    max_seq_length=512,
    # ... más configuración
)

# Entrenar
trainer.train()

Paso 3: Desplegar

# Opción A: Local con llama.cpp (CPU)
# Opción B: Ollama (fácil setup)
# Opción C: vLLM (producción GPU)
# Opción D: API serverless (Replicate, Modal)

Arquitectura típica con SLM

┌─────────────────────────────────────────────────────────┐
│              ARQUITECTURA HÍBRIDA LLM/SLM               │
├─────────────────────────────────────────────────────────┤
│                                                          │
│   Request                                                │
│      │                                                   │
│      ▼                                                   │
│   ┌──────────────┐                                      │
│   │   Router     │  ← Decide qué modelo usar           │
│   └──────┬───────┘                                      │
│          │                                               │
│    ┌─────┴─────┐                                        │
│    │           │                                        │
│    ▼           ▼                                        │
│ ┌──────┐   ┌──────┐                                    │
│ │ SLM  │   │ LLM  │                                    │
│ │local │   │ API  │                                    │
│ └──┬───┘   └──┬───┘                                    │
│    │          │                                        │
│    └────┬─────┘                                        │
│         │                                               │
│         ▼                                               │
│   ┌──────────┐                                         │
│   │ Response │                                         │
│   └──────────┘                                         │
│                                                          │
│   Lógica del Router:                                    │
│   - Tarea conocida → SLM (rápido, barato)              │
│   - Tarea compleja → LLM (capaz, costoso)              │
│                                                          │
└─────────────────────────────────────────────────────────┘

Costos comparativos 2026

ModeloTipoCosto por 1M tokens
GPT-4 TurboLLM API~$10-30
Claude 3 OpusLLM API~$15-75
Phi-3 (self-hosted)SLM~$0.10-0.50
Mistral 7B (self-hosted)SLM~$0.20-1.00

Términos relacionados

  • [[LLM]] - Large Language Model, modelos grandes
  • [[Fine-tuning]] - Adaptar un modelo a tareas específicas
  • [[Edge Computing]] - Procesamiento en dispositivos locales

Recuerda: Los SLMs no reemplazan a los LLMs—los complementan. La estrategia óptima en 2026 es usar el modelo correcto para cada tarea, no el modelo más grande disponible.