Cómo instalar y usar Ollama en local
¿Qué es Ollama?
Ollama es una herramienta que permite ejecutar modelos de lenguaje de código abierto directamente en tu ordenador. Sin cuentas, sin suscripciones, sin enviar datos a la nube. Todo se ejecuta en local y funciona incluso sin conexión a internet.
Es la opción ideal si te preocupa la privacidad, quieres experimentar con modelos abiertos o simplemente no quieres pagar suscripciones mensuales.
Modelos disponibles
| Modelo | Tamaño | Mejor uso |
|---|---|---|
| Llama 3.3 70B | 40 GB | El más capaz, necesita GPU potente |
| Llama 3.2 8B | 4.7 GB | Equilibrio calidad/velocidad |
| Mistral 7B | 4.1 GB | Rápido, buen rendimiento general |
| Gemma 2 9B | 5.5 GB | Modelo de Google, bueno en razonamiento |
| Qwen 2.5 7B | 4.4 GB | Bueno en código y matemáticas |
| Phi-3 Mini | 2.3 GB | Muy ligero, ideal para hardware limitado |
| DeepSeek Coder V2 | 8.9 GB | Especializado en programación |
Requisitos del sistema
- macOS: Apple Silicon (M1/M2/M3/M4) recomendado, 8 GB RAM mínimo
- Linux: 8 GB RAM, GPU NVIDIA con CUDA opcional
- Windows: Windows 10/11, 8 GB RAM (16 GB recomendado)
- Disco: entre 2 y 40 GB según el modelo que descargues
Paso 1: Instalar Ollama
macOS
# Opción 1: Descarga directa desde ollama.com
curl -fsSL https://ollama.com/install.sh | sh
# Opción 2: Con Homebrew
brew install ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
Descarga el instalador desde ollama.com/download y ejecútalo.
Verifica la instalación:
ollama --version
Paso 2: Descargar tu primer modelo
# Descargar Llama 3.2 (8B) - buena opción para empezar
ollama pull llama3.2
# Otros modelos populares
ollama pull mistral
ollama pull gemma2
ollama pull qwen2.5
ollama pull deepseek-coder-v2
La primera descarga tarda según tu conexión. Los modelos se guardan en ~/.ollama/models/.
Paso 3: Chatear con el modelo
# Iniciar una conversación
ollama run llama3.2
Se abre un chat interactivo en terminal. Escribe tu pregunta y pulsa Enter:
>>> Explícame qué es una API REST en términos sencillos
Una API REST es como un camarero en un restaurante...
Para salir, escribe /bye o pulsa Ctrl+D.
Paso 4: Usar la API local
Ollama expone una API HTTP local en el puerto 11434:
# Consulta simple
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "¿Qué es machine learning?",
"stream": false
}'
Esto permite integrar Ollama con cualquier aplicación, script o interfaz web.
Paso 5: Interfaces gráficas
Si prefieres una interfaz visual en lugar del terminal:
Open WebUI (la más popular)
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Abre http://localhost:3000 y tendrás una interfaz similar a ChatGPT conectada a tus modelos locales.
Comandos útiles
| Comando | Acción |
|---|---|
ollama list | Ver modelos instalados |
ollama pull modelo | Descargar un modelo |
ollama run modelo | Chatear con un modelo |
ollama rm modelo | Eliminar un modelo |
ollama show modelo | Ver detalles del modelo |
ollama cp modelo nuevo | Copiar/renombrar modelo |
Rendimiento según hardware
- Mac M1/M2 (8 GB): modelos de 7B fluidos, 13B más lento
- Mac M3/M4 (16 GB+): modelos de hasta 30B sin problemas
- GPU NVIDIA RTX 3060+: modelos de 7-13B muy rápidos
- Solo CPU (16 GB RAM): modelos de 7B funcionales pero lentos
Ollama vs ChatGPT
| Aspecto | Ollama | ChatGPT |
|---|---|---|
| Precio | Gratis | 20€/mes (Plus) |
| Privacidad | Total (local) | Datos en la nube |
| Internet | No necesario | Obligatorio |
| Calidad | Buena (depende del modelo) | Excelente |
| Velocidad | Depende de tu hardware | Rápido siempre |
Ollama no sustituye a ChatGPT en calidad bruta, pero es ideal para tareas donde la privacidad importa, quieres experimentar sin coste o necesitas IA sin conexión.