Guide Ollama — Exécuter des LLM en local
Dernière mise à jour : avril 2026 — commandes vérifiées sur docs.ollama.com/cli
Qu'est-ce qu'Ollama ?
Ollama est un outil open source (licence MIT) qui permet d'exécuter des grands modèles de langage (LLM) directement sur votre machine, sans connexion internet, sans clé API, et sans envoyer vos données à des serveurs tiers.
Il expose une API REST locale (http://localhost:11434) compatible avec le format OpenAI, ce qui permet de brancher n'importe quel outil conçu pour ChatGPT sur un modèle local.
Fonctionnement interne
Ollama agit comme une couche d'abstraction au-dessus de llama.cpp — le moteur d'inférence C++ créé par Georgi Gerganov en mars 2023, qui a rendu possible l'exécution de LLaMA de Meta sur du matériel grand public. Ollama gère :
- Le téléchargement et le stockage des modèles (format GGUF)
- L'accélération GPU (NVIDIA CUDA, AMD ROCm, Apple Metal)
- Un serveur HTTP local pour les requêtes
- Un système de
Modelfile(inspiré de Docker) pour personnaliser les modèles
Bref historique
| Date | Événement |
|---|---|
| Mars 2023 | Georgi Gerganov publie llama.cpp — premier projet permettant de faire tourner LLaMA sur CPU grand public |
| Juillet 2023 | Première version publique d'Ollama sur GitHub par Jeffrey Morgan et Michael Chiang (Y Combinator W21) |
| Fin 2023 | Introduction du Modelfile, migration vers le format GGUF, lancement de ollama.com/library |
| 2024 | SDK officiels Python et JavaScript, compatibilité API OpenAI, image Docker officielle, support Windows natif |
| Juillet 2025 | Application desktop officielle (macOS et Windows) avec interface graphique, model manager, drag & drop |
Prérequis matériels
| Configuration | Modèles compatibles |
|---|---|
| 8 Go RAM minimum | Modèles 3B–7B (ex : Gemma 3, Mistral 7B) |
| 16 Go RAM recommandé | Modèles 7B–13B avec confort |
| GPU NVIDIA/AMD ou Apple Silicon | Inférence significativement plus rapide |
| 10–40 Go d'espace disque | Selon les modèles téléchargés |
Note Apple Silicon : Les puces M1/M2/M3/M4 utilisent une mémoire unifiée CPU/GPU, ce qui donne un avantage notable. Un MacBook Pro M3 Pro avec 18 Go peut faire tourner des modèles 14B facilement.
Installation
Windows
Prérequis : Windows 10 ou 11 (64 bits)
Via installateur :
- Télécharger l'installateur officiel : https://ollama.com/download
- Exécuter
OllamaSetup.exeet suivre les étapes - Ollama se lance automatiquement en tâche de fond (icône dans la barre système)
- Vérifier l'installation :
ollama --version
Via PowerShell :
irm https://ollama.com/install.ps1 | iex
En cas de problème avec le PATH, redémarrer le système.
macOS
Prérequis : macOS 11 Big Sur ou supérieur (Intel ou Apple Silicon)
Via installateur :
- Télécharger le
.dmg: https://ollama.com/download - Ouvrir le fichier
.dmget glisserOllama.appdans le dossierApplications - Lancer l'application depuis le Launchpad ou Spotlight
- Vérifier l'installation :
ollama --version
Via Homebrew :
brew install ollama
Linux
Via script (recommandé) — Debian, Ubuntu, Fedora, Arch, etc. :
curl -fsSL https://ollama.com/install.sh | sh
Le script installe le binaire, crée un service systemd et configure le démarrage automatique.
Vérifier le service :
sudo systemctl status ollama
Activer le démarrage automatique (si pas déjà fait) :
sudo systemctl enable ollama
sudo systemctl start ollama
Premiers pas
Télécharger et lancer un modèle
ollama run gemma3
Le premier téléchargement peut prendre quelques minutes selon votre connexion (2 à 8 Go selon le modèle).
Une fois dans le chat : tapez votre question, Ctrl+D ou /bye pour quitter.
Modèle multimodal (avec image) :
ollama run gemma3 "Qu'y a-t-il sur cette image ? /chemin/vers/image.png"
Commandes essentielles
# Télécharger un modèle sans le lancer
ollama pull gemma3
# Lancer un modèle (chat interactif)
ollama run gemma3
# Lister les modèles installés
ollama ls
# Voir les modèles actuellement chargés en mémoire
ollama ps
# Arrêter un modèle en cours d'exécution
ollama stop gemma3
# Supprimer un modèle
ollama rm gemma3
# Démarrer le serveur manuellement
ollama serve
# Se connecter à son compte Ollama
ollama signin
# Se déconnecter
ollama signout
Créer un modèle personnalisé (Modelfile)
# 1. Créer un fichier Modelfile
cat > Modelfile <<EOF
FROM gemma3
SYSTEM """Tu es un assistant sympathique qui répond toujours en français."""
EOF
# 2. Créer le modèle
ollama create -f Modelfile
# 3. Le lancer
ollama run mon-assistant
Modèles populaires
| Modèle | Taille | Usage recommandé |
|---|---|---|
gemma3:1b | ~800 Mo | Test rapide, machines limitées |
gemma3 | ~3 Go | Usage général |
mistral | ~4 Go | Polyvalent, très performant |
deepseek-r1:7b | ~4.7 Go | Raisonnement, code |
codellama | ~4 Go | Assistance au code |
phi4 | ~9 Go | Performant pour sa taille |
Catalogue complet : https://ollama.com/library
API REST locale
Ollama expose une API compatible OpenAI sur http://localhost:11434.
Exemple de requête :
curl http://localhost:11434/api/chat -d '{
"model": "gemma3",
"messages": [{ "role": "user", "content": "Explique la relativité en 2 phrases." }],
"stream": false
}'
Utilisation avec le SDK Python :
pip install ollama
from ollama import chat
response = chat(model='gemma3', messages=[
{ 'role': 'user', 'content': 'Bonjour, qui es-tu ?' }
])
print(response.message.content)
Variables d'environnement utiles
Pour voir toutes les variables disponibles :
ollama serve --help
| Variable | Description | Exemple |
|---|---|---|
OLLAMA_HOST | Adresse d'écoute du serveur | 0.0.0.0:11434 (réseau local) |
OLLAMA_MODELS | Dossier de stockage des modèles | /data/ollama/models |
OLLAMA_NUM_PARALLEL | Requêtes parallèles max | 2 |
OLLAMA_CONTEXT_SIZE | Taille de la fenêtre de contexte | 8192 |
Configurer sur Linux (systemd)
sudo systemctl edit ollama
Ajouter dans la section [Service] :
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama/models"
Puis redémarrer :
sudo systemctl restart ollama
Configurer sur Windows
Aller dans Paramètres système → Variables d'environnement et ajouter les variables souhaitées, puis redémarrer Ollama depuis le menu Démarrer.
Configurer sur macOS
launchctl setenv OLLAMA_HOST "0.0.0.0"
Redémarrer ensuite l'application Ollama.
Dépannage rapide
| Problème | Solution |
|---|---|
ollama introuvable après install Windows | Redémarrer le système pour recharger le PATH |
| Port 11434 déjà utilisé | OLLAMA_HOST=localhost:11435 ollama serve |
| Modèle trop lent | Vérifier que le GPU est bien détecté : ollama ps |
| Erreur 502 / serveur inaccessible | sudo systemctl restart ollama (Linux) |
| Mise à jour Ollama (Linux) | Re-exécuter curl -fsSL https://ollama.com/install.sh | sh |