WikiAbo
AccueilArticle
AccueilAIOllama, ou l'IA à la maison

Ollama, ou l'IA à la maison

Guide Ollama — Exécuter des LLM en local

Dernière mise à jour : avril 2026 — commandes vérifiées sur docs.ollama.com/cli


Qu'est-ce qu'Ollama ?

Ollama est un outil open source (licence MIT) qui permet d'exécuter des grands modèles de langage (LLM) directement sur votre machine, sans connexion internet, sans clé API, et sans envoyer vos données à des serveurs tiers.

Il expose une API REST locale (http://localhost:11434) compatible avec le format OpenAI, ce qui permet de brancher n'importe quel outil conçu pour ChatGPT sur un modèle local.

Fonctionnement interne

Ollama agit comme une couche d'abstraction au-dessus de llama.cpp — le moteur d'inférence C++ créé par Georgi Gerganov en mars 2023, qui a rendu possible l'exécution de LLaMA de Meta sur du matériel grand public. Ollama gère :

  • Le téléchargement et le stockage des modèles (format GGUF)
  • L'accélération GPU (NVIDIA CUDA, AMD ROCm, Apple Metal)
  • Un serveur HTTP local pour les requêtes
  • Un système de Modelfile (inspiré de Docker) pour personnaliser les modèles

Bref historique

DateÉvénement
Mars 2023Georgi Gerganov publie llama.cpp — premier projet permettant de faire tourner LLaMA sur CPU grand public
Juillet 2023Première version publique d'Ollama sur GitHub par Jeffrey Morgan et Michael Chiang (Y Combinator W21)
Fin 2023Introduction du Modelfile, migration vers le format GGUF, lancement de ollama.com/library
2024SDK officiels Python et JavaScript, compatibilité API OpenAI, image Docker officielle, support Windows natif
Juillet 2025Application desktop officielle (macOS et Windows) avec interface graphique, model manager, drag & drop

Prérequis matériels

ConfigurationModèles compatibles
8 Go RAM minimumModèles 3B–7B (ex : Gemma 3, Mistral 7B)
16 Go RAM recommandéModèles 7B–13B avec confort
GPU NVIDIA/AMD ou Apple SiliconInférence significativement plus rapide
10–40 Go d'espace disqueSelon les modèles téléchargés

Note Apple Silicon : Les puces M1/M2/M3/M4 utilisent une mémoire unifiée CPU/GPU, ce qui donne un avantage notable. Un MacBook Pro M3 Pro avec 18 Go peut faire tourner des modèles 14B facilement.


Installation

Windows

Prérequis : Windows 10 ou 11 (64 bits)

Via installateur :

  1. Télécharger l'installateur officiel : https://ollama.com/download
  2. Exécuter OllamaSetup.exe et suivre les étapes
  3. Ollama se lance automatiquement en tâche de fond (icône dans la barre système)
  4. Vérifier l'installation :
powershell
ollama --version

Via PowerShell :

powershell
irm https://ollama.com/install.ps1 | iex

En cas de problème avec le PATH, redémarrer le système.


macOS

Prérequis : macOS 11 Big Sur ou supérieur (Intel ou Apple Silicon)

Via installateur :

  1. Télécharger le .dmg : https://ollama.com/download
  2. Ouvrir le fichier .dmg et glisser Ollama.app dans le dossier Applications
  3. Lancer l'application depuis le Launchpad ou Spotlight
  4. Vérifier l'installation :
bash
ollama --version

Via Homebrew :

bash
brew install ollama

Linux

Via script (recommandé) — Debian, Ubuntu, Fedora, Arch, etc. :

bash
curl -fsSL https://ollama.com/install.sh | sh

Le script installe le binaire, crée un service systemd et configure le démarrage automatique.

Vérifier le service :

bash
sudo systemctl status ollama

Activer le démarrage automatique (si pas déjà fait) :

bash
sudo systemctl enable ollama
sudo systemctl start ollama

Premiers pas

Télécharger et lancer un modèle

bash
ollama run gemma3

Le premier téléchargement peut prendre quelques minutes selon votre connexion (2 à 8 Go selon le modèle).

Une fois dans le chat : tapez votre question, Ctrl+D ou /bye pour quitter.

Modèle multimodal (avec image) :

bash
ollama run gemma3 "Qu'y a-t-il sur cette image ? /chemin/vers/image.png"

Commandes essentielles

bash
# Télécharger un modèle sans le lancer
ollama pull gemma3

# Lancer un modèle (chat interactif)
ollama run gemma3

# Lister les modèles installés
ollama ls

# Voir les modèles actuellement chargés en mémoire
ollama ps

# Arrêter un modèle en cours d'exécution
ollama stop gemma3

# Supprimer un modèle
ollama rm gemma3

# Démarrer le serveur manuellement
ollama serve

# Se connecter à son compte Ollama
ollama signin

# Se déconnecter
ollama signout

Créer un modèle personnalisé (Modelfile)

bash
# 1. Créer un fichier Modelfile
cat > Modelfile <<EOF
FROM gemma3
SYSTEM """Tu es un assistant sympathique qui répond toujours en français."""
EOF

# 2. Créer le modèle
ollama create -f Modelfile

# 3. Le lancer
ollama run mon-assistant

Modèles populaires

ModèleTailleUsage recommandé
gemma3:1b~800 MoTest rapide, machines limitées
gemma3~3 GoUsage général
mistral~4 GoPolyvalent, très performant
deepseek-r1:7b~4.7 GoRaisonnement, code
codellama~4 GoAssistance au code
phi4~9 GoPerformant pour sa taille

Catalogue complet : https://ollama.com/library


API REST locale

Ollama expose une API compatible OpenAI sur http://localhost:11434.

Exemple de requête :

bash
curl http://localhost:11434/api/chat -d '{
  "model": "gemma3",
  "messages": [{ "role": "user", "content": "Explique la relativité en 2 phrases." }],
  "stream": false
}'

Utilisation avec le SDK Python :

bash
pip install ollama
python
from ollama import chat

response = chat(model='gemma3', messages=[
    { 'role': 'user', 'content': 'Bonjour, qui es-tu ?' }
])
print(response.message.content)

Variables d'environnement utiles

Pour voir toutes les variables disponibles :

bash
ollama serve --help
VariableDescriptionExemple
OLLAMA_HOSTAdresse d'écoute du serveur0.0.0.0:11434 (réseau local)
OLLAMA_MODELSDossier de stockage des modèles/data/ollama/models
OLLAMA_NUM_PARALLELRequêtes parallèles max2
OLLAMA_CONTEXT_SIZETaille de la fenêtre de contexte8192

Configurer sur Linux (systemd)

bash
sudo systemctl edit ollama

Ajouter dans la section [Service] :

ini
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama/models"

Puis redémarrer :

bash
sudo systemctl restart ollama

Configurer sur Windows

Aller dans Paramètres système → Variables d'environnement et ajouter les variables souhaitées, puis redémarrer Ollama depuis le menu Démarrer.

Configurer sur macOS

bash
launchctl setenv OLLAMA_HOST "0.0.0.0"

Redémarrer ensuite l'application Ollama.


Dépannage rapide

ProblèmeSolution
ollama introuvable après install WindowsRedémarrer le système pour recharger le PATH
Port 11434 déjà utiliséOLLAMA_HOST=localhost:11435 ollama serve
Modèle trop lentVérifier que le GPU est bien détecté : ollama ps
Erreur 502 / serveur inaccessiblesudo systemctl restart ollama (Linux)
Mise à jour Ollama (Linux)Re-exécuter curl -fsSL https://ollama.com/install.sh | sh

Sources