Accueil AIOllama, ou l'IA à la maison

Ollama, ou l'IA à la maison

Jean-Baptiste30 avril 20266 min de lecture

Guide Ollama — Exécuter des LLM en local

Dernière mise à jour : avril 2026 — commandes vérifiées sur docs.ollama.com/cli

Qu'est-ce qu'Ollama ?

Ollama est un outil open source (licence MIT) qui permet d'exécuter des grands modèles de langage (LLM) directement sur votre machine, sans connexion internet, sans clé API, et sans envoyer vos données à des serveurs tiers.

Il expose une API REST locale (http://localhost:11434) compatible avec le format OpenAI, ce qui permet de brancher n'importe quel outil conçu pour ChatGPT sur un modèle local.

Fonctionnement interne

Ollama agit comme une couche d'abstraction au-dessus de llama.cpp — le moteur d'inférence C++ créé par Georgi Gerganov en mars 2023, qui a rendu possible l'exécution de LLaMA de Meta sur du matériel grand public. Ollama gère :

Le téléchargement et le stockage des modèles (format GGUF)
L'accélération GPU (NVIDIA CUDA, AMD ROCm, Apple Metal)
Un serveur HTTP local pour les requêtes
Un système de Modelfile (inspiré de Docker) pour personnaliser les modèles

Bref historique

Date	Événement
Mars 2023	Georgi Gerganov publie `llama.cpp` — premier projet permettant de faire tourner LLaMA sur CPU grand public
Juillet 2023	Première version publique d'Ollama sur GitHub par Jeffrey Morgan et Michael Chiang (Y Combinator W21)
Fin 2023	Introduction du `Modelfile`, migration vers le format GGUF, lancement de `ollama.com/library`
2024	SDK officiels Python et JavaScript, compatibilité API OpenAI, image Docker officielle, support Windows natif
Juillet 2025	Application desktop officielle (macOS et Windows) avec interface graphique, model manager, drag & drop

Prérequis matériels

Configuration	Modèles compatibles
8 Go RAM minimum	Modèles 3B–7B (ex : Gemma 3, Mistral 7B)
16 Go RAM recommandé	Modèles 7B–13B avec confort
GPU NVIDIA/AMD ou Apple Silicon	Inférence significativement plus rapide
10–40 Go d'espace disque	Selon les modèles téléchargés

Note Apple Silicon : Les puces M1/M2/M3/M4 utilisent une mémoire unifiée CPU/GPU, ce qui donne un avantage notable. Un MacBook Pro M3 Pro avec 18 Go peut faire tourner des modèles 14B facilement.

Installation

Windows

Prérequis : Windows 10 ou 11 (64 bits)

Via installateur :

Télécharger l'installateur officiel : https://ollama.com/download
Exécuter OllamaSetup.exe et suivre les étapes
Ollama se lance automatiquement en tâche de fond (icône dans la barre système)
Vérifier l'installation :

powershell

ollama --version

Via PowerShell :

powershell

irm https://ollama.com/install.ps1 | iex

En cas de problème avec le PATH, redémarrer le système.

macOS

Prérequis : macOS 11 Big Sur ou supérieur (Intel ou Apple Silicon)

Via installateur :

Télécharger le .dmg : https://ollama.com/download
Ouvrir le fichier .dmg et glisser Ollama.app dans le dossier Applications
Lancer l'application depuis le Launchpad ou Spotlight
Vérifier l'installation :

bash

ollama --version

Via Homebrew :

bash

brew install ollama

Linux

Via script (recommandé) — Debian, Ubuntu, Fedora, Arch, etc. :

bash

curl -fsSL https://ollama.com/install.sh | sh

Le script installe le binaire, crée un service systemd et configure le démarrage automatique.

Vérifier le service :

bash

sudo systemctl status ollama

Activer le démarrage automatique (si pas déjà fait) :

bash

sudo systemctl enable ollama
sudo systemctl start ollama

Premiers pas

Télécharger et lancer un modèle

bash

ollama run gemma3

Le premier téléchargement peut prendre quelques minutes selon votre connexion (2 à 8 Go selon le modèle).

Une fois dans le chat : tapez votre question, Ctrl+D ou /bye pour quitter.

Modèle multimodal (avec image) :

bash

ollama run gemma3 "Qu'y a-t-il sur cette image ? /chemin/vers/image.png"

Commandes essentielles

bash

# Télécharger un modèle sans le lancer
ollama pull gemma3

# Lancer un modèle (chat interactif)
ollama run gemma3

# Lister les modèles installés
ollama ls

# Voir les modèles actuellement chargés en mémoire
ollama ps

# Arrêter un modèle en cours d'exécution
ollama stop gemma3

# Supprimer un modèle
ollama rm gemma3

# Démarrer le serveur manuellement
ollama serve

# Se connecter à son compte Ollama
ollama signin

# Se déconnecter
ollama signout

Créer un modèle personnalisé (Modelfile)

bash

# 1. Créer un fichier Modelfile
cat > Modelfile <<EOF
FROM gemma3
SYSTEM """Tu es un assistant sympathique qui répond toujours en français."""
EOF

# 2. Créer le modèle
ollama create -f Modelfile

# 3. Le lancer
ollama run mon-assistant

Modèles populaires

Modèle	Taille	Usage recommandé
`gemma3:1b`	~800 Mo	Test rapide, machines limitées
`gemma3`	~3 Go	Usage général
`mistral`	~4 Go	Polyvalent, très performant
`deepseek-r1:7b`	~4.7 Go	Raisonnement, code
`codellama`	~4 Go	Assistance au code
`phi4`	~9 Go	Performant pour sa taille

Catalogue complet : https://ollama.com/library

API REST locale

Ollama expose une API compatible OpenAI sur http://localhost:11434.

Exemple de requête :

bash

curl http://localhost:11434/api/chat -d '{
  "model": "gemma3",
  "messages": [{ "role": "user", "content": "Explique la relativité en 2 phrases." }],
  "stream": false
}'

Utilisation avec le SDK Python :

bash

pip install ollama

python

from ollama import chat

response = chat(model='gemma3', messages=[
    { 'role': 'user', 'content': 'Bonjour, qui es-tu ?' }
])
print(response.message.content)

Variables d'environnement utiles

Pour voir toutes les variables disponibles :

bash

ollama serve --help

Variable	Description	Exemple
`OLLAMA_HOST`	Adresse d'écoute du serveur	`0.0.0.0:11434` (réseau local)
`OLLAMA_MODELS`	Dossier de stockage des modèles	`/data/ollama/models`
`OLLAMA_NUM_PARALLEL`	Requêtes parallèles max	`2`
`OLLAMA_CONTEXT_SIZE`	Taille de la fenêtre de contexte	`8192`

Configurer sur Linux (systemd)

bash

sudo systemctl edit ollama

Ajouter dans la section [Service] :

ini

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama/models"

Puis redémarrer :

bash

sudo systemctl restart ollama

Configurer sur Windows

Aller dans Paramètres système → Variables d'environnement et ajouter les variables souhaitées, puis redémarrer Ollama depuis le menu Démarrer.

Configurer sur macOS

bash

launchctl setenv OLLAMA_HOST "0.0.0.0"

Redémarrer ensuite l'application Ollama.

Dépannage rapide

Problème	Solution
`ollama` introuvable après install Windows	Redémarrer le système pour recharger le PATH
Port 11434 déjà utilisé	`OLLAMA_HOST=localhost:11435 ollama serve`
Modèle trop lent	Vérifier que le GPU est bien détecté : `ollama ps`
Erreur 502 / serveur inaccessible	`sudo systemctl restart ollama` (Linux)
Mise à jour Ollama (Linux)	Re-exécuter `curl -fsSL https://ollama.com/install.sh \| sh`

Ollama, ou l'IA à la maison

Guide Ollama — Exécuter des LLM en local

Qu'est-ce qu'Ollama ?

Fonctionnement interne

Bref historique

Prérequis matériels

Installation

Windows

macOS

Linux

Premiers pas

Télécharger et lancer un modèle

Commandes essentielles

Créer un modèle personnalisé (Modelfile)

Modèles populaires

API REST locale

Variables d'environnement utiles

Configurer sur Linux (systemd)

Configurer sur Windows

Configurer sur macOS

Dépannage rapide

Sources