
Faire tourner des modèles d’intelligence artificielle sur son propre ordinateur, sans cloud, sans abonnement, sans envoyer ses données à personne — c’est la promesse d’Ollama. Avec plus de 166 000 étoiles sur GitHub, c’est devenu l’outil de référence pour exécuter des LLM en local.
Site officiel Ollama | Code source sur GitHub
L’IA sans le cloud
Les grands modèles de langage (LLM) comme ChatGPT ou Claude fonctionnent dans le cloud : vos requêtes transitent par des serveurs distants. Ollama propose l’inverse : tout tourne sur votre machine. Vos données restent chez vous, la connexion internet n’est même pas nécessaire une fois le modèle téléchargé, et c’est entièrement gratuit.
Installation en une commande
Sur macOS ou Linux :
curl -fsSL https://ollama.com/install.sh | sh
Sur Windows, un installeur classique est disponible. Et c’est tout. Pas de Python à configurer, pas de dépendances à gérer, pas de Docker obligatoire.
Utilisation immédiate
Lancer une conversation avec un modèle :
ollama run gemma3
Ollama télécharge le modèle automatiquement au premier lancement, puis le conserve en local. Parmi les modèles disponibles :
| Modèle | Paramètres | Origine | Usage |
|---|---|---|---|
| Gemma 3 | 4B / 12B / 27B | Généraliste, multilingue | |
| Qwen 3.5 | 0.8B à 397B | Alibaba | Raisonnement, code, 201 langues |
| DeepSeek-R1 | 7B à 671B | DeepSeek | Raisonnement avancé |
| Llama 4 | Scout / Maverick | Meta | Généraliste |
| Phi-4 | 14B | Microsoft | Compact et performant |
| Mistral | 7B / 24B | Mistral AI | Français, européen |
| Code Llama | 7B / 13B / 34B | Meta | Programmation |
| LLaVA | 7B / 13B | Community | Vision (analyse d’images) |
La liste complète est sur ollama.com/library — des centaines de modèles disponibles.
Focus : Qwen 3.5, le champion open source
Sorti en février 2026, Qwen 3.5 d’Alibaba est l’un des modèles les plus impressionnants disponibles sur Ollama. Son vaisseau amiral, le Qwen3.5-397B-A17B, utilise une architecture Mixture-of-Experts (MoE) : 397 milliards de paramètres au total, mais seulement 17 milliards activés par requête, ce qui le rend rapide malgré sa taille.
Points forts :
- Contexte massif — 262 000 tokens nativement, extensible jusqu’à 1 million
- 201 langues supportées, dont le français
- Vision intégrée — comprend texte et images dans le même modèle
- Licence Apache 2.0 — libre d’utilisation, y compris commerciale
- Versions compactes — le Qwen3.5-4B tourne sur un laptop avec 8 Go de RAM
ollama run qwen3.5
Une API REST intégrée
Ollama expose automatiquement une API REST locale sur le port 11434, compatible avec le format OpenAI. N’importe quelle application peut s’y connecter :
curl http://localhost:11434/api/chat -d '{
"model": "gemma3",
"messages": [{"role": "user", "content": "Explique la relativité"}],
"stream": false
}'
Des bibliothèques officielles existent pour Python et JavaScript :
pip install ollama
from ollama import chat
response = chat(model='gemma3', messages=[
{'role': 'user', 'content': 'Pourquoi le ciel est bleu ?'}
])
print(response.message.content)
Claude Code et OpenClaw avec des modèles locaux
Depuis janvier 2026, Ollama supporte l’API Anthropic Messages, ce qui permet de connecter directement Claude Code — l’agent terminal d’Anthropic — à n’importe quel modèle local. Concrètement, vous bénéficiez de l’interface et des outils de Claude Code, mais avec un modèle qui tourne sur votre machine. Aucun coût API, aucune donnée envoyée au cloud.
ollama launch claude
Avec OpenClaw, Ollama se transforme en assistant IA personnel accessible depuis WhatsApp, Telegram, Slack ou Discord — le tout alimenté par vos modèles locaux :
ollama launch openclaw
Autres intégrations supportées :
- Codex (OpenAI) —
ollama launch codex - Continue.dev, Open WebUI, Cursor
- Toute application compatible avec l’API OpenAI (port 11434)
Les modèles recommandés pour le code avec Claude Code : Qwen 3.5 pour le raisonnement, GLM 4.7 Flash pour la vitesse, et Codestral pour Python. Un Mac avec 32 Go de RAM ou un GPU NVIDIA avec 16-24 Go de VRAM est recommandé pour une expérience fluide.
Cas d’usage concrets
- Enseignement — faire découvrir l’IA aux élèves sans compte cloud ni RGPD à gérer
- Développement — complétion de code locale, review, génération de tests
- Recherche — expérimenter avec différents modèles sans coût API
- Vie privée — analyser des documents sensibles sans les envoyer sur internet
- Hors-ligne — IA disponible même sans connexion (avion, zone blanche)
Configuration matérielle
Les modèles les plus légers (3-4B paramètres) tournent sur un ordinateur modeste avec 8 Go de RAM. Pour les modèles plus gros (70B+), un GPU avec beaucoup de VRAM est recommandé. Ollama gère automatiquement l’accélération GPU (NVIDIA, AMD, Apple Silicon).
Liens :