Ollama : faire tourner l’IA sur son propre ordinateur

Faire tourner des modèles d’intelligence artificielle sur son propre ordinateur, sans cloud, sans abonnement, sans envoyer ses données à personne — c’est la promesse d’Ollama. Avec plus de 166 000 étoiles sur GitHub, c’est devenu l’outil de référence pour exécuter des LLM en local.

Site officiel Ollama | Code source sur GitHub

L’IA sans le cloud

Les grands modèles de langage (LLM) comme ChatGPT ou Claude fonctionnent dans le cloud : vos requêtes transitent par des serveurs distants. Ollama propose l’inverse : tout tourne sur votre machine. Vos données restent chez vous, la connexion internet n’est même pas nécessaire une fois le modèle téléchargé, et c’est entièrement gratuit.

Installation en une commande

Sur macOS ou Linux :

curl -fsSL https://ollama.com/install.sh | sh

Sur Windows, un installeur classique est disponible. Et c’est tout. Pas de Python à configurer, pas de dépendances à gérer, pas de Docker obligatoire.

Utilisation immédiate

Lancer une conversation avec un modèle :

ollama run gemma3

Ollama télécharge le modèle automatiquement au premier lancement, puis le conserve en local. Parmi les modèles disponibles :

Modèle Paramètres Origine Usage
Gemma 3 4B / 12B / 27B Google Généraliste, multilingue
Qwen 3.5 0.8B à 397B Alibaba Raisonnement, code, 201 langues
DeepSeek-R1 7B à 671B DeepSeek Raisonnement avancé
Llama 4 Scout / Maverick Meta Généraliste
Phi-4 14B Microsoft Compact et performant
Mistral 7B / 24B Mistral AI Français, européen
Code Llama 7B / 13B / 34B Meta Programmation
LLaVA 7B / 13B Community Vision (analyse d’images)

La liste complète est sur ollama.com/library — des centaines de modèles disponibles.

Focus : Qwen 3.5, le champion open source

Sorti en février 2026, Qwen 3.5 d’Alibaba est l’un des modèles les plus impressionnants disponibles sur Ollama. Son vaisseau amiral, le Qwen3.5-397B-A17B, utilise une architecture Mixture-of-Experts (MoE) : 397 milliards de paramètres au total, mais seulement 17 milliards activés par requête, ce qui le rend rapide malgré sa taille.

Points forts :

  • Contexte massif — 262 000 tokens nativement, extensible jusqu’à 1 million
  • 201 langues supportées, dont le français
  • Vision intégrée — comprend texte et images dans le même modèle
  • Licence Apache 2.0 — libre d’utilisation, y compris commerciale
  • Versions compactes — le Qwen3.5-4B tourne sur un laptop avec 8 Go de RAM
ollama run qwen3.5

Une API REST intégrée

Ollama expose automatiquement une API REST locale sur le port 11434, compatible avec le format OpenAI. N’importe quelle application peut s’y connecter :

curl http://localhost:11434/api/chat -d '{
  "model": "gemma3",
  "messages": [{"role": "user", "content": "Explique la relativité"}],
  "stream": false
}'

Des bibliothèques officielles existent pour Python et JavaScript :

pip install ollama
from ollama import chat
response = chat(model='gemma3', messages=[
    {'role': 'user', 'content': 'Pourquoi le ciel est bleu ?'}
])
print(response.message.content)

Claude Code et OpenClaw avec des modèles locaux

Depuis janvier 2026, Ollama supporte l’API Anthropic Messages, ce qui permet de connecter directement Claude Code — l’agent terminal d’Anthropic — à n’importe quel modèle local. Concrètement, vous bénéficiez de l’interface et des outils de Claude Code, mais avec un modèle qui tourne sur votre machine. Aucun coût API, aucune donnée envoyée au cloud.

ollama launch claude

Avec OpenClaw, Ollama se transforme en assistant IA personnel accessible depuis WhatsApp, Telegram, Slack ou Discord — le tout alimenté par vos modèles locaux :

ollama launch openclaw

Autres intégrations supportées :

  • Codex (OpenAI) — ollama launch codex
  • Continue.dev, Open WebUI, Cursor
  • Toute application compatible avec l’API OpenAI (port 11434)

Les modèles recommandés pour le code avec Claude Code : Qwen 3.5 pour le raisonnement, GLM 4.7 Flash pour la vitesse, et Codestral pour Python. Un Mac avec 32 Go de RAM ou un GPU NVIDIA avec 16-24 Go de VRAM est recommandé pour une expérience fluide.

Cas d’usage concrets

  • Enseignement — faire découvrir l’IA aux élèves sans compte cloud ni RGPD à gérer
  • Développement — complétion de code locale, review, génération de tests
  • Recherche — expérimenter avec différents modèles sans coût API
  • Vie privée — analyser des documents sensibles sans les envoyer sur internet
  • Hors-ligne — IA disponible même sans connexion (avion, zone blanche)

Configuration matérielle

Les modèles les plus légers (3-4B paramètres) tournent sur un ordinateur modeste avec 8 Go de RAM. Pour les modèles plus gros (70B+), un GPU avec beaucoup de VRAM est recommandé. Ollama gère automatiquement l’accélération GPU (NVIDIA, AMD, Apple Silicon).

Liens :

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.