Ollama : faire tourner l’IA sur son propre ordinateur

Faire tourner des modèles d’intelligence artificielle sur son propre ordinateur, sans cloud, sans abonnement, sans envoyer ses données à personne — c’est la promesse d’Ollama. Avec plus de 166 000 étoiles sur GitHub, c’est devenu l’outil de référence pour exécuter des LLM en local.

Site officiel Ollama | Code source sur GitHub

L’IA sans le cloud

Les grands modèles de langage (LLM) comme ChatGPT ou Claude fonctionnent dans le cloud : vos requêtes transitent par des serveurs distants. Ollama propose l’inverse : tout tourne sur votre machine. Vos données restent chez vous, la connexion internet n’est même pas nécessaire une fois le modèle téléchargé, et c’est entièrement gratuit.

Installation en une commande

Sur macOS ou Linux :

curl -fsSL https://ollama.com/install.sh | sh

Sur Windows, un installeur classique est disponible. Et c’est tout. Pas de Python à configurer, pas de dépendances à gérer, pas de Docker obligatoire.

Utilisation immédiate

Lancer une conversation avec un modèle :

ollama run gemma3

Ollama télécharge le modèle automatiquement au premier lancement, puis le conserve en local. Parmi les modèles disponibles :

Modèle	Paramètres	Origine	Usage
Gemma 3	4B / 12B / 27B	Google	Généraliste, multilingue
Qwen 3.5	0.8B à 397B	Alibaba	Raisonnement, code, 201 langues
DeepSeek-R1	7B à 671B	DeepSeek	Raisonnement avancé
Llama 4	Scout / Maverick	Meta	Généraliste
Phi-4	14B	Microsoft	Compact et performant
Mistral	7B / 24B	Mistral AI	Français, européen
Code Llama	7B / 13B / 34B	Meta	Programmation
LLaVA	7B / 13B	Community	Vision (analyse d’images)

La liste complète est sur ollama.com/library — des centaines de modèles disponibles.

Focus : Qwen 3.5, le champion open source

Sorti en février 2026, Qwen 3.5 d’Alibaba est l’un des modèles les plus impressionnants disponibles sur Ollama. Son vaisseau amiral, le Qwen3.5-397B-A17B, utilise une architecture Mixture-of-Experts (MoE) : 397 milliards de paramètres au total, mais seulement 17 milliards activés par requête, ce qui le rend rapide malgré sa taille.

Points forts :

Contexte massif — 262 000 tokens nativement, extensible jusqu’à 1 million
201 langues supportées, dont le français
Vision intégrée — comprend texte et images dans le même modèle
Licence Apache 2.0 — libre d’utilisation, y compris commerciale
Versions compactes — le Qwen3.5-4B tourne sur un laptop avec 8 Go de RAM

ollama run qwen3.5

Une API REST intégrée

Ollama expose automatiquement une API REST locale sur le port 11434, compatible avec le format OpenAI. N’importe quelle application peut s’y connecter :

curl http://localhost:11434/api/chat -d '{
  "model": "gemma3",
  "messages": [{"role": "user", "content": "Explique la relativité"}],
  "stream": false
}'

Des bibliothèques officielles existent pour Python et JavaScript :

pip install ollama

from ollama import chat
response = chat(model='gemma3', messages=[
    {'role': 'user', 'content': 'Pourquoi le ciel est bleu ?'}
])
print(response.message.content)

Claude Code et OpenClaw avec des modèles locaux

Depuis janvier 2026, Ollama supporte l’API Anthropic Messages, ce qui permet de connecter directement Claude Code — l’agent terminal d’Anthropic — à n’importe quel modèle local. Concrètement, vous bénéficiez de l’interface et des outils de Claude Code, mais avec un modèle qui tourne sur votre machine. Aucun coût API, aucune donnée envoyée au cloud.

ollama launch claude

Avec OpenClaw, Ollama se transforme en assistant IA personnel accessible depuis WhatsApp, Telegram, Slack ou Discord — le tout alimenté par vos modèles locaux :

ollama launch openclaw

Autres intégrations supportées :

Codex (OpenAI) — ollama launch codex
Continue.dev, Open WebUI, Cursor
Toute application compatible avec l’API OpenAI (port 11434)

Les modèles recommandés pour le code avec Claude Code : Qwen 3.5 pour le raisonnement, GLM 4.7 Flash pour la vitesse, et Codestral pour Python. Un Mac avec 32 Go de RAM ou un GPU NVIDIA avec 16-24 Go de VRAM est recommandé pour une expérience fluide.

Cas d’usage concrets

Enseignement — faire découvrir l’IA aux élèves sans compte cloud ni RGPD à gérer
Développement — complétion de code locale, review, génération de tests
Recherche — expérimenter avec différents modèles sans coût API
Vie privée — analyser des documents sensibles sans les envoyer sur internet
Hors-ligne — IA disponible même sans connexion (avion, zone blanche)

Configuration matérielle

Les modèles les plus légers (3-4B paramètres) tournent sur un ordinateur modeste avec 8 Go de RAM. Pour les modèles plus gros (70B+), un GPU avec beaucoup de VRAM est recommandé. Ollama gère automatiquement l’accélération GPU (NVIDIA, AMD, Apple Silicon).

Liens :

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Ollama : faire tourner l’IA sur son propre ordinateur

L’IA sans le cloud

Installation en une commande

Utilisation immédiate

Focus : Qwen 3.5, le champion open source

Une API REST intégrée

Claude Code et OpenClaw avec des modèles locaux

Cas d’usage concrets

Configuration matérielle

VERHILLE Arnaud

Leave a Reply Cancel reply

Categories

Calendar

Connexion

Archives

Ollama : faire tourner l’IA sur son propre ordinateur

L’IA sans le cloud

Installation en une commande

Utilisation immédiate

Focus : Qwen 3.5, le champion open source

Une API REST intégrée

Claude Code et OpenClaw avec des modèles locaux

Cas d’usage concrets

Configuration matérielle

VERHILLE Arnaud

Leave a Reply Cancel reply

Gistlabs Tag Cloud

Categories

Calendar

Connexion

Archives