Accueil/LLM en Local — Ollama

Ollama · Llama 3 · Mistral · 2026

LLM en Local :
Ollama, Llama 3 & Mistral.

Faites tourner des LLM open-source sur votre machine ou serveur. Zéro cloud, zéro coût par token, données 100% privées. Compatible avec l'API OpenAI — branchez vos apps existantes sans modifier le code.

Formation IA Locale — 49€Voir le catalogue

Ce que vous allez maîtriser

Installer Ollama et déployer Llama 3, Mistral ou Gemma en moins de 10 minutes

Choisir le bon modèle selon vos ressources matérielles et vos besoins

Exposer une API locale compatible OpenAI pour vos applications

Benchmarker la vitesse d'inférence selon taille du modèle et quantization

Déployer Ollama sur un VPS ou serveur dédié pour la production

Intégrer un LLM local dans un workflow Make, n8n ou LangChain

Installation

Démarrer avec Ollama en 4 étapes

01

Installer Ollama

curl -fsSL https://ollama.com/install.sh | sh

Une commande sur macOS, Linux ou Windows (WSL). Ollama est disponible aussi en .dmg et .exe.

02

Télécharger un modèle

ollama pull llama3.1

Ollama télécharge le modèle quantisé (Q4 par défaut). Llama 3.1 8B = 5 Go environ.

03

Lancer le modèle

ollama run llama3.1

Démarrage en mode interactif. Premier lancement plus lent (chargement en RAM/VRAM).

04

API REST locale

curl http://localhost:11434/api/chat -d '{"model":"llama3.1","messages":[{"role":"user","content":"Bonjour"}]}'

L'API REST d'Ollama est compatible avec le format OpenAI. Branchez vos apps existantes sans modifier le code.

Comparatif modèles

Quel modèle choisir avec Ollama ?

Meta

Llama 3.1 8B

8B params · 5 Go

Polyvalent
Bon en français
Code
Raisonnement

ollama run llama3.1

RAM : 8 Go minVitesse : Rapide

Meilleur pour

Usage général, premier choix

Mistral AI

Mistral 7B

7B params · 4.1 Go

Très rapide
Léger
Instructions
Efficient

ollama run mistral

RAM : 8 Go minVitesse : Très rapide

Meilleur pour

Machines modestes, temps réel

Google

Gemma 2 9B

9B params · 5.4 Go

Multilingual
Instruction following
Sécurisé
Compact

ollama run gemma2

RAM : 8 Go minVitesse : Rapide

Meilleur pour

Multilingue, conformité

DeepSeek

DeepSeek Coder 6.7B

6.7B params · 3.8 Go

Code spécialisé
Python/JS/Go
Complétion
Debug

ollama run deepseek-coder

RAM : 8 Go minVitesse : Très rapide

Meilleur pour

Dev, autocompletion code

Meta

Llama 3.1 70B

70B params · 40 Go

Très performant
Raisonnement complexe
Long contexte
Proche GPT-4

ollama run llama3.1:70b

RAM : 48 Go RAM / GPUVitesse : Lent sans GPU

Meilleur pour

Haute performance, serveur dédié

Microsoft

Phi-3 Mini

3.8B params · 2.2 Go

Ultra léger
Mobile/Edge
Rapide
Efficient

ollama run phi3:mini

RAM : 4 Go minVitesse : Ultra-rapide

Meilleur pour

Raspberry Pi, edge computing

FAQ

Questions fréquentes

Qu'est-ce qu'Ollama et pourquoi l'utiliser ?

Ollama est un outil open-source qui permet d'installer et d'exécuter des LLM (Llama 3, Mistral, Gemma, Phi-3) en local en une commande. Avantages : confidentialité totale des données, zéro coût par token, fonctionnement offline, latence faible sur machine locale. Il expose une API compatible OpenAI, ce qui permet de brancher les mêmes applications sans modifier le code.

Quelle configuration matérielle faut-il pour faire tourner un LLM en local ?

Pour un modèle 7B (Mistral 7B, Llama 3.1 8B) : 8 Go de RAM minimum, 16 Go recommandé. Un GPU n'est pas obligatoire mais accélère l'inférence de 5 à 20x. Pour un modèle 13B : 16 Go RAM. Pour un 70B : GPU avec 48 Go VRAM ou 64 Go RAM (lent). La quantization Q4 réduit les besoins mémoire de 50% avec une perte de qualité de 2 à 5% seulement.

Llama 3 vs Mistral vs Gemma : lequel choisir ?

Llama 3.1 8B est le meilleur modèle polyvalent en 2026 : excellent rapport performance/ressources, bon en français, code et raisonnement. Mistral 7B est plus rapide et léger, idéal pour les cas d'usage simples ou les machines moins puissantes. Gemma 2 (Google) excelle en multilingual et en tâches d'instruction following. Pour le code spécifiquement, DeepSeek Coder ou Qwen2.5-Coder sont supérieurs.

Peut-on intégrer Ollama dans une application en production ?

Oui. Ollama expose une API REST locale compatible avec le format OpenAI, ce qui permet de l'intégrer dans n'importe quelle application qui utilise déjà l'API OpenAI en changeant juste l'URL de base. Pour la production sur serveur, on déploie Ollama sur un VPS ou un serveur dédié et on l'expose derrière un reverse proxy (Nginx) avec authentification.

Thèmes liés

Prompt Engineering Agent IA Autonome Automatisation IA Blog IA

Passez à la pratique

Votre premier LLM en local en 10 minutes.

Installation, configuration, API locale — applicable dès aujourd'hui.

Formation IA Locale — 49€

Démarrer avec Ollama en 4 étapes

01

Installer Ollama

curl -fsSL https://ollama.com/install.sh | sh

Une commande sur macOS, Linux ou Windows (WSL). Ollama est disponible aussi en .dmg et .exe.

02

Télécharger un modèle

ollama pull llama3.1

Ollama télécharge le modèle quantisé (Q4 par défaut). Llama 3.1 8B = 5 Go environ.

03

Lancer le modèle

ollama run llama3.1

Démarrage en mode interactif. Premier lancement plus lent (chargement en RAM/VRAM).

04

API REST locale

curl http://localhost:11434/api/chat -d '{"model":"llama3.1","messages":[{"role":"user","content":"Bonjour"}]}'

L'API REST d'Ollama est compatible avec le format OpenAI. Branchez vos apps existantes sans modifier le code.

Quel modèle choisir avec Ollama ?

Meta

Llama 3.1 8B

8B params · 5 Go

Polyvalent
Bon en français
Code
Raisonnement

ollama run llama3.1

RAM : 8 Go minVitesse : Rapide

Meilleur pour

Usage général, premier choix

Mistral AI

Mistral 7B

7B params · 4.1 Go

Très rapide
Léger
Instructions
Efficient

ollama run mistral

RAM : 8 Go minVitesse : Très rapide

Meilleur pour

Machines modestes, temps réel

Google

Gemma 2 9B

9B params · 5.4 Go

Multilingual
Instruction following
Sécurisé
Compact

ollama run gemma2

RAM : 8 Go minVitesse : Rapide

Meilleur pour

Multilingue, conformité

DeepSeek

DeepSeek Coder 6.7B

6.7B params · 3.8 Go

Code spécialisé
Python/JS/Go
Complétion
Debug

ollama run deepseek-coder

RAM : 8 Go minVitesse : Très rapide

Meilleur pour

Dev, autocompletion code

Meta

Llama 3.1 70B

70B params · 40 Go

Très performant
Raisonnement complexe
Long contexte
Proche GPT-4

ollama run llama3.1:70b

RAM : 48 Go RAM / GPUVitesse : Lent sans GPU

Meilleur pour

Haute performance, serveur dédié

Microsoft

Phi-3 Mini

3.8B params · 2.2 Go

Ultra léger
Mobile/Edge
Rapide
Efficient

ollama run phi3:mini

RAM : 4 Go minVitesse : Ultra-rapide

Meilleur pour

Raspberry Pi, edge computing

Questions fréquentes

LLM en Local :Ollama, Llama 3 & Mistral.

Démarrer avec Ollama en 4 étapes

Installer Ollama

Télécharger un modèle

Lancer le modèle

API REST locale

Quel modèle choisir avec Ollama ?

Llama 3.1 8B

Mistral 7B

Gemma 2 9B

DeepSeek Coder 6.7B

Llama 3.1 70B

Phi-3 Mini

Questions fréquentes

Qu'est-ce qu'Ollama et pourquoi l'utiliser ?

Quelle configuration matérielle faut-il pour faire tourner un LLM en local ?

Llama 3 vs Mistral vs Gemma : lequel choisir ?

Peut-on intégrer Ollama dans une application en production ?

Votre premier LLM en local en 10 minutes.

LLM en Local :Ollama, Llama 3 & Mistral.

Démarrer avec Ollama en 4 étapes

Installer Ollama

Télécharger un modèle

Lancer le modèle

API REST locale

Quel modèle choisir avec Ollama ?

Llama 3.1 8B

Mistral 7B

Gemma 2 9B

DeepSeek Coder 6.7B

Llama 3.1 70B

Phi-3 Mini

Questions fréquentes

Qu'est-ce qu'Ollama et pourquoi l'utiliser ?

Quelle configuration matérielle faut-il pour faire tourner un LLM en local ?

Llama 3 vs Mistral vs Gemma : lequel choisir ?

Peut-on intégrer Ollama dans une application en production ?

Votre premier LLM en local en 10 minutes.

LLM en Local :
Ollama, Llama 3 & Mistral.

LLM en Local :
Ollama, Llama 3 & Mistral.