IA locale

TCO d'une IA locale sur 3 ans : analyse détaillée pour PME et ETI

Coût total de possession d'une plateforme IA locale sur 3 ans : matériel, intégration, énergie, ETP run, évolutions. Comparaison vs API cloud.

CC Christophe Coquille · 02 juin 2026 · 10 min de lecture

Pourquoi un calcul TCO sur 3 ans

Quand un DSI ou DAF doit arbitrer entre IA cloud (OpenAI, Anthropic API) et IA locale (LLM on-premise), raisonner sur les coûts de la première année est insuffisant. Le local représente un investissement initial important mais dont les coûts récurrents sont stables et prédictibles. Le cloud paraît bon marché au début mais ses coûts montent avec l'usage.

Cet article décompose le TCO complet sur 3 ans d'une plateforme IA locale en PME / ETI, basé sur les déploiements réels Sextant Consulting.

Hypothèses du scénario type

PME mid-market 150 personnes, cas d'usage RAG documentaire :

250 utilisateurs internes actifs.
~3 000 requêtes/jour en moyenne.
Base documentaire ~5 000 documents internes.
Modèle cible : Llama 8B ou Mistral 7B quantizé.
Réplica + sauvegardes pour PRA.

Année 1 — Investissement initial

Matériel

Serveur GPU principal (1×RTX 4090 ou L40S) : 18 k€
Serveur GPU secondaire (PRA) : 18 k€
Serveur CPU pour embeddings + vector store : 8 k€
Stockage NAS sauvegarde : 4 k€
Onduleur + switchs + câblage : 3 k€
Sous-total matériel : 51 k€

Intégration Sextant

Cadrage + POC (4-6 semaines) : 20 k€
Industrialisation (3-4 mois) : 60 k€
Mise en service + formation : 10 k€
Sous-total intégration : 90 k€

Logiciel / souscriptions année 1

Modèles ouverts (Llama, Mistral) : 0 €
Ollama, vLLM, Qdrant, Langfuse : 0 € (open source self-hosted)
Monitoring / observabilité (Grafana, Prometheus) : 0 €
Sous-total logiciel : 0 €

Run interne année 1

0,5 ETP IT (admin + monitoring) chargé 70 k€/an × 0,5 : 35 k€
Énergie + hébergement (data center on-prem) : 6 k€
Sous-total run : 41 k€

Total année 1 — 182 k€

Année 2 — Run et évolutions

Run interne (0,3 ETP IT) : 21 k€
Énergie + hébergement : 6 k€
Évolutions Sextant (forfait 25 k€/an) : 25 k€
Amortissement matériel an 2 (sur 4 ans) : 13 k€
Total année 2 — 65 k€

Année 3 — Run stabilisé

Run interne (0,2 ETP IT) : 14 k€
Énergie + hébergement : 6 k€
Évolutions Sextant (forfait 20 k€/an) : 20 k€
Amortissement matériel an 3 : 13 k€
Total année 3 — 53 k€

TCO 3 ans IA locale — 300 k€

Année	Investissement	Run + évolutions	Total
Année 1	141 k€	41 k€	182 k€
Année 2	—	65 k€	65 k€
Année 3	—	53 k€	53 k€
TCO total 3 ans	141 k€	159 k€	300 k€

Soit ~100 k€ moyen / an avec coûts décroissants. Pour un parc de 250 utilisateurs, ça représente 400 €/utilisateur/an.

Comparaison cloud (OpenAI API)

Pour le même usage (3 000 requêtes/jour × 250 utilisateurs × 220 jours ouvrés × 5 000 tokens) :

Si modèle GPT-4o-mini (10 €/M tokens) : ~16 k€/an
Si modèle GPT-4 (60 €/M tokens) : ~96 k€/an
+ ChatGPT Enterprise licences (30 €/user/mois) : ~90 k€/an
+ Données qui sortent chez OpenAI (souveraineté nulle)

Sur 3 ans, le coût API "pur" (mini) = 48 k€, le coût Enterprise complet = 558 k€. Soit l'IA locale gagne dès qu'on s'approche du Premium Enterprise.

Quand le local devient économique

> 100 utilisateurs internes actifs : le break-even avec Enterprise approche.
> 500 utilisateurs : le local est franchement plus économique.
Modèle frontier (GPT-4 equivalent) requis : payer 60 €/M tokens revient cher vite.
Souveraineté non-négociable : le coût n'est pas le critère, le local s'impose.

Le vrai gain n'est pas que financier

Au-delà du TCO, l'IA locale apporte :

Prédictibilité : facture stable, pas de surprise.
Souveraineté : données qui ne sortent pas.
Latence : 50-100 ms vs 300-800 ms en cloud.
Pas de blackout fournisseur : indépendance d'exécution.
Compétences internes : votre équipe développe du savoir-faire.

Pour démarrer

Voir notre page IA locale & edge. Pour cadrer un TCO sur votre cas spécifique (taille, usages, infrastructure) — 30 minutes en visio.

Pour aller plus loin

Voir la page d'expertise Sextant sur ce sujet

Notre méthode complète, nos cas d'usage, nos partenariats outils, nos références.

Voir la page d'expertise

Autres articles Sextant

IA locale

Combien coûte un LLM on-premise pour une PME en 2026 ?

Budget réel d'un déploiement LLM local en PME : POC, production, plateforme. Coûts matériel, intégration, run. Comparaison vs API...

Lire IA locale

RAG documentaire en entreprise : architecture, modèles, coûts en 2026

Retrieval-Augmented Generation sur votre base documentaire : architecture type, modèles d'embedding, vector store, LLM, coûts réel...

Lire

Vous voulez creuser ce sujet sur votre cas ? 30 minutes pour démarrer.

Diagnostic gratuit Écrire