Aller au contenu principal
Sextant Consulting
Expertise 05 — Intelligence artificielle locale & edge

IA locale & en périphérie — vos données restent chez vous, vos coûts d'inférence aussi.

Déployer un LLM on-premise ou sur votre infrastructure edge, c'est faire tourner Llama, Mistral ou Mixtral directement sur vos serveurs, vos postes ou vos équipements terrain — sans fuite vers le cloud d'un éditeur, sans facture d'API qui explose, sans dépendance à un fournisseur unique.

Pourquoi maintenant

L'IA générative cloud atteint ses limites pour les entreprises sérieuses

Coûts d'API qui dérapent

À 1 000 utilisateurs internes générant des prompts toute la journée, la facture cloud atteint 100-300 k€/an. Le break-even avec un déploiement local est rapide.

Données sensibles exposées

Code source, contrats, données médicales, secrets industriels : vous ne voulez pas qu'ils transitent par un fournisseur tiers, même avec engagement contractuel.

Latence inacceptable

Pour les usages temps réel terrain (industrie 4.0, contrôle qualité), même 200 ms d'aller-retour API tue le cas d'usage.

Risque de blackout fournisseur

Une panne OpenAI ou Anthropic en pleine production peut bloquer un atelier ou un service client. Vos process ne devraient pas dépendre d'un acteur extérieur.

Conformité RGPD / secteur

Pharma, banque, défense, santé, secteur public : la doctrine évolue vers "pas de données traitées hors UE". Le local est souvent la seule option recevable.

Souveraineté stratégique

Dépendre exclusivement d'un acteur US pour vos modèles d'IA, c'est dépendre de leur évolution tarifaire, de leur politique de modération, de leur stabilité juridique.

Architecture type

Ce que nous déployons concrètement chez vous

Pas d'IA "magique" déposée comme une boîte noire. Une architecture explicite, documentée, maintenable par votre IT.

Modèles ouverts

Mistral 7B/Large, Llama 3.1, Mixtral 8x7B, Qwen 2.5. Sélection sur benchmark interne adapté à votre cas d'usage.

Inférence

Ollama (POC rapide), vLLM (production haute volumétrie), llama.cpp (edge contraint), Text Generation Inference (HuggingFace).

Quantization

GGUF 4-bit/5-bit pour réduire la mémoire ; AWQ ou GPTQ pour la production sur GPU. Compromis latence/qualité analysé.

RAG documentaire

LangChain ou LlamaIndex, vector store Qdrant/Chroma/pgvector, ingestion incrémentale, citations explicites des sources.

Couche API

API REST compatible OpenAI (drop-in replacement). Vos applis existantes branchent dessus sans réécriture.

Observabilité

Langfuse ou Phoenix pour tracer les prompts, mesurer la qualité, détecter les dérives. Tableaux de bord d'usage.

Cas d'usage

Là où l'IA locale crée le plus de valeur

Assistant interne RAG

Réponses sourcées sur votre documentation interne — RH, qualité, procédures, contrats. Zéro fuite vers l'extérieur.

Analyse de contrats

Comparaison de versions, extraction de clauses, détection d'écarts vs gabarit interne. Données ultra-sensibles, donc forcément local.

Contrôle qualité visuel

Détection de défauts sur ligne de production, en edge sur les caméras industrielles. Latence < 100 ms requise.

Service client niveau 1

Réponses contextualisées sur votre base de connaissances + historique client + CRM. Sans envoyer les données client à un tiers.

Aide à la prescription pharma

Synthèse documentaire, recherche d'interactions, contextualisation, dans le strict respect des contraintes de conformité ANSM.

Code et documentation

Génération + revue, sur le code source de votre produit. Aucun éditeur tiers ne reçoit votre propriété intellectuelle.

Notre méthode

De l'audit à la production en 4 phases

01

Audit usages IA

Cartographie de vos usages actuels — coûts d'API, données exposées, latences attendues, contraintes conformité.

02

Sélection modèles

Benchmark interne sur vos données réelles. Choix modèle + quantization + arbitrage local/edge/cloud hybride.

03

Déploiement

Installation sur votre infrastructure, configuration RAG, intégration API, sécurité, monitoring.

04

Transfert + run

Formation des équipes IT, documentation opérationnelle, support dégressif. Vous maîtrisez la plateforme à terme.

FAQ

Vos questions sur l'IA locale

Qu'est-ce qu'une IA locale ou on-premise ?
Une IA locale fait tourner les modèles d'intelligence artificielle directement sur vos machines — serveurs internes, stations de travail ou équipements terrain — plutôt que dans le cloud d'un fournisseur. Vos données ne sortent pas de votre infrastructure, les traitements s'exécutent au plus près de l'usage.
Quels modèles utiliser en local ?
Pour démarrer, Mistral 7B (français natif, licence libre, léger) ou Llama 3 (large écosystème). Pour plus de précision, Mistral Large, Mixtral 8x7B ou Llama 3.1 70B. Le bon choix dépend de votre matériel disponible, du cas d'usage (chat interne, RAG documentaire, classification…) et des contraintes de latence.
Quel matériel pour héberger un LLM en local ?
Un LLM 7B en quantization 4-bit tourne sur un poste avec 16 Go RAM + GPU NVIDIA RTX 3090/4090. Un 70B en production nécessite un serveur avec 2-4 GPU A100/H100 (50-150 k€ d'investissement). Pour la majorité des PME, un déploiement hybride (modèle 7-14B en local + 70B en cloud pour les cas complexes) offre le meilleur rapport coût/performance.
Combien coûte un projet d'IA locale pour une PME ?
Trois enveloppes : (1) POC sur un cas d'usage isolé — 8 à 20 k€ ; (2) déploiement production avec RAG documentaire — 30 à 80 k€ + matériel ; (3) plateforme complète multi-cas d'usage avec gouvernance — 80 à 250 k€ + matériel. Le retour sur investissement est typique en 12-18 mois par évitement de coûts d'API cloud.
C'est compatible RGPD ?
Oui — c'est même un des arguments majeurs. Les données ne quittent pas votre périmètre, vous gardez la traçabilité complète des traitements, vous évitez les transferts hors UE. Pour les secteurs régulés (pharma, défense, santé), c'est souvent la seule option recevable.
Quelle différence avec ChatGPT Enterprise ou Mistral Le Chat ?
ChatGPT Enterprise et Mistral Le Chat restent des services cloud — vos données transitent et sont traitées chez le fournisseur, même avec engagement de non-réutilisation. L'IA locale signifie que les modèles s'exécutent sur votre infrastructure, sans envoi externe. Différence essentielle pour les données sensibles et la souveraineté.

Reprenez la main sur vos modèles et vos données.