IA locale

RAG documentaire en entreprise : architecture, modèles, coûts en 2026

Retrieval-Augmented Generation sur votre base documentaire : architecture type, modèles d'embedding, vector store, LLM, coûts réels en PME et ETI.

CC Christophe Coquille · 02 juin 2026 · 11 min de lecture

Le RAG, l'usage IA le plus rentable en entreprise

Si on devait ne retenir qu'un seul cas d'usage IA générative à déployer en PME / ETI en 2026, ce serait probablement le RAG documentaire — Retrieval-Augmented Generation appliqué à votre base de connaissances interne.

Concrètement : un collaborateur pose une question en langage naturel à un assistant interne. L'assistant cherche les passages pertinents dans vos documents (procédures qualité, RH, contrats, FAQ produit), génère une réponse contextualisée, et cite ses sources. Pas d'hallucination, pas d'envoi de données chez OpenAI, pas de fuite.

L'architecture RAG type

Un RAG documentaire en production comprend 6 couches :

Ingestion documentaire : crawl des sources (SharePoint, Confluence, Drive, base de documents), extraction du texte, normalisation, chunking (découpage en passages de 300-800 tokens).
Modèle d'embedding : transformation de chaque chunk en vecteur (typiquement 768 ou 1024 dimensions). Modèles ouverts : multilingual-e5-large, BGE-M3, OpenAI text-embedding-3-large.
Vector store : stockage et indexation des vecteurs pour recherche par similarité. Outils : Qdrant, Weaviate, pgvector (extension PostgreSQL), Chroma.
Recherche sémantique : on encode la question, on récupère les chunks les plus similaires (typiquement top 5-10), souvent combiné avec une recherche keyword classique (hybrid search).
LLM générateur : Mistral, Llama, Mixtral en local pour générer la réponse à partir de la question + des chunks récupérés.
Garde-fous : prompts système, vérification des citations, anti-hallucination, observabilité (Langfuse, Phoenix).

Choix de modèles en 2026

Modèles d'embedding

multilingual-e5-large : excellent rapport qualité/taille, multilingue, open source.
BGE-M3 : très bon en français, supporte la dense + sparse retrieval.
OpenAI text-embedding-3 : qualité top du marché, mais coût + dépendance cloud.

LLM génératif

Mistral 7B / Llama 8B : suffit pour la majorité des cas RAG. Tient sur un GPU 24 Go.
Mixtral 8x7B : qualité supérieure, nécessite ~48 Go vRAM.
Llama 70B : haute qualité pour cas exigeants (juridique, médical), nécessite ~40-80 Go vRAM.

Vector store

Qdrant : référence open source, performant, simple à déployer.
pgvector : si vous avez déjà PostgreSQL en place, le plus pragmatique.
Weaviate : très complet, courbe d'apprentissage plus marquée.

Coûts réels pour un RAG en PME

Hardware

Serveur GPU pour LLM 7B-14B en quantization : 15-25 k€.
Serveur CPU pour embeddings + vector store : 5-10 k€.
Stockage : négligeable.

Intégration initiale (Sextant Consulting type)

POC sur 1 base documentaire : 12-25 k€ (4-6 semaines).
Production déployée avec UI : 35-80 k€ (3-4 mois).

Run annuel

Maintenance + évolutions Sextant : 15-30 k€/an.
Hosting + énergie : 5-15 k€/an.
Run interne IT : 0,2-0,5 ETP, soit 15-50 k€/an chargé.

Total

Investissement initial : 60-120 k€ pour un RAG documentaire en production sur une base de 1 000-10 000 documents, accessible à 50-500 utilisateurs internes. Run annuel : 35-95 k€/an.

Le ROI typique

Sur les déploiements RAG que nous avons accompagnés en 2025 :

Gain de temps utilisateur médian : 20-30 minutes / utilisateur / semaine (recherche d'info, rédaction documentaire, conformité procédure).
Sur 200 utilisateurs : 200 × 25 min × 48 semaines = 4 000 heures/an libérées.
Valorisé à 50 €/heure chargé moyen : 200 k€/an de productivité libérée.

Le payback est typiquement de 6-12 mois sur les déploiements RAG en interne — c'est l'un des cas d'usage IA avec le ROI le plus rapide.

Les pièges à éviter

Piège n°1 — Embarquer trop de documents au démarrage

Commencer avec 100 000 documents = qualité dégradée, mise au point impossible. La bonne approche : démarrer avec 500-2 000 documents bien choisis sur un cas d'usage précis, puis étendre.

Piège n°2 — Ne pas mesurer la qualité

Sans mesure (top-k accuracy, satisfaction utilisateur, taux d'hallucination), vous ne savez pas si le système s'améliore ou se dégrade. Observabilité dès le premier jour.

Piège n°3 — Ignorer la sécurité

Les droits d'accès doivent être respectés. Si un utilisateur n'a pas le droit de voir un document, l'assistant ne doit jamais retourner son contenu. La couche de filtrage des droits est non-négociable.

Piège n°4 — Choisir un LLM trop gros

Llama 70B est tentant mais coûte 3-5x plus en hardware qu'un Llama 8B. Pour la majorité des cas RAG, le 8B suffit. Testez systématiquement le modèle le plus petit avant de passer au plus gros.

Pour démarrer

Voir notre page IA locale & edge pour notre méthode complète, et notre guide des coûts LLM on-premise. Pour cadrer un POC RAG sur votre cas, 30 minutes en visio suffisent à évaluer le périmètre et le matériel.

Pour aller plus loin

Voir la page d'expertise Sextant sur ce sujet

Notre méthode complète, nos cas d'usage, nos partenariats outils, nos références.

Voir la page d'expertise

Autres articles Sextant

IA locale

Combien coûte un LLM on-premise pour une PME en 2026 ?

Budget réel d'un déploiement LLM local en PME : POC, production, plateforme. Coûts matériel, intégration, run. Comparaison vs API...

Lire IA locale

RGPD et IA générative : pourquoi le local devient la seule option recevable

Données personnelles dans ChatGPT, transferts hors UE, doctrines CNIL : le point sur la conformité RGPD de l'IA générative — et la...

Lire

Vous voulez creuser ce sujet sur votre cas ? 30 minutes pour démarrer.

Diagnostic gratuit Écrire