RAG documentaire en entreprise : architecture, modèles, coûts en 2026
Retrieval-Augmented Generation sur votre base documentaire : architecture type, modèles d'embedding, vector store, LLM, coûts réels en PME et ETI.
Le RAG, l'usage IA le plus rentable en entreprise
Si on devait ne retenir qu'un seul cas d'usage IA générative à déployer en PME / ETI en 2026, ce serait probablement le RAG documentaire — Retrieval-Augmented Generation appliqué à votre base de connaissances interne.
Concrètement : un collaborateur pose une question en langage naturel à un assistant interne. L'assistant cherche les passages pertinents dans vos documents (procédures qualité, RH, contrats, FAQ produit), génère une réponse contextualisée, et cite ses sources. Pas d'hallucination, pas d'envoi de données chez OpenAI, pas de fuite.
L'architecture RAG type
Un RAG documentaire en production comprend 6 couches :
- Ingestion documentaire : crawl des sources (SharePoint, Confluence, Drive, base de documents), extraction du texte, normalisation, chunking (découpage en passages de 300-800 tokens).
- Modèle d'embedding : transformation de chaque chunk en vecteur (typiquement 768 ou 1024 dimensions). Modèles ouverts : multilingual-e5-large, BGE-M3, OpenAI text-embedding-3-large.
- Vector store : stockage et indexation des vecteurs pour recherche par similarité. Outils : Qdrant, Weaviate, pgvector (extension PostgreSQL), Chroma.
- Recherche sémantique : on encode la question, on récupère les chunks les plus similaires (typiquement top 5-10), souvent combiné avec une recherche keyword classique (hybrid search).
- LLM générateur : Mistral, Llama, Mixtral en local pour générer la réponse à partir de la question + des chunks récupérés.
- Garde-fous : prompts système, vérification des citations, anti-hallucination, observabilité (Langfuse, Phoenix).
Choix de modèles en 2026
Modèles d'embedding
- multilingual-e5-large : excellent rapport qualité/taille, multilingue, open source.
- BGE-M3 : très bon en français, supporte la dense + sparse retrieval.
- OpenAI text-embedding-3 : qualité top du marché, mais coût + dépendance cloud.
LLM génératif
- Mistral 7B / Llama 8B : suffit pour la majorité des cas RAG. Tient sur un GPU 24 Go.
- Mixtral 8x7B : qualité supérieure, nécessite ~48 Go vRAM.
- Llama 70B : haute qualité pour cas exigeants (juridique, médical), nécessite ~40-80 Go vRAM.
Vector store
- Qdrant : référence open source, performant, simple à déployer.
- pgvector : si vous avez déjà PostgreSQL en place, le plus pragmatique.
- Weaviate : très complet, courbe d'apprentissage plus marquée.
Coûts réels pour un RAG en PME
Hardware
- Serveur GPU pour LLM 7B-14B en quantization : 15-25 k€.
- Serveur CPU pour embeddings + vector store : 5-10 k€.
- Stockage : négligeable.
Intégration initiale (Sextant Consulting type)
- POC sur 1 base documentaire : 12-25 k€ (4-6 semaines).
- Production déployée avec UI : 35-80 k€ (3-4 mois).
Run annuel
- Maintenance + évolutions Sextant : 15-30 k€/an.
- Hosting + énergie : 5-15 k€/an.
- Run interne IT : 0,2-0,5 ETP, soit 15-50 k€/an chargé.
Total
Investissement initial : 60-120 k€ pour un RAG documentaire en production sur une base de 1 000-10 000 documents, accessible à 50-500 utilisateurs internes. Run annuel : 35-95 k€/an.
Le ROI typique
Sur les déploiements RAG que nous avons accompagnés en 2025 :
- Gain de temps utilisateur médian : 20-30 minutes / utilisateur / semaine (recherche d'info, rédaction documentaire, conformité procédure).
- Sur 200 utilisateurs : 200 × 25 min × 48 semaines = 4 000 heures/an libérées.
- Valorisé à 50 €/heure chargé moyen : 200 k€/an de productivité libérée.
Le payback est typiquement de 6-12 mois sur les déploiements RAG en interne — c'est l'un des cas d'usage IA avec le ROI le plus rapide.
Les pièges à éviter
Piège n°1 — Embarquer trop de documents au démarrage
Commencer avec 100 000 documents = qualité dégradée, mise au point impossible. La bonne approche : démarrer avec 500-2 000 documents bien choisis sur un cas d'usage précis, puis étendre.
Piège n°2 — Ne pas mesurer la qualité
Sans mesure (top-k accuracy, satisfaction utilisateur, taux d'hallucination), vous ne savez pas si le système s'améliore ou se dégrade. Observabilité dès le premier jour.
Piège n°3 — Ignorer la sécurité
Les droits d'accès doivent être respectés. Si un utilisateur n'a pas le droit de voir un document, l'assistant ne doit jamais retourner son contenu. La couche de filtrage des droits est non-négociable.
Piège n°4 — Choisir un LLM trop gros
Llama 70B est tentant mais coûte 3-5x plus en hardware qu'un Llama 8B. Pour la majorité des cas RAG, le 8B suffit. Testez systématiquement le modèle le plus petit avant de passer au plus gros.
Pour démarrer
Voir notre page IA locale & edge pour notre méthode complète, et notre guide des coûts LLM on-premise. Pour cadrer un POC RAG sur votre cas, 30 minutes en visio suffisent à évaluer le périmètre et le matériel.
Voir la page d'expertise Sextant sur ce sujet
Notre méthode complète, nos cas d'usage, nos partenariats outils, nos références.
Voir la page d'expertiseAutres articles Sextant
Combien coûte un LLM on-premise pour une PME en 2026 ?
Budget réel d'un déploiement LLM local en PME : POC, production, plateforme. Coûts matériel, intégration, run. Comparaison vs API...
Lire IA localeRGPD et IA générative : pourquoi le local devient la seule option recevable
Données personnelles dans ChatGPT, transferts hors UE, doctrines CNIL : le point sur la conformité RGPD de l'IA générative — et la...
Lire