Coordination multi-agents : les 14 modes d'échec et comment les éviter
Le papier Cemri 2025 a recensé 14 modes d'échec récurrents dans les systèmes multi-agents. Diagnostic, et trois familles d'architecture pour s'en prémunir.
Faire collaborer plusieurs agents IA sur un même processus métier est un problème ouvert. Les frameworks se multiplient (LangGraph, CrewAI, AutoGen, MetaGPT), les approches divergent, et la production révèle des modes d'échec qui ne sont pas tous documentés. En mars 2025, un papier de Cemri et al. publié sur arXiv a fait référence en répertoriant 14 modes d'échec récurrents dans les systèmes multi-agents.
Cet article résume ces modes d'échec, propose une lecture des trois familles d'architecture du marché, et explique pourquoi l'alignement Conway est la réponse la plus solide.
Les 14 modes d'échec en synthèse
- Cascade d'erreurs : une erreur amont se propage et s'amplifie en aval, sans que personne ne la corrige.
- Perte de contexte : un agent ne sait pas ce qu'un autre agent a déjà fait, et reproduit du travail.
- Négociation infinie : deux agents itèrent sans converger, brûlant des tokens sans résultat.
- Hallucination collective : un fait inventé par un agent est repris comme acquis par les autres.
- Contradiction de rôles : deux agents prennent des décisions contradictoires sur le même objet.
- Dérive d'objectif : le système oublie le but initial et se concentre sur des sous-objectifs locaux.
- Blocage par dépendance circulaire : A attend B, B attend C, C attend A, le système se fige.
- Attribution floue : on ne sait pas quel agent a pris quelle décision, l'audit est impossible.
- Surcharge d'orchestration : l'orchestrateur central devient le goulot et ralentit tout.
- Contention sur ressource partagée : plusieurs agents écrivent le même registre sans coordination.
- Délégation excessive : un agent délègue tout aux autres et ne fait plus rien lui-même.
- Sycophantie : les agents se valident mutuellement sans esprit critique, biais collectif.
- Dérive sémantique : le sens d'une notion change progressivement entre agents, incohérence in fine.
- Effondrement de capacité : sous certains volumes, le système perd toute coordination utile.
Tous ces modes ne sont pas équiprobables. Cascade d'erreurs, perte de contexte et négociation infinie sont les trois plus fréquents en production. Hallucination collective et contradiction de rôles sont les plus dangereux quand ils surviennent.
Trois familles d'architecture, trois compromis
Sur le marché 2026, on peut classer les frameworks multi-agents en trois familles selon leur topologie de coordination.
Topologie en étoile : un orchestrateur central
Un agent superviseur pilote des agents spécialisés. C'est le modèle de LangGraph en mode supervisor et de la plupart des implémentations CrewAI. Avantage : prévisibilité forte, l'orchestrateur a la vision d'ensemble. Inconvénient : scalabilité limitée, point de défaillance unique, surcharge d'orchestration au-delà de cinq ou six agents.
Topologie en graphe : agents pairs qui s'envoient des messages
Tous les agents sont au même niveau, ils communiquent par messages selon des règles déclarées. AutoGen et certaines configurations CrewAI fonctionnent ainsi. Avantage : flexibilité, pas de goulot. Inconvénient : très exposé aux modes d'échec recensés par Cemri, en particulier la dérive sémantique et la négociation infinie.
Topologie alignée Conway : structure organisationnelle exécutable
Les agents sont structurés selon les frontières organisationnelles ou domaines du système. La communication passe par événements typés persistés. C'est l'architecture Swoft, et c'est aussi celle vers laquelle convergent les systèmes neurosymboliques d'entreprise comme FAOS. Avantages : alignement métier fort, gouvernance claire, modes d'échec drastiquement réduits. Inconvénient : nécessite une modélisation préalable du domaine, ce que ne demandent pas les frameworks plus libres.
Pourquoi Conway est la réponse la plus solide
L'alignement Conway adresse structurellement la majorité des 14 modes d'échec. La cascade d'erreurs est bornée par les bounded contexts disjoints : une erreur dans un domaine ne contamine pas les autres. La perte de contexte est éliminée par la mémoire partagée de l'Event Store. La contradiction de rôles est mécaniquement impossible parce que les bounded contexts sont disjoints. La dérive d'objectif est captée par les approval gates injectées dans les sagas.
Trois conditions techniques rendent l'alignement Conway opérationnel. Première condition : un métamodèle qui décrit les bounded contexts et leurs relations. Deuxième condition : une communication par événements typés et persistés, jamais par texte libre. Troisième condition : une orchestration des workflows longs par sagas event-sourcées, avec compensation automatique en cas d'échec partiel.
Sources et lectures complémentaires
- [1]Cemri et al., Why Do Multi-Agent LLM Systems Fail? (arXiv:2503.13657, 2025), Taxonomie MAST : 14 modes d'échec récurrents identifiés sur 1 600+ traces annotées dans 7 frameworks MAS.
- [2]Conway, How Do Committees Invent? (Datamation 14(4), 1968), Source primaire de la loi de Conway : la structure produite reflète la structure de communication de l'organisation.
- [3]Wooldridge & Jennings, Intelligent agents: theory and practice (Knowledge Engineering Review, 1995), Définition fondatrice des systèmes multi-agents et de leurs propriétés de coordination.
- [4]Ferber, Les systèmes multi-agents : vers une intelligence collective (Eyrolles, 1995), Référence francophone fondatrice sur la coordination multi-agents.
Sujets abordés
- Multi-agents
- Conway
- Coordination
- Cemri
- Architecture IA
À approfondir dans le glossaire
Comment Swoft traduit cet enjeu en logiciel
Chez Swoft, la coordination multi-agents repose sur trois principes alignés sur la loi de Conway. Voici comment ils se traduisent en garanties opérationnelles.
- 01
Bounded contexts disjoints
Chaque agent est rattaché à un bounded context du métamodèle DDD. Les contextes sont disjoints par construction : aucune contradiction de rôles possible, aucune contamination d'erreur entre domaines.
- 02
Communication par événements typés
Les agents ne se parlent jamais en texte libre. Toute communication entre agents passe par des événements typés persistés dans l'Event Store. La dérive sémantique et la négociation infinie deviennent structurellement impossibles.
- 03
Sagas event-sourcées avec compensation
Les workflows longs sont orchestrés par des sagas event-sourcées. En cas d'échec partiel, la compensation automatique restaure un état cohérent. La cascade d'erreurs est bornée, le système ne se fige jamais sur un blocage circulaire.
Logiciel sur-mesure pour le secteur saas
Voyez comment Swoft livre des applications métier pour le secteur saas : méthode, intégrations, exemples de ROI.
Voir le secteur saasPour aller plus loin sur ce sujet
IA agentique en entreprise : guide complet 2026 (avec exemples chiffrés) SaaSIA agentique en entreprise : guide complet 2026 (avec exemples chiffrés)
Tout ce qu'un dirigeant doit savoir sur l'IA agentique en 2026 : définition, différence avec l'IA générative, ROI, déploiement, exemples chiffrés réels.
Combien coûte un logiciel IA sur mesure en 2026 ? Grille de prix complète SaaSCombien coûte un logiciel IA sur mesure en 2026 ? Grille de prix complète
Le vrai prix d'un logiciel IA sur mesure en 2026, avec tableau comparatif et chiffres réels. SaaS, no-code, dev classique, vibe coding, agentic engineering.
MCP (Model Context Protocol) : le standard qui change la donne pour les agents IA en entreprise SaaSMCP (Model Context Protocol) : le standard qui change la donne pour les agents IA en entreprise
MCP devient le câble USB-C de l'IA d'entreprise. Ce qu'un dirigeant doit comprendre pour ne pas rater le virage 2026, sans entrer dans la technique.
Qu'est-ce qu'un agent IA ? Retour sur 70 ans de recherche académique SaaSQu'est-ce qu'un agent IA ? Retour sur 70 ans de recherche académique
ChatGPT n'est pas un agent au sens académique. Russell, Norvig, Wooldridge et Ferber proposent depuis 30 ans une définition exigeante que la plupart des produits 2026 ne tiennent pas. État de la question.
Continuer la lecture, SaaS
NIS2 pour les éditeurs SaaS : six mois pour passer l'audit NIS2 pour les éditeurs SaaS : six mois pour passer l'audit
Applicable depuis octobre 2024, la directive NIS2 commence à mordre en 2026. Les éditeurs SaaS classés « entité importante » font face à des exigences techniques nouvelles.
EU AI Act articles 8-15 : les SaaS IA doivent s'organiser avant août 2026 EU AI Act articles 8-15 : les SaaS IA doivent s'organiser avant août 2026
Le 2 août 2026, les obligations de transparence et de gouvernance pour les IA à haut risque entrent en application. Pour les éditeurs SaaS, c'est un chantier sous-estimé.