Aller au contenu principal
SaaS

Coordination multi-agents : les 14 modes d'échec et comment les éviter

Le papier Cemri 2025 a recensé 14 modes d'échec récurrents dans les systèmes multi-agents. Diagnostic, et trois familles d'architecture pour s'en prémunir.

Équipe SwoftPôle veille IA & systèmes agentiques
Réseau de plusieurs agents en coordination avec points de défaillance identifiés

Faire collaborer plusieurs agents IA sur un même processus métier est un problème ouvert. Les frameworks se multiplient (LangGraph, CrewAI, AutoGen, MetaGPT), les approches divergent, et la production révèle des modes d'échec qui ne sont pas tous documentés. En mars 2025, un papier de Cemri et al. publié sur arXiv a fait référence en répertoriant 14 modes d'échec récurrents dans les systèmes multi-agents.

Cet article résume ces modes d'échec, propose une lecture des trois familles d'architecture du marché, et explique pourquoi l'alignement Conway est la réponse la plus solide.

Les 14 modes d'échec en synthèse

  • Cascade d'erreurs : une erreur amont se propage et s'amplifie en aval, sans que personne ne la corrige.
  • Perte de contexte : un agent ne sait pas ce qu'un autre agent a déjà fait, et reproduit du travail.
  • Négociation infinie : deux agents itèrent sans converger, brûlant des tokens sans résultat.
  • Hallucination collective : un fait inventé par un agent est repris comme acquis par les autres.
  • Contradiction de rôles : deux agents prennent des décisions contradictoires sur le même objet.
  • Dérive d'objectif : le système oublie le but initial et se concentre sur des sous-objectifs locaux.
  • Blocage par dépendance circulaire : A attend B, B attend C, C attend A, le système se fige.
  • Attribution floue : on ne sait pas quel agent a pris quelle décision, l'audit est impossible.
  • Surcharge d'orchestration : l'orchestrateur central devient le goulot et ralentit tout.
  • Contention sur ressource partagée : plusieurs agents écrivent le même registre sans coordination.
  • Délégation excessive : un agent délègue tout aux autres et ne fait plus rien lui-même.
  • Sycophantie : les agents se valident mutuellement sans esprit critique, biais collectif.
  • Dérive sémantique : le sens d'une notion change progressivement entre agents, incohérence in fine.
  • Effondrement de capacité : sous certains volumes, le système perd toute coordination utile.

Tous ces modes ne sont pas équiprobables. Cascade d'erreurs, perte de contexte et négociation infinie sont les trois plus fréquents en production. Hallucination collective et contradiction de rôles sont les plus dangereux quand ils surviennent.

Trois familles d'architecture, trois compromis

Sur le marché 2026, on peut classer les frameworks multi-agents en trois familles selon leur topologie de coordination.

Topologie en étoile : un orchestrateur central

Un agent superviseur pilote des agents spécialisés. C'est le modèle de LangGraph en mode supervisor et de la plupart des implémentations CrewAI. Avantage : prévisibilité forte, l'orchestrateur a la vision d'ensemble. Inconvénient : scalabilité limitée, point de défaillance unique, surcharge d'orchestration au-delà de cinq ou six agents.

Topologie en graphe : agents pairs qui s'envoient des messages

Tous les agents sont au même niveau, ils communiquent par messages selon des règles déclarées. AutoGen et certaines configurations CrewAI fonctionnent ainsi. Avantage : flexibilité, pas de goulot. Inconvénient : très exposé aux modes d'échec recensés par Cemri, en particulier la dérive sémantique et la négociation infinie.

Topologie alignée Conway : structure organisationnelle exécutable

Les agents sont structurés selon les frontières organisationnelles ou domaines du système. La communication passe par événements typés persistés. C'est l'architecture Swoft, et c'est aussi celle vers laquelle convergent les systèmes neurosymboliques d'entreprise comme FAOS. Avantages : alignement métier fort, gouvernance claire, modes d'échec drastiquement réduits. Inconvénient : nécessite une modélisation préalable du domaine, ce que ne demandent pas les frameworks plus libres.

Pourquoi Conway est la réponse la plus solide

L'alignement Conway adresse structurellement la majorité des 14 modes d'échec. La cascade d'erreurs est bornée par les bounded contexts disjoints : une erreur dans un domaine ne contamine pas les autres. La perte de contexte est éliminée par la mémoire partagée de l'Event Store. La contradiction de rôles est mécaniquement impossible parce que les bounded contexts sont disjoints. La dérive d'objectif est captée par les approval gates injectées dans les sagas.

Trois conditions techniques rendent l'alignement Conway opérationnel. Première condition : un métamodèle qui décrit les bounded contexts et leurs relations. Deuxième condition : une communication par événements typés et persistés, jamais par texte libre. Troisième condition : une orchestration des workflows longs par sagas event-sourcées, avec compensation automatique en cas d'échec partiel.

Sources et lectures complémentaires

  1. [1]Cemri et al., Why Do Multi-Agent LLM Systems Fail? (arXiv:2503.13657, 2025), Taxonomie MAST : 14 modes d'échec récurrents identifiés sur 1 600+ traces annotées dans 7 frameworks MAS.
  2. [2]Conway, How Do Committees Invent? (Datamation 14(4), 1968), Source primaire de la loi de Conway : la structure produite reflète la structure de communication de l'organisation.
  3. [3]Wooldridge & Jennings, Intelligent agents: theory and practice (Knowledge Engineering Review, 1995), Définition fondatrice des systèmes multi-agents et de leurs propriétés de coordination.
  4. [4]Ferber, Les systèmes multi-agents : vers une intelligence collective (Eyrolles, 1995), Référence francophone fondatrice sur la coordination multi-agents.

Sujets abordés

  • Multi-agents
  • Conway
  • Coordination
  • Cemri
  • Architecture IA
Traduction technologique

Comment Swoft traduit cet enjeu en logiciel

Chez Swoft, la coordination multi-agents repose sur trois principes alignés sur la loi de Conway. Voici comment ils se traduisent en garanties opérationnelles.

  1. 01

    Bounded contexts disjoints

    Chaque agent est rattaché à un bounded context du métamodèle DDD. Les contextes sont disjoints par construction : aucune contradiction de rôles possible, aucune contamination d'erreur entre domaines.

  2. 02

    Communication par événements typés

    Les agents ne se parlent jamais en texte libre. Toute communication entre agents passe par des événements typés persistés dans l'Event Store. La dérive sémantique et la négociation infinie deviennent structurellement impossibles.

  3. 03

    Sagas event-sourcées avec compensation

    Les workflows longs sont orchestrés par des sagas event-sourcées. En cas d'échec partiel, la compensation automatique restaure un état cohérent. La cascade d'erreurs est bornée, le système ne se fige jamais sur un blocage circulaire.

Solution sectorielle

Logiciel sur-mesure pour le secteur saas

Voyez comment Swoft livre des applications métier pour le secteur saas : méthode, intégrations, exemples de ROI.

Voir le secteur saas
Proximité éditoriale

Pour aller plus loin sur ce sujet

Même secteur

Continuer la lecture, SaaS

  • NIS2 pour les éditeurs SaaS : six mois pour passer l'audit
    Salle serveur d'un éditeur SaaS avec consoles de supervision sécurité

    NIS2 pour les éditeurs SaaS : six mois pour passer l'audit

    Applicable depuis octobre 2024, la directive NIS2 commence à mordre en 2026. Les éditeurs SaaS classés « entité importante » font face à des exigences techniques nouvelles.