Distinguer des pathologies similaires

caractéristique maladi de Wengener

La présence d’ANCA (anticorps antineutrophiles cytoplasmiques) est une caractéristique de la  maladie de Wegener.

La maladie de Wegener et la polyangéite microscopique sont deux maladies auto-immunes rares qui présentent des symptômes similaires les rendant difficilement différentiables. Afin de faciliter leur diagnostic, on cherche des critères permettant de mettre les patients dans des groupes correspondant à ces différentes pathologies. Pour cela, une méthode statistique de classification a été mise au point. Celle-ci a abouti à une partition en 5 groupes cliniquement différents de ces patients. Est-ce un artefact dû à un choix malheureux de la méthode de classification choisie ?

Une classification est une procédure qui amène à faire des groupes d’individus (ici de patients) qui possèdent des caractéristiques communes (symptômes similaires). Cette classification cherche à satisfaire deux objectifs :
– obtenir des groupes les plus homogènes possible, c’est-à-dire que les individus d’un même groupe se ressemblent beaucoup.
– obtenir des groupes aussi distincts que possible les uns des autres.

Une classification aboutit alors à une partition des individus : chaque individu est affecté à un groupe, et un seul. Il existe de très nombreuses méthodes de classification qui se distinguent par la façon dont on considère que deux individus se ressemblent (choix d’une mesure de similarité) et par l’algorithme mis en œuvre pour trouver une partition optimale.

Pour choisir entre plusieurs résultats de classification il faut comparer leurs performances au regard du problème étudié. Une bonne partition est une partition ayant :
–  un sens clinique, c’est-à-dire qui soit facilement interprétable en termes de symptômes observés chez les patients.
–  un sens statistique, c’est-à-dire qui assure une bonne qualité des regroupements effectués au sens de la mesure de similarité choisie. Celle-ci se quantifie à l’aide de plusieurs critères statistiques.

Dans une première étape, on recherche de bonnes partitions au sens de la performance statistique. Quatre grands types de méthodes de classification sont testés. Pour chacun d’entre eux on obtient plusieurs partitions, selon les options d’implémentation choisies. Au final, pour l’ensemble des méthodes, une cinquantaine de partitions ayant un sens statistique pertinent sont retenues.

Il parait fastidieux de les analyser une à une cliniquement : on cherche donc à regrouper ces partitions. En quelque sorte, il faut faire une classification de classifications ! Chaque groupe obtenu doit contenir les partitions classant les patients de la même façon ; ces groupes se distinguent visuellement sur la heatmap (carte de chaleur) ci-dessous.

critere de bonne classification

Heatmap (carte de chaleur) des partitions.

Les partitions sont numérotées de 1 à 54, en abscisses et en ordonnées. Si deux partitions sont proches, leur intersection est de couleur rouge : elles classent les individus de façon similaire. Inversement, plus la couleur est claire, plus les partitions regroupent les individus de manière différente. Sur la diagonale, on a la même partition en abscisse et en ordonnée, il est donc normal que le carré soit rouge vif !

On distingue trois groupes de partitions. Les numéros 1 et 3 sont homogènes, ils regroupent des partitions classant les individus de la même façon. En revanche, les partitions sont plutôt hétérogènes dans le groupe numéro 2 et n’ont pas d’interprétation clinique pertinente. Dans une deuxième étape, on va choisir une partition en fonction de son interprétation clinique dans un des deux groupes homogènes. Les partitions du groupe 1 ont un meilleur sens clinique, c’est-à-dire qu’elles arrivent à distinguer les patients à partir d’un plus grand nombre de symptômes. On va conserver finalement la partition ayant le meilleur indice de pertinence statistique dans ce groupe. Cette partition différencie les patients en 5 groupes dont voici les caractéristiques :

Determination de la maladie.

Caractéristiques des groupes de la partition finalement conservée.

Un groupe se caractérise par la présence fréquente de symptômes (organes colorés en rouge) et par leur absence fréquente (organes colorés en bleu). Les PR3-ANCA sont des auto-anticorps. Ce résultat corrobore donc l’existence de 5 pathologies plutôt que de 2 maladies distinctes.

Brève rédigée par Emmanuelle Besse, Damien Chimits, Eva-Maria Huessler et Virginie Stanislas (ENSAI) d’après leurs travaux de  projet de 2ème année d’ingénieur.

Pour en savoir plus :

  • Mahr A., Katsahian S., Varet H., Guillevin L., Hagen C., Höglund P., Merkel P., Rasmussen N., Westman K., Jayne D.(2012), « Revisiting the Classification of Clinical Phenotypes of Anti-Neutrophil Cytoplasmic Antibody-Associated Vasculitis : a Cluster Analysis », Annals of the Rheumatic Diseases.

Crédits images : Wikimedia Commons, ENSAI

Leave a Reply

Your email address will not be published. Required fields are marked *

*