Qu’est-ce que la CAH ?
La Classification Ascendante Hiérarchique (CAH) est une méthode d’analyse multi-variée automatique qui vise à établir des typologies de vos clients, points de vente, territoires, communes, etc…
Elle permet de déterminer automatiquement des « groupes naturels » d’individus qui se ressemblent sur l’ensemble des variables étudiées. La Classification Ascendante Hiérarchique présente l’avantage d’être une méthode dont le principe est facilement compréhensible sans être forcément statisticien. Les groupes naturels proposés par la CAH en résultat de son analyse peuvent être qualifiés et identifiés grâce aux aides à l’interprétation proposées par le module.
Principe de fonctionnement de la Classification Ascendante Hiérarchique (CAH)
La Classification Ascendante Hiérarchique (CAH) a pour objectif de regrouper automatiquement des entités géographiques (les individus) en classes en fonction de plusieurs variables statistiques. Cette méthode de typologie permet ainsi de constituer des groupes de territoires qui se ressemblent sur l’ensemble des variables étudiées.
Le principe de la CAH est d’effectuer un regroupement progressif des individus selon leur degré de ressemblance jusqu’à l’obtention d’une unique classe les regroupant tous. Ce regroupement s’effectue toujours entre deux individus au départ, puis après l’obtention des premières classes, entre deux classes, jusqu’à l’obtention d’un groupe unique. Une fois ce calcul effectué, les individus seront répartis en différentes classes (dont le nombre est défini par l’utilisateur) qui constitueront les différents profils de la typologie finale. La CAH fournit en outre les informations nécessaires pour caractériser ces différents profils.
La CAH effectue des regroupements successifs d’individus et de classes selon une hiérarchie.
Les étapes du traitement
- Étape 1 : la méthode considère les n individus caractérisés par leurs valeurs par rapport aux p variables, et on détermine quels sont les 2 individus qui se ressemblent le plus par rapport à cet ensemble de variables. Ces 2 individus sont regroupés pour former une classe.
- Étape 2 : elle dispose alors à ce niveau de (n-1) classes, une étant formée des 2 individus regroupés précédemment, les autres ne contenant qu’un unique individu. On détermine alors quelles sont les 2 classes qui se ressemblent le plus, et on les regroupe.
- Étapes suivantes : elle répète la même opération jusqu’à obtenir une unique classe regroupant l’ensemble des individus.
La création des regroupements successifs nécessite de choisir un critère d’agrégation, c’est à dire la façon de regrouper 2 classes entre elles.
Lexique
La CAH utilise un vocabulaire bien spécifique, que nous vous proposons de définir :
- Les individus forment à l’origine des classes à un seul élément, appelées classes terminales.
- Le regroupement de 2 classes forme un nœud.
- Le premier de ces nœuds a pour numéro le nombre total de classes terminales +1 ( = n+1).
- Chaque regroupement donne lieu à un nouveau nœud dont le numéro suit exactement celui du regroupement précédent.
- Chaque nœud est ainsi formé de 2 classes que l’on appelle ses successeurs, l’un étant appelé l’aîné et l’autre le benjamin (de façon arbitraire).
- Par extension, on désignera également les individus par un numéro de nœud compris entre 1 et n.
- Les indices de niveau permettent de mesurer et de représenter l’importance de la différence entre 2 classes que l’on regroupe. Ils sont définis par la distance entre les 2 classes formant le nœud. Ces indices sont très utiles dans l’étude de l’arbre hiérarchique, et notamment pour déterminer le nombre de classes à créer.
Une fois les classes déterminées par la CAH, le module vous propose les informations nécessaires pour caractériser chaque classe et en définir les traits principaux.
Représentation graphique
Le module CAH de Cartes & Données vous propose une représentation graphique des différentes étapes du traitement sous la forme d’un arbre hiérarchique :
- chaque étape de regroupement de 2 classes (nœud) y est représentée jusqu’à la classe finale.
- les différents nœuds sont numérotés.
- des histogrammes rouges horizontaux représentent les indices de niveaux.
- la valeur des indices de niveaux s’affiche au passage de la souris.
- une ligne rouge indique le nombre de classes actuellement choisi.
Cette représentation graphique constitue une aide capitale pour déterminer le choix d’un nombre de classes pertinent lors du paramétrage du module.
Choix du critère d’agrégation
Le critère d’agrégation détermine la méthode utilisée par la CAH pour décider du regroupement de 2 individus ou de 2 classes. La difficulté du choix du critère d’agrégation réside dans le fait que ces critères peuvent déboucher sur des résultats différents. Le critère le plus couramment utilisé est celui du moment centré d’ordre 2, qui est sélectionné par défaut. Il vous appartient lors de la réalisation d’une CAH de décider du critère d’agrégation que vous souhaitez utiliser.