A chaining procedure for cluster analysis

Une méthode d’agrégation spatiale pour la classification des données multidimensionnelles

S. Iraqui1*, R. Benslimane1, K. Rifi2, J.-G. Postaire3

1 Laboratoire de Transmission et de Traitement d’Images, Ecole Supérieure de Technologie, Route d’Imouzzer,

B.P. 2427, FES, Maroc

2 Ecole Normale Supérieure, Bensouda BP 5206, FES, Maroc

3 Laboratoire d’Automatique, Université des Sciences et Technologies de Lille, 59655 Villeneuve d’Asq Cedex, France

* Corresponding author. E-mail: iraqui.samir@caramail.com

Received : 15 January 2004; revised version accepted : 29 July 2004

Abstract

In this paper, we propose a new unsupervised pattern classification approach based on a chaining procedure. This technique does note require any a priori information about the data and not necessitate any pre-processing of the data. The chaining procedure is accompanied by a technique of adjustment to the size of the neighbourhood used, based on minimization of an information criteria.

This method is a combination of a geometric approach based on the analysis of the distances between the available observations and a statistical method based on information theory.

The method performances are evaluated using artificially generated data sets and real data.

These simulations show the interest of this simple and robust approach, which requires neither an a priori knowledge on the number of existing classes nor on their distribution.

Keywords: Clustering; Chaining Procedure; Information criterion.

Résumé

Dans cet article, nous présentons, une technique de classification automatique par chaînage qui permet de déterminer des noyaux représentatifs des classes d’observations. La procédure est simple, ne nécessite aucune phase d’initialisation et conduit toujours au même résultat, quelque soit l’ordre dans lequel les observations disponibles sont exploitées.

Cette procédure de chaînage est accompagnée d’une technique d’ajustement de la taille du voisinage utilisé, basée sur la minimisation d’un critère informationnel.

Cette méthode est une combinaison d’une approche géométrique basée l’analyse de la distance entre les observations et d’une approche statistique faisant appel à la théorie de l’information.

La procédure proposée est évaluée en utilisant des données générées artificiellement et des données réelles. Ces simulations montrent l’intérêt de l’approche qui est simple, robuste, et qui ne nécessite aucune connaissance à priori sur le nombre de classes en présence, ni sur leur distribution.

Mots clés: Groupements ; Chaînage ; Critère informationnel.

© 2015