clustering

K-means: Definition & Avantages / Inconvénients

Le clustering K-means est l’un des algorithmes de machine learning non supervisés les plus facile à comprendre et à utiliser. Aujourd’hui cet algorithme est l’un des plus répandus.
D’habitude, les algorithmes non supervisés font des inférences à partir de jeux de données en se servant uniquement des vecteurs d’entrée sans faire référence à des résultats connus ou étiquetés.
Les K-means est une technique de classification par apprentissage automatique utilisée pour simplifier des ensembles de données volumineux en ensembles de données simples et plus petits. Des modèles distincts sont évalués et des ensembles de données similaires sont regroupés. La variable K représente le nombre de groupes dans les données. Dans cet article nous allons évaluer les avantages et les inconvénients de l’algorithme de classification K-means pour vous aider à évaluer les avantages de l’utilisation de cette technique de classification.

Avantages:

  • Simple:

Il est facile d’implémenter k-means et d’identifier des groupes de données inconnus à partir d’ensembles de données complexes. Les résultats sont présentés de manière rapide.

  • Flexible:

L’algorithme K-means s’adapte aux divers changements de vos données. En cas de souci, l’ajustement du segment de cluster permettra d’apporter rapidement des modifications nécessaires à l’algorithme.

  • Convient aux gros data sets:

K-means convient à un grand nombre d’ensembles de données et est calculé beaucoup plus rapidement que le plus petit. Il peut également produire des clusters plus élevées.

  • Efficace:

L’algorithme utilisé permet de partitionner les gros de datasets. Son efficacité est fonction de la forme des clusters. Les K-Means fonctionnent bien dans les clusters hyper-sphériques.

  • Complexité temporelle:

La segmentation en K-Means est linéaire en nombre d’objets de données, ce qui augmente le temps d’exécution. Il ne faut pas plus de temps pour classer des caractéristiques similaires dans des données telles que des algorithmes hiérarchiques.

  • Clusters proches:

Comparées aux algorithmes hiérarchiques, les k-Means produisent des clusters plus serrées, en particulier avec les clusters globulaires.

  • Facile à interpréter:

Les résultats sont très faciles à interpréter. K-Means génère des descriptions de cluster sous une forme minimisée pour maximiser la compréhension des données.

  • Faible coût de calcul:

Comparée à l’utilisation d’autres méthodes de classification, une technique de classification k-means est rapide et efficace en termes de coût de calcul, en effet sa complexité est O (K * n * d).

  • Précision:

L’analyse par K-means améliore la précision de la classification et garantit que des informations sur un domaine de problème particulier sont disponibles. La modification de l’algorithme k-means basé sur ces informations améliore la précision des clusters.

  • Clusters sphériques:

Ce mode de regroupement fonctionne très bien lorsqu’il s’agit de clusters sphériques. Il fonctionne avec une hypothèse de distributions conjointes de caractéristiques puisque chaque cluster est sphérique. Toutes les caractéristiques ou tous les caractères des clusters ont la même variance et sont indépendants les uns des autres.

Inconvénients:

  • Ensemble non optimal de clusters:

K-means ne permet pas de développer un ensemble optimal de clusters et vous devez choisir les clusters avant pour des résultats effectifs.

  • Manque de cohérence:

Le clustering K-means donne des résultats variables sur différentes exécutions d’un algorithme. Un choix aléatoire de modèles de clusters produit différents résultats, ce qui entraîne une incohérence.

  • Effet uniforme:

Il produit un cluster de taille uniforme même lorsque les données d’entrée ont des tailles différentes.

  • Ordre des valeurs:

La façon dont les données sont ordonnées lors de la construction de l’algorithme affecte les résultats de l’ensemble de données.

  • Limitation des calculs:

Lorsqu’il s’agit d’un grand ensemble de données, l’application d’une technique de dendrogramme fera planter l’ordinateur en raison de la charge de calcul et des limites de mémoire dynamique.

  • Traiter les données numériques:

l’algorithme K-moyennes ne peut être exécuté que dans des données numériques.

  • Fonctionne sous certaines conditions:

La technique de groupement K-means suppose que nous traitons avec des clusters sphériques et que chaque cluster a des nombres égaux pour les observations. Les hypothèses sphériques doivent être satisfaites. L’algorithme ne peut pas fonctionner avec des clusters de taille inhabituelle.

  • Spécifiez les valeurs K:

pour que la classification par K-moyennes soit efficace, vous devez spécifier le nombre de clusters (K) au début de l’algorithme.

  • Problèmes de prédiction:

Il est difficile de prévoir les valeurs k ou le nombre de clusters . Il est également difficile de comparer la qualité des clusters produites.

Conclusion: 

La classification K-means est une technique largement utilisée pour l’analyse par clusters de données. Cet algorithme est simple à comprendre. En outre, il fournit des résultats d’entraînement rapidement.
Cependant, ses performances ne sont généralement pas aussi compétitives que celles des autres techniques de classification sophistiquées, car de légères variations dans les données pourraient entraîner une variance des résultats élevée.
De plus, les clusters sont supposées être sphériques et de taille égale, ce qui peut réduire la précision des résultats Python en clusters à moyennes moyennes.
Quelle est votre expérience avec le regroupement K-signifie en apprentissage automatique?
S’il vous plaît partager vos commentaires ci-dessous.

 

>