Dans le domaine du Machine Learning (apprentissage automatique en français), il existe deux principaux types d’apprentissages: supervisées et non supervisées. La principale différence entre les deux types réside dans le fait que l’apprentissage supervisé se fait sur la base d’une vérité. En d’autres termes, nous avons une connaissance préalable de ce que devraient être les valeurs de sortie de nos échantillons. Par conséquent, l’objectif de l’apprentissage supervisé est d’apprendre une fonction qui, à partir d’un échantillon de données et des résultats souhaités, se rapproche le mieux de la relation entre entrée et sortie observable dans les données. En revanche, l’apprentissage non supervisé n’a pas de résultats étiquetés. Son objectif est donc de déduire la structure naturelle présente dans un ensemble de points de données. Dans cet article, nous allons voir toutes les différences entre l’apprentissage supervisé et non supervisé.
L’apprentissage supervisé et non supervisé sont tous deux une partie importante de l’apprentissage automatique. Par conséquent, laissez-moi vous expliquer ce qu’est l’apprentissage automatique.
L’apprentissage automatique (ML) est une catégorie d’algorithme qui permet aux applications logicielles de prédire plus précisément les résultats sans être explicitement programmées. Le principe de base de l’apprentissage automatique est de créer des algorithmes capables de recevoir des données d’entrée et d’utiliser une analyse statistique pour prédire une sortie tout en les mettant à jour à mesure que de nouvelles données deviennent disponibles.
Pour en apprendre plus sur le machine learning, je vous invite à lire cet article : Machine Learning : Qu’est-ce que c’est et Pourquoi est-ce Important?
La majorité des apprentissages automatiques utilisent un apprentissage supervisé (supervised learning).
L’apprentissage supervisé consiste en des variables d’entrée (x) et une variable de sortie (Y). Vous utilisez un algorithme pour apprendre la fonction de mapping de l’entrée à la sortie.
Y = f (X)
Le but est d’appréhender si bien la fonction de mapping que, lorsque vous avez de nouvelles données d’entrée (x), vous pouvez prédire les variables de sortie (Y) pour ces données.
C’est ce qu’on appelle l’apprentissage supervisé, car le processus d’un algorithme tiré de l’ensemble de données de formation (training set) peut être considéré comme un enseignant supervisant le processus d’apprentissage. Nous connaissons les réponses correctes, l’algorithme effectue des prédictions itératives sur les données d’apprentissage et est corrigé par l’enseignant. L’apprentissage s’arrête lorsque l’algorithme atteint un niveau de performance acceptable.
L’apprentissage supervisé est généralement effectué dans le contexte de la classification et de la régression.
Certains types courants de problèmes fondés sur la classification et la régression incluent la prévision et la prévision de séries temporelles, respectivement.
Voici quelques exemples populaires d’algorithmes d’apprentissage automatique supervisé:
L’apprentissage non supervisé (Unsupervised Learning) consiste à ne disposer que de données d’entrée (X) et pas de variables de sortie correspondantes.
L’objectif de l’apprentissage non supervisé est de modéliser la structure ou la distribution sous-jacente dans les données afin d’en apprendre davantage sur les données.
On l’appelle apprentissage non supervisé car, contrairement à l’apprentissage supervisé ci-dessus, il n’y a pas de réponse correcte ni d’enseignant. Les algorithmes sont laissés à leurs propres mécanismes pour découvrir et présenter la structure intéressante des données.
L’apprentissage non supervisé comprend deux catégories d’algorithmes: Algorithmes de regroupement et d’association.
Exemple d’apprentissage Automatique non supervisé
La mise en cluster consiste à séparer ou à diviser un ensemble de données en un certain nombre de groupes, de sorte que les ensembles de données appartenant aux mêmes groupes se ressemblent davantage que ceux d’autres groupes. En termes simples, l’objectif est de séparer les groupes ayant des traits similaires et de les assigner en grappes.
Voyons cela avec un exemple. Supposons que vous soyez le chef d’un magasin de location et que vous souhaitiez comprendre les préférences de vos clients pour développer votre activité. Vous pouvez regrouper tous vos clients en 10 groupes en fonction de leurs habitudes d’achat et utiliser une stratégie distincte pour les clients de chacun de ces 10 groupes. Et c’est ce que nous appelons le Clustering.
L’association consiste à découvrir des relations intéressantes entre des variables dans de grandes bases de données. Par exemple, les personnes qui achètent une nouvelle maison ont aussi tendance à acheter de nouveaux meubles. Il découvre la probabilité de co-occurrence d’éléments dans une collection.
En résumé, le clustering consiste à grouper des points de données en fonction de leurs similitudes, tandis que l’association consiste à découvrir des relations entre les attributs de ces points de données.
Voici une liste de certains algorithmes d’apprentissage automatique non supervisés:
Les problèmes pour lesquels vous avez une grande quantité de données d’entrée (X) et que seules certaines données sont étiquetées (Y) sont appelés problèmes d’apprentissage semi-supervisés. Par conséquent, ces problèmes se situent entre l’apprentissage supervisé et l’apprentissage non supervisé.
Exemple : une archive de photos dans laquelle seules certaines images sont étiquetées (chien, chat, personne, par exemple) et la plupart ne le sont pas.
De nombreux problèmes de machine learning du monde réel tombent dans ce domaine. En effet, il peut être coûteux en temps ou en argent d’étiqueter des données car cela peut nécessiter un accès à des experts de domaine. Considérant que les données sans étiquette sont peu coûteuses et faciles à collecter et à stocker.
Vous pouvez utiliser des techniques d’apprentissage non supervisées pour découvrir et apprendre la structure dans les variables d’entrée.
Vous pouvez également utiliser des techniques d’apprentissage supervisé pour établir des prévisions optimales pour les données non étiquetées, les transférer dans l’algorithme d’apprentissage supervisé en tant que données d’apprentissage et utiliser le modèle pour effectuer des prédictions sur de nouvelles données invisibles.
Dans cet article, vous avez appris la différence entre les différents apprentissages. Vous savez maintenant que:
Si vous souhaitez aller plus loin, je conseille les formations suivantes :
Edureka :Machine Learning Using Python (Cours en Anglais)
La session a expiré
Veuillez vous reconnecter. La page de connexion s’ouvrira dans une nouvelle fenêtre. Après connexion, vous pourrez la fermer et revenir à cette page.