Machine Learning

    Apprentissage Supervisé Vs. Non Supervisé

    Dans le domaine du Machine Learning (apprentissage automatique en français), il existe deux principaux types d’apprentissages: supervisées et non supervisées. La principale différence entre les deux types réside dans le fait que l’apprentissage supervisé se fait sur la base d’une vérité. En d’autres termes, nous avons une connaissance préalable de ce que devraient être les valeurs de sortie de nos échantillons. Par conséquent, l’objectif de l’apprentissage supervisé est d’apprendre une fonction qui, à partir d’un échantillon de données et des résultats souhaités, se rapproche le mieux de la relation entre entrée et sortie observable dans les données. En revanche, l’apprentissage non supervisé n’a pas de résultats étiquetés. Son objectif est donc de déduire la structure naturelle présente dans un ensemble de points de données. Dans cet article, nous allons voir toutes les différences entre l’apprentissage supervisé et non supervisé.

    L’apprentissage supervisé et non supervisé sont tous deux une partie importante de l’apprentissage automatique. Par conséquent, laissez-moi vous expliquer ce qu’est l’apprentissage automatique.

    Machine Learning ou Apprentissage Automatique :

    L’apprentissage automatique (ML) est une catégorie d’algorithme qui permet aux applications logicielles de prédire plus précisément les résultats sans être explicitement programmées. Le principe de base de l’apprentissage automatique est de créer des algorithmes capables de recevoir des données d’entrée et d’utiliser une analyse statistique pour prédire une sortie tout en les mettant à jour à mesure que de nouvelles données deviennent disponibles.

    Pour en apprendre plus sur le machine learning, je vous invite à lire cet article : Machine Learning : Qu’est-ce que c’est et Pourquoi est-ce Important?

    Apprentissage supervisé

    La majorité des apprentissages automatiques utilisent un apprentissage supervisé (supervised learning).

    L’apprentissage supervisé consiste en des variables d’entrée (x) et une variable de sortie (Y). Vous utilisez un algorithme pour apprendre la fonction de mapping de l’entrée à la sortie.

    Y = f (X)

    Le but est d’appréhender si bien la fonction de mapping que, lorsque vous avez de nouvelles données d’entrée (x), vous pouvez prédire les variables de sortie (Y) pour ces données.

    C’est ce qu’on appelle l’apprentissage supervisé, car le processus d’un algorithme tiré de l’ensemble de données de formation (training set) peut être considéré comme un enseignant supervisant le processus d’apprentissage. Nous connaissons les réponses correctes, l’algorithme effectue des prédictions itératives sur les données d’apprentissage et est corrigé par l’enseignant. L’apprentissage s’arrête lorsque l’algorithme atteint un niveau de performance acceptable.

    La Classification et de la Régression

     

    L’apprentissage supervisé est généralement effectué dans le contexte de la classification et de la régression.

    • Classification: Un problème de classification survient lorsque la variable de sortie est une catégorie, telle que «rouge», «bleu» ou «maladie» et «pas de maladie». Exemples :
      • En finance et dans le secteur bancaire pour la détection de la fraude par carte de crédit (fraude, pas fraude).
      • Détection de courrier électronique indésirable (spam, pas spam).
      • Dans le domaine du marketing utilisé pour l’analyse du sentiment de texte (heureux, pas heureux).
      • En médecine, pour prédire si un patient a une maladie particulière ou non.
    • Régression: Un problème de régression se pose lorsque la variable de sortie est une valeur réelle, telle que «dollars» ou «poids».  Exemples :
      • Prédire le prix de l’immobilier
      • Prédire le cours de bourse

    Certains types courants de problèmes fondés sur la classification et la régression incluent la prévision et la prévision de séries temporelles, respectivement.

    Voici quelques exemples populaires d’algorithmes d’apprentissage automatique supervisé:

    • Arbres de décision
    • K Nearest Neighbours
    • SVC linéaire (classificateur de vecteur de support)
    • Régression logistique
    • Naive Bayes
    • Les réseaux de neurones
    • Régression linéaire
    • Régression vectorielle de support (SVR)
    • Arbres de régression

    Apprentissage automatique non supervisé

    L’apprentissage non supervisé (Unsupervised Learning) consiste à ne disposer que de données d’entrée (X) et pas de variables de sortie correspondantes.

    L’objectif de l’apprentissage non supervisé est de modéliser la structure ou la distribution sous-jacente dans les données afin d’en apprendre davantage sur les données.

    On l’appelle apprentissage non supervisé car, contrairement à l’apprentissage supervisé ci-dessus, il n’y a pas de réponse correcte ni d’enseignant. Les algorithmes sont laissés à leurs propres mécanismes pour découvrir et présenter la structure intéressante des données.

    L’apprentissage non supervisé comprend deux catégories d’algorithmes: Algorithmes de regroupement et d’association.

    Exemple d'apprentissage Automatique non supervisé

    Exemple d’apprentissage Automatique non supervisé

    Regroupement ou Clustering :

    La mise en cluster consiste à séparer ou à diviser un ensemble de données en un certain nombre de groupes, de sorte que les ensembles de données appartenant aux mêmes groupes se ressemblent davantage que ceux d’autres groupes. En termes simples, l’objectif est de séparer les groupes ayant des traits similaires et de les assigner en grappes.

    Voyons cela avec un exemple. Supposons que vous soyez le chef d’un magasin de location et que vous souhaitiez comprendre les préférences de vos clients pour développer votre activité. Vous pouvez regrouper tous vos clients en 10 groupes en fonction de leurs habitudes d’achat et utiliser une stratégie distincte pour les clients de chacun de ces 10 groupes. Et c’est ce que nous appelons le Clustering.

    Association:

    L’association consiste à découvrir des relations intéressantes entre des variables dans de grandes bases de données. Par exemple, les personnes qui achètent une nouvelle maison ont aussi tendance à acheter de nouveaux meubles. Il découvre la probabilité de co-occurrence d’éléments dans une collection.

    En résumé, le clustering consiste à grouper des points de données en fonction de leurs similitudes, tandis que l’association consiste à découvrir des relations entre les attributs de ces points de données.

    Voici une liste de certains algorithmes d’apprentissage automatique non supervisés:

    • K-means clustering
    • Dimensionality Reduction (Réduction de la dimensionnalité)
    • Neural networks / Deep Learning
    • Principal Component Analysis (Analyse des composants principaux)
    • Singular Value Decomposition (Décomposition en valeur singulière)
    • Independent Component Analysis (Analyse en composantes indépendantes)
    • Distribution models (Modèles de distribution)
    • Hierarchical clustering (Classification hiérarchique)

    Apprentissage automatique semi-supervisé

    Les problèmes pour lesquels vous avez une grande quantité de données d’entrée (X) et que seules certaines données sont étiquetées (Y) sont appelés problèmes d’apprentissage semi-supervisés. Par conséquent, ces problèmes se situent entre l’apprentissage supervisé et l’apprentissage non supervisé.

    Exemple : une archive de photos dans laquelle seules certaines images sont étiquetées (chien, chat, personne, par exemple) et la plupart ne le sont pas.

    De nombreux problèmes de machine learning du monde réel tombent dans ce domaine. En effet, il peut être coûteux en temps ou en argent d’étiqueter des données car cela peut nécessiter un accès à des experts de domaine. Considérant que les données sans étiquette sont peu coûteuses et faciles à collecter et à stocker.

    Vous pouvez utiliser des techniques d’apprentissage non supervisées pour découvrir et apprendre la structure dans les variables d’entrée.

    Vous pouvez également utiliser des techniques d’apprentissage supervisé pour établir des prévisions optimales pour les données non étiquetées, les transférer dans l’algorithme d’apprentissage supervisé en tant que données d’apprentissage et utiliser le modèle pour effectuer des prédictions sur de nouvelles données invisibles.

    Résumé

    Dans cet article, vous avez appris la différence entre les différents apprentissages. Vous savez maintenant que:

    • Supervisé: toutes les données sont étiquetées et les algorithmes apprennent à prédire le résultat des données d’entrée.
    • Non supervisé: toutes les données ne sont pas étiquetées et les algorithmes apprennent la structure inhérente à partir des données en entrée.
    • Semi-supervisé: Certaines données sont étiquetées mais la plupart d’entre elles ne sont pas étiquetées et un mélange de techniques supervisées et non supervisées peut être utilisé.

    Aller plus loin …

    Si vous souhaitez aller plus loin, je conseille les formations suivantes :

     

    >