Category Archives for Mathématiques et Statistiques

Mathématiques essentielles pour la Data Science

Les mathématiques représentent la base de toute discipline scientifique. Presque tous les concepts de Data Science et Machine Learning reposent sur des bases mathématiques.

Dans votre apprentissage des techniques, algorithmes et langages de programmation en vue de devenir Data Scientist ou d’approfondir vos connaissance, il ne faut pas OUBLIER les mathématiques.

Il est souvent préférable de connaitre les dessous des algorithmes que vous utiliserez que d’être un simple exécutant. Par conséquent, une solide compréhension des mathématique vous donnera un avantage concurrentiel parmi vos pairs.

Considérons un développeur ou un analyste. Ils peuvent traiter un grand nombre de données et d’informations, mais ils sont pas intéressés par une modélisation de ces données. Souvent, l’accent est mis sur l’utilisation des données pour un besoin immédiat plutôt que sur une exploration scientifique approfondie.

La Data Science, en revanche, devrait s’intéresser aux modèles et ainsi suivre un processus scientifique. Le processus scientifique est le suivant :

  • Modéliser un processus en sondant la dynamique sous-jacente
  • Construire des hypothèses
  • Mesurer la qualité de la source de données
  • Quantifier l’incertitude
  • Identifier le modèle caché à partir des données analysées
  • Comprendre les limites du modèle

La Data Science est applicable à, presque, tous les domaines. Ainsi, elle peut traiter des problèmes aussi divers que le diagnostic du cancer et l’analyse du comportement social.

Cela donne la possibilité d’un tableau vertigineux d’objets mathématiques à n dimensions, de distributions statistiques, de fonctions d’optimisation, etc.

Dans le reste de l’article, je vous fourni les notions qu’il faut maitriser pour faire partie des meilleurs Data Scientists.

Fonctions, variables, équations et graphiques

Fonction Mathématique

Fonction Mathématique

Cette partie couvre les bases mathématiques, de l’équation au théorème binomial :

  • Logarithme, fonctions exponentielles, fonctions polynomiales, nombres rationnels
  • Géométrie, identités trigonométriques
  • Inégalités
  • Nombres réels et complexes, propriétés de base
  • Graphique, coordonnées cartésiennes et polaires
  • Séries, suites

Cas d’utilisation

Si vous souhaitez comprendre comment une requête s’exécute rapidement dans une base de données contenant des données massives triée, vous rencontrerez le concept de «recherche binaire».

Pour en comprendre ce concept, vous devez comprendre les logarithmes et la récurrence.

Ou, si vous souhaitez analyser une série temporelle, vous pouvez rencontrer des concepts tels que «fonctions périodiques».

Statistiques

Statistiques

Statistiques

Apprendre et maîtriser les concepts statistique et probabiliste est un pré-requis quand on parle de Machine Learning. Chaque Data Scientist doit avoir de solide connaissance en statistique.

De nombreux Data Scientists considèrent en fait que le Machine Learning  n’est qu’un apprentissage statistique.

Bien évidement c’est un sujet très vaste et une planification et organisation sont essentielles pour couvrir les concepts les plus importants :

  • Statistiques descriptives, variance, covariance, corrélation
  • Probabilité de base, espérance, calcul de probabilité, théorème de Bayes, probabilité conditionnelle
  • Fonctions de distribution de probabilité
  • Échantillonnage, mesure, erreur, génération de nombres aléatoires
  • Tests d’hypothèses, tests A / B, intervalles de confiance, valeurs p
  • ANOVA, test t
  • Régression linéaire, régularisation

Mathématiques discrètes

Mathématiques discrètes

Mathématiques discrètes

Les Mathématiques discrètes sont rarement cité quand on parle de Data Science. Et pourtant les mathématiques discrètes sont au cœur des systèmes informatiques modernes.

Vous devez connaitre les concepts de Maths discrète d’algorithmes et de structures de données dans un projet d’analyse :

  • Ensembles, sous-ensembles, ensembles d’alimentation
  • Fonctions de comptage, combinatoire, comptabilité
  • Techniques de preuve de base: induction, preuve par contradiction
  • Bases de la logique inductive, déductive et propositionnelle
  • Structures de données de base: piles, files d’attente, graphiques, tableaux, tables de hachage, arbres
  • Propriétés du graphique: composants connectés, degré, concepts de débit maximal / minimum de coupe, coloration du graphique
  • Relations de récurrence et équations
  • Croissance des fonctions et concept de notation O (n)

 

Algèbre linéaire

Algèbre linéaire

Algèbre linéaire

Pour comprendre le fonctionnement des algorithmes de Machine Learning sur un flux de données afin de créer un aperçu, l’algèbre linéaire est essentielle.

Vous avez certainement déjà eu des suggestions d’amis sur Facebook ou des recommandations de video sur YouTube, en passant par le transfert de votre selfie vers un portrait à la Salvador Dali utilisant l’apprentissage par transfert en profondeur. Tous ces exemples implique des matrices et une algèbre matricielle.

Les notions que vous devez apprendre :

  • Propriétés de base de la matrice et des vecteurs: multiplication scalaire, transformation linéaire, transposition, conjugaison, rang, déterminant
  • Produits internes et externes, règle de multiplication de matrice et divers algorithmes, matrice inverse
  • Concept de factorisation matricielle / décomposition de LU, élimination de Gauss / Gauss-Jordan, résolution du système d’équation linéaire Ax = b
  • Matrices spéciales: matrices carrées, matrices d’identité, matrices triangulaires, idées sur les matrices creuses et denses, vecteurs unitaires, matrices symétriques, matrices hermitiennes, asymétriques et unitaires
  • Valeurs propres, vecteurs propres, diagonalisation, décomposition en valeurs singulières
  • Espace vectoriel, base, étendue, orthogonalité, orthonormalité, moindre carré linéaire

Cas d’utilisation

  • Pour faire une analyse en composantes principales on utilise la décomposition en valeurs singulières pour obtenir une représentation de dimension compacte du jeu de données avec moins de paramètres. 
  • Les algorithmes de réseau de neurone utilisent des techniques d’algèbre linéaire pour représenter et traiter les structures de réseau et les opérations d’apprentissage.

 

Calcul

Calculs

Calculs

Le calcul apparaît partout en Data Science et en apprentissage automatique et plus globalement derrière tous les programmes et algorithmes. 

Les calculs se cachent derrière la solution analytique d’apparence simple d’un problème des moindres carrés ordinaires en régression linéaire ou intégrée à chaque propagation en retour de votre réseau de neurones pour apprendre un nouveau motif.

Si vous deviez vos concentrer que sur les concepts essentielles, apprenez ces sujets :

  • Fonctions de variable unique, limite, continuité, différentiabilité
  • Théorèmes de valeur moyenne, formes indéterminées, règle de L’Hospital
  • Maxima et minima
  • Produit et chaîne règle
  • Série de Taylor, concepts de sommation / intégration de séries infinies
  • Théorèmes fondamentaux et de valeur moyenne du calcul intégral, évaluation d’intégrales définies et impropres
  • Fonctions bêta et gamma
  • Fonctions de variables multiples, limite, continuité, dérivées partielles
  • Bases des équations différentielles ordinaires et partielles

 

Thèmes d’optimisation et de recherche opérationnelle

recherche opérationnelle

recherche opérationnelle

Ces concepts sont très pertinents car une compréhension de base de ces techniques puissantes peut être fructueuse dans la pratique du Machine Learning.

Pratiquement tous les algorithmes de Machine Learning visent à minimiser un type d’erreur d’estimation soumis à diverses contraintes, ce qui constitue un problème d’optimisation.

Vous devez à minima vous intéresser à ces sujets:

  • Bases de l’optimisation
  • Formuler le problème d’optimisation
  • Maxima, minima, fonction convexe, solution globale
  • Techniques d’optimisation randomisée: escalade, recuit simulé, algorithmes génétiques
  • Programmation linéaire, programmation entière
  • Programmation par contraintes, problème de sac à dos
12 meilleurs livres de Data Science

9 Meilleurs Livres de Data Science en 2019

Dans cet article, je vous propose une liste de livres qui vous permettront de développer vos compétences en Data Science. Les sujets traités vont de la programmation Python et R à l’apprentissage automatique en passant par les mathématiques et les statistiques.

Allons, donc, voir vos prochains livres de chevet !

1 – Python Data Science Handbook

Python Data Science Handbook

Python Data Science Handbook

Les tendances montrent que Python est toujours le langage principal de la Data Science et du Machine Learning.

Le livre Python Data Science Handbook est une excellente référence pour renforcer les compétences en Python.

On vous demandera souvent aux Data Scientists de travailler sur de nombreuses tâches, mais le nettoyage et la manipulation des données restent la tache qui prend la plus grande partie du temps.

Ce livre est une référence parfaite à garder sous la main pour les tâches fréquentes de manipulation de données principalement utilisant pandas.

Parmi les sujets traités dans ce livre:

  • Shell IPython
  • Numpy
  • Manipulation des données avec pandas
  • Visualisations de données avec Matplotlib
  • Machine Learning avec Scikit-Learn

Cliquer ici pour consulter le livre sur Amazon.

2 – Think Python

Think Python

Think Python

Si vous débutez avec Python, ce livre est fait pour vous.

Si vous avez un bon niveau en Python, ce livre est pour vous aussi.

Think Python traite toutes les bases de Python, des bases des structures et fonctions de données aux sujets plus avancés tels que les classes et l’héritage.

Dans ce livre, vous verrez en plus de la présentation des concepts clés, des cas d’études concrets. C’est un excellent moyen pour comprendre et assimiler de nouveaux concepts.

Parmi les sujets traités dans ce livre :

  • Les fonctions
  • Itération
  • Structures de données
  • Des dossiers
  • Des classes
  • Les méthodes
  • Héritage

Cliquer ici pour consulter le livre sur Amazon.

3 – R for Data Science

R for Data Science

R for Data Science

une bonne maîtrise de R vous permettra de vous “vendre” facilement auprès des employeurs. R est une compétence très recherchée.

R dispute avec Python la place du premier langage de programmation pour la Data Science.

Une étude récente menée par des Data Scientists a montré que 52,1% des Data Scientists répondants au sondage utilisent R, un peu moins de 52,6% utilisant Python.

Ce livre est parfait pour développer vos compétences en programmation statistique avec R.

Il couvre toutes les bases de R allant d’un niveau débutant aux sujet les plus avancés.

Ce livre est une excellente référence générale qui doit accompagner tout développeur R ou Data Scientist !

Les sujets abordés dans le livre :

  • Exploration
  • La programmation
  • La modélisation
  • La communication

Cliquer ici pour consulter le livre sur Amazon.

4 – Advanced R

Advanced R

Advanced R

Si vous voulez vraiment vous distinguer en tant qu’utilisateur R et impressionner les employeurs, Advanced R est une excellente ressource.

Il couvre tout, des fondations aux structures de données, à la programmation orientée objet et au débogage, à la programmation fonctionnelle et au code de performance.

Si vous avez une connaissance avancée de R et pouvez penser au code de niveau de production, vous vous rendrez immédiatement plus attrayant pour les employeurs potentiels.

Cliquer ici pour consulter le livre sur Amazon.

5 – Introduction to Statistical Learning

Introduction to Statistical Learning

Introduction to Statistical Learning


Ce livre est l’un des meilleurs livres d’introduction au Machine Learning.  l fournit des explications faciles pour comprendre des concepts de base et donne des exemples de code avec R.

Il couvre également les bases des modèles linéaires de manière approfondie.

Connaitre ces bases vous permettra de couvrir la major partie des problématiques ou questions posés pendant les entretiens d’embauche.

Les sujets abordés dans le livre :

  • Sélection de fonctionnalité
  • Régression polynomiale
  • Méthodes basées sur des arbres
  • Apprentissage supervisé
  • Apprentissage non supervisé

Cliquer ici pour consulter le livre sur Amazon.

6 – The Elements of Statistical Learning

The Elements of Statistical Learning

The Elements of Statistical Learning


Si vous souhaitez accélérer votre carrière dans le Machine Learning, vous devez bien maîtriser plus que les bases. Vous devez maîtriser les sujets avancés.

Ce livre est la ressource idéale pour amener vos compétences en Machine Learning à un niveau supérieur.

C’est l’un des livres les plus complets sur le Machine Learning.

Dans ce livre vous trouverez tout les concepts du Machine Learning, des méthodes linéaires aux réseaux de neurones, en passant par les forêts aléatoires.

C’est un peu plus mathématique que les autres livres, donc pour approfondir la compréhension des concepts c’est le TOP.

Cliquer ici pour consulter le livre sur Amazon.

7 – Understanding Machine Learning: From Theory to Algorithms

Understanding Machine Learning: From Theory to Algorithms

Understanding Machine Learning: From Theory to Algorithms


Si vous souhaitez bien comprendre les algorithmes de Machine Learning, ce livre est un excellent choix.

Il est divisé en sections de plus en plus complexes:

  • Bases
  • De la théorie aux algorithmes
  • Modèles de Machine Learning
  • Théorie avancée

C’est un excellent moyen d’acquérir une bonne compréhension des concepts de Machine Learning est de les implémenter.

Cliquer ici pour consulter le livre sur Amazon.

8 – Mining of Massive Datasets

Mining of Massive Datasets

Mining of Massive Datasets

Ce livre a été rédigé à partir de plusieurs cours de Stanford sur l’exploration de données à grande échelle.

Dans ce livre, on parle essentiellement de Data Mining.

Parmi les sujet abordés dans le livre :

  • Mapreduce
  • Exploitation de data stream
  • Systèmes de recommandation
  • Exploitation de graphiques de réseaux sociaux
  • Réduction de la dimensionnalité
  • Machine Learning à grande échelle

 

Cliquer ici pour consulter le livre sur Amazon.

9 – Think Stats

Think Stats

Think Stats



En tant que Data Scientist ou Data Analyst,  vous devez maîtriser les probabilités et les statistiques.

Les modèles de Machinea Learning sont basés sur des principes fondamentaux de la théorie des probabilités.

Donc, pendant vos entretiens d’embauche attendez vous a quelques questions sur les probabilités et les statistiques. 

Ce livre n’est pas destiné aux mathématiciens ou statisticiens, il utilise donc une approche pratique pour expliquer les concepts mathématiques.

Les sections sont courtes et faciles à lire, vous pourrez donc travailler rapidement à travers des exemples.

Ce livre aborde, entre autres, les sujets suivant :

  • Statistiques descriptives
  • Fonctions de distribution cumulatives
  • Distributions continues
  • Probabilités
  • Opération et distributions
  • Tests d’hypothèses
  • Estimation
  • Corrélation

Cliquer ici pour consulter le livre sur Amazon.

Naïves Bayes

Les Algorithmes de Naïves Bayes

Si vous voulez faire de la science des données, vous devrez faire face aux mathématiques.
Vous avez obtenu un diplôme en mathématiques ou un autre diplôme mettant l’accent sur les compétences quantitatives, vous vous demandez probablement si tout ce que vous avez appris pour obtenir votre diplôme était utile. Dans cet article, nous allons voir ce que signifie concrètement faire de la science des données et parler de tout ce que vous devez savoir en mathématiques et en particulier étudier l’algorithme de Naïves Bayes.

Résultat de recherche d'images pour "maths"

Débutons par ce que signifie “science des données”. Si vous demander à une vingtaine de personnes vous obtiendrez probablement une vingtaine de réponses différentes. Chez le-datascientist.fr, nous définissons la science des données comme la discipline consistant à utiliser des données et des statistiques avancées pour effectuer des prévisions. Il s’agit d’une discipline professionnelle axée sur la création de compréhension à partir de données parfois confuses et disparates.

Résultat de recherche d'images pour "stats"

La statistique est la seule discipline mathématique que nous avons mentionnée dans cette définition, mais la science des données implique aussi régulièrement d’autres domaines des mathématiques. L’apprentissage des statistiques est un bon début, mais la science des données utilise également des algorithmes pour faire des prédictions. Ces algorithmes sont appelés algorithmes d’apprentissage automatique et il en existe littéralement des centaines. Expliquer combien de mathématiques sont nécessaires pour chaque type d’algorithme en profondeur n’entre pas dans le cadre de cet article. 

 

Les classifieurs de type Naïve Bayes

Introduction:

Naive Bayes, couramment utilisé dans l’apprentissage automatique, est une collection d’algorithmes de classification basés sur le théorème de Bayes. Ce n’est pas un algorithme unique, mais une famille d’algorithmes. Tous ces algorithmes partagent tous un principe commun, à savoir que chaque caractéristique classée est indépendante de la valeur de toute autre caractéristique.

Ainsi, par exemple, un légume peut être considéré comme une tomate s’il est rouge, rond et d’environ 6 cm de diamètre. Un classificateur Naive Bayes considère chacune de ces “caractéristiques “(rouge, ronde, 6 cm de diamètre) comme des caractéristiques  indépendantes de la probabilité que le légume soit une tomate, quelles que soient les corrélations existant entre les caractéristiques. Cependant, les caractéristiques ne sont pas toujours indépendantes, ce qui est souvent perçu comme un inconvénient de l’algorithme Naive Bayes et c’est pourquoi il est appelé «naïf».

Meme si c’est un concept relativement simple, Naive Bayes peut souvent surperformer les algorithmes les plus complexes et est extrêmement utile dans les applications courantes telles que la détection de spam et la classification de documents.
En gros, l’algorithme nous permet de prédire une classe, étant donné un ensemble de caractéristiques utilisant des probabilités. Ainsi, dans un autre exemple de légume, nous pourrions prédire si un légume est une tomate, une carotte ou une asperge en fonction de sa couleur, de sa forme, et d’autres caractéristiques.

 

Avantages et inconvénients de Naive Bayes:

Avantages

• C’est relativement simple à comprendre et à construire
• Il est facile à former, même avec un petit jeu de données
• C’est rapide!
• Il n’est pas sensible aux caractéristiques non pertinentes

Désavantages

• Il implique que chaque fonctionnalité soit indépendante, ce qui n’est pas toujours le cas.

Les classificateurs de Naïve Bayes sont une famille d’algorithmes reposant sur le principe commun selon lequel la valeur d’une fonctionnalité spécifique est indépendante de la valeur de toute autre fonctionnalité. Ils nous permettent de prédire la probabilité qu’un événement se produise en fonction de conditions que nous connaissons pour les événements en question. Le nom vient du théorème de Bayes, qui peut être écrit mathématiquement comme suit:

P(A∣B)=P(B∣A)P(A)P(B)

avec et sont les événements et  0.

  • est une probabilité conditionnelle conditional. Plus précisément, c’est la probabilité que l’événement A se produise sachant que B l’événement s’est déjà produit.
  • est une probabilité conditionnelle. Plus précisément, c’est la probabilité que l’événement B se produise sachant que A l’événement s’est déjà produit.
  • et sont les probabilité des événement et

Si vous en savoir plus sur les algorithmes de classificateur de Naïve Bayes et de toutes les utilisations du théorème de Bayes, un simple cours de probas suffirait. 

Si vous êtes encore étudiant dans les domaines IT, je vous conseil fortement de suivre des cours de mathématiques pures et appliquées. Ils peuvent certainement paraître parfois décourageants, mais vous pouvez vous consoler en sachant que vous serez mieux équipé si vous rencontrez ces algorithmes et savez comment les appliquer au mieux.
En revanche si vous n’êtes pas étudiant, je vous recommande de vous rendre dans votre librairie / bibliotheque la plus proche et de vous renseigner sur les sujets abordés dans ce  post. Si vous pouvez trouver des livres traitant de la probabilité, des statistiques et de l’algèbre linéaire, je vous conseil fortement de lire des ouvrages qui abordent chacun de ces sujets en profondeur afin de vous faire une conception précise de ce qui se passe dans les deux algorithmes de la machine. 

Conclusion:

Les mathématiques sont partout dans la science des données. Et même si certains algorithmes de science des données semblent parfois magiques, nous pouvons comprendre les tenants et les aboutissants de nombreux algorithmes sans avoir besoin de beaucoup plus que de l’algèbre et des probabilités et statistiques élémentaires.
Vous ne voulez pas apprendre de maths? Techniquement, vous pouvez compter sur des bibliothèques d’apprentissage machine telles que scikit-learn pour faire tout cela à votre place. Mais il est très utile pour un scientifique des données de bien comprendre les calculs et les statistiques à la base de ces algorithmes afin de pouvoir choisir le meilleur algorithme pour ses problèmes et ses ensembles de données et ainsi effectuer des prévisions plus précises.

 

stats

3 Concepts Statistiques de Base Pour Devenir Data Scientist

Les statistiques sont un outil ultra puissant pour un data scientist. D’une manière générale, les statistiques consistent à utiliser les mathématiques pour effectuer une analyse technique des données. Une visualisation de base telle qu’un diagramme en camembert peut vous donner des informations de haut niveau, mais avec des statistiques, il est possible d’exploiter les données de manière beaucoup plus ciblée et davantage basée sur les informations. Les statistiques aident à proposer des conclusions concrètes sur nos données.

En utilisant des statistiques, on peut obtenir des informations plus détaillées sur la structure exacte de nos données et sur la manière dont nous pouvons appliquer de manière optimale d’autres techniques de science des données pour obtenir davantage d’informations. Dans cet article, nous allons examiner 5 concepts statistiques qu’il faut connaître et comment ils peuvent être appliqués le plus efficacement possible.

Les Caractéristiques Statistiques

Les caractéristiques statistiques sont le concept statistique le plus utilisé en data science. C’est souvent la première technique de statistiques que vous appliquez lors de l’exploration de vos données. Dans ces caractéristiques on retrouve la variance, la moyenne, la médiane, les centiles et bien d’autres.

Un box plot illustre parfaitement ce que nous pouvons faire avec des fonctionnalités statistiques de base:

Résultat de recherche d'images pour "box plot"

Lorsque la boîte à moustaches est courte, cela signifie que la plupart de vos points de données sont similaires, car il existe de nombreuses valeurs dans une petite plage.
Quand le diagramme en boîtes est haut, cela signifie qu’une grande partie de vos points de données est très différente. Car les valeurs sont réparties sur une large plage.


Si la valeur médiane est plus proche du bas, nous savons que la plupart des données ont des valeurs inférieures. En revanche, si la valeur médiane est plus proche du sommet, nous savons que la plupart des données ont des valeurs plus élevées. Si la ligne médiane ne se trouve pas au milieu de la boîte, il s’agit d’une indication de données asymétriques.
Les moustaches sont-elles très longues? Cela signifie que vos données ont un écart-type et une variance élevés. C’est-à-dire que les valeurs sont très variables. Si vous avez de longues moustaches d’un côté de la boîte mais pas de l’autre, vos données peuvent varier fortement dans une seule direction.

Distributions de probabilité

La probabilité est le pourcentage de chance qu’un événement se réalise. En Data science, ceci est généralement quantifié dans la plage de 0 à 1. Le 0 signifiant l’événement  ne se produira pas et 1 signifiant que cela se produira. Une distribution de probabilité est une fonction qui représente les probabilités de toutes les valeurs possibles dans l’expérience. 

Les plus connues:

Image illustrative de l’article Loi uniforme continue

La distribution uniforme.
  • Il s’agit bien d’une distribution «tout ou rien». On peut aussi y voir une indication d’une variable catégorielle à 2 catégories: 0 ou la valeur. Votre variable catégorielle peut avoir plusieurs valeurs autres que 0, mais nous pouvons toujours la visualiser de la même manière, comme une fonction par morceaux de plusieurs distributions uniformes. Tous les intervalles de même longueur inclus dans le support de la loi ont la même probabilité. Cela se traduit par le fait que la densité de probabilités de ces lois est constante sur leur support.

Image illustrative de l’article Loi normale

La distribution normale
  • Communément appelée distribution gaussienne, est spécifiquement définie par sa moyenne et son écart type. La valeur moyenne modifie la distribution dans l’espace et l’écart-type contrôle la propagation. Ainsi, avec une distribution gaussienne, nous connaissons la valeur moyenne de notre ensemble de données ainsi que l’étendue des données, c’est-à-dire qu’elles sont réparties sur une large plage ou très concentrées autour de quelques valeurs.

Résultat de recherche d'images pour "distribution poisson"

Une distribution de Poisson
  • Elle est similaire à la normale mais avec un facteur d’asymétrie ajouté. Avec une faible valeur d’asymétrie, une distribution de poisson aura une répartition relativement uniforme dans toutes les directions, tout comme la normale. Mais lorsque la valeur d’asymétrie est élevée, la diffusion de nos données sera différente dans des directions différentes; dans un sens, il sera très répandu et dans l’autre, il sera très concentré.

Il existe de nombreuses autres distributions dans lesquelles vous pouvez vous plonger, mais celles-ci nous donnent déjà beaucoup de valeur. Nous pouvons rapidement voir et interpréter nos variables catégorielles avec une distribution uniforme. Si nous voyons une distribution gaussienne, nous savons qu’il existe de nombreux algorithmes qui fonctionneront bien par défaut avec la gaussienne, nous devrions donc les choisir. Et avec Poisson, nous verrons que nous devons faire très attention et choisir un algorithme robuste aux variations de la dispersion spatiale.

Réduction de la dimension

En statistique, apprentissage automatique et théorie de l’information, la réduction de dimensionnalité ou réduction de dimension est le processus de réduction du nombre de variables aléatoires considérées en obtenant un ensemble de variables principales. Il peut être divisé en sélection et extraction de caractéristiques. Le terme réduction de dimension est assez intuitif à comprendre. Nous avons un jeu de données et nous aimerions réduire le nombre de dimensions dont il dispose. En science des données, il s’agit du nombre de variables de caractéristiques. 

Image result for dimensionality reduction

La technique de statistiques la plus populaire qui est utilisée pour la réduction de la dimension est le PCA, qui crée des représentations vectorielles de caractéristiques montrant leur importance pour leur corrélation. PCA peut être utilisé pour appliquer les deux styles de réduction de dimensionnalité décrits ci-dessus. 

excel visualisation des données

La Visualisation Des données sur EXCEL

Les feuilles de calcul Excel ne sont plus aussi en vogue qu’il y a dix ans. Même si elles restent très utiles pour la saisie et le calcul de données, toutes ces cellules et formules peuvent être encombrantes. En dépit du volume de données importantes, Excel reste tout de même la référence dans de nombreuses entreprise et est le seul moyen de traitement de données. La plupart des clients contactent les entreprises avec des feuilles de calcul remplies de données et nous utilisons le même processus d’analyse pour beaucoup d’entre nous afin de raconter leur histoire de données, de manière visuelle. Nous collaborons avec les clients, des données au produit visualisé, mais parfois, vous n’avez pas le temps de faire appel à un fournisseur pour faire le travail.

 

Comme on dit, Excel fait le taf, et il le fait bien. Néanmoins, si vous voulez montrer vos données de façon plaisante. Ce qui vous permet de les visualiser et de les analyser facilement, le produit prêt à l’emploi n’est pas ce qu’il y a de mieux. Une question vient naturellement à l’esprit : Comment pouvez-vous visualiser votre base de données dense en utilisant Excel comme source de données?

 

Microsoft offre de nombreux conseils sur la manière de tirer le meilleur parti de son outil de visualisation, mais même cela laisse à désirer.

12 des meilleurs outils de visualisation disponibles

Pour accéder aux outils les plus simples et les plus rapides, ne cherchez pas plus loin que cette sélection d’options de visualisation basées sur un navigateur. L’avantage supplémentaire de ces outils est qu’ils seront compatibles avec tous les systèmes d’exploitation que vous utilisez, y compris Mac.

  1. Tableau

Résultat de recherche d'images pour "excel tableau visualization"

Tableau est un service gratuit qui vous permet de télécharger, visualiser et partager des données Excel avec vos collègues. Vous pouvez également intégrer ces visualisations à un site Web.

  1. RAW

Vizydrop est une autre possibilité aux options précédentes : gratuit, rapide et partageable.

  1. Vizydrop

RAW est un parfait moyen de visualiser vos données Excel. Un simple copiez et collez de vos données sur le site Web https://rawgraphs.io/, personnalisez leur apparence et téléchargez votre visualisation.

Les Meilleurs Compléments d’EXCEL:

Si vous désirez tirer parti de toutes les possibilités de visualisation directement dans Excel, vous devez utiliser un complément. La boutique Microsoft propose un certain nombre d’options, voici les points saillants:

  1. Power Map

Power Map est un outil de visualisation 3D de Microsoft. Il utilise Bing Maps pour tracer des points de données sous forme de bulles, de cartes thermiques ou de colonnes.

  1. Bubbles

Bubbles présente vos données dans des cercles individuels dont la taille est en corrélation avec les données fournies. Jetez un coup d’œil à l’add-on Bubbles ici.

  1. GIGRAPHE

Cet outil vous facilite la prise de votre table de données Excel et permet de visualiser les réseaux qui connectent chaque point de données.

  1. Radial Bar Chart

Ce complément affiche vos données dans ce qui ne peut être décrit que comme le résultat de la fusion d’un graphique à barres avec un graphique à secteurs. En savoir plus sur le module Diagramme à barres radiales dans la boutique Office Store.

  1. People Graph

Il s’agit d’un complément de données Excel très basique, mais People Graph est une excellente option pour ceux qui souhaitent se familiariser avec la visualisation de base avant de passer à des outils plus approfondis.

Les meilleurs logiciels pour vos données Excel

Pour les outils de visualisation les plus complets disponibles, vous souhaiterez probablement rechercher des options logicielles. Cette sélection inclut certains des meilleurs que nous avons trouvés:

  1. Power BI

Power BI de Microsoft est un outil de visualisation haut de gamme, rassemblant des données provenant de centaines de sources différentes, y compris Excel, et facilitant l’analyse de ces données. Vous pouvez télécharger Power BI Desktop, Mobile ou Gateway pour des sources de données strictement locales.

  1. Qlik

Comme beaucoup d’outils présentés, l’interface glisser-déposer de Qlik facilite la création de visualisations complexes de vos données. Il possède une application de bureau dédiée et peut être téléchargé gratuitement.

  1. Looker

Looker prétend «faciliter la visualisation et l’exploration de données pour tous» et c’est ce qu’elle fait.

  1. StatPlus: mac

Vous Êtes a la recherche d’un outil pour votre Mac ou compatible avec la version de votre Mac. Ne cherchez plus, StatPlus est la solution idéale. Il est disponible en version légère et professionnelle: visitez leur site Web pour voir quelle option vous convient.

À vous de choisir :

Au fond, une grande variété des options que nous avons passé en revue dans cette liste présentent des caractéristiques similaires. Si vous voulez choisir le meilleur outil pour votre entreprise, votre meilleure option est d’essayer les outils gratuits et de voir quelles fonctionnalités vous manquent.

 

Mais comme un tour d’horizon:

12 Outils de visualisation de données pour Excel

 

    Tableau

    BRUT

    Vizydrop

    Diagramme à barres radiale

    Bulles

    GIGRAPH

    Carte de puissance

    Graphique de puissance

    Power BI

    Qlik

    Looker

    StatPlus: mac

Le Vocabulaire de la Data Science: Les mots à connaitre

Le Vocabulaire de la Data Science: Les mots à connaitre

Se lancer dans la Data Science peut être accablant, en particulier si l’on prend en compte la variété de concepts et de techniques qu’un Data Scientist doit maîtriser pour pouvoir faire son travail efficacement. Même le terme “Data Science” peut être quelque peu nébuleux et, à mesure que le champ gagne en popularité, il semble perdre sa définition. Pour aider les nouveaux venus sur le terrain à rester au top du jargon et de la terminologie du secteur, nous avons rassemblé le vocabulaire de la Data Science.

Nous espérons que ce glossaire vous servira de référence rapide lorsque vous travaillez sur un projet, ou que vous lisez un article, et que vous ne vous souvenez plus très bien de ce que signifie “ETL”.

Fondamentaux

Voici quelques concepts de base qu’il est utile de comprendre lorsqu’on se lance dans la science des données. Bien que vous n’ayez probablement pas à travailler avec tous les concepts mentionnés ici, connaître la signification de ces termes vous aidera à lire des articles. Cela vous aidera aussi a avoir le vocabulaire de la Data Science pour discuter de sujets avec d’autres personnes.

Algorithmes

Un algorithme est un ensemble d’instructions que nous donnons à un ordinateur pour qu’il puisse prendre des valeurs et les manipuler sous une forme utilisable. Cela peut être aussi simple que de rechercher et de supprimer toutes les virgules d’un paragraphe ou aussi complexe que de résoudre une équation aux dérivées partielles.

Back End

Le back-end est constitué de tout le code et de la technologie qui fonctionne en coulisse pour alimenter le frontal avec des informations utiles. Cela inclut les bases de données, les serveurs, les procédures d’authentification et bien plus encore. Vous pouvez penser à l’arrière-plan comme à l’ossature, à la plomberie et au câblage d’un appartement.

Big Data

Le Big Data est un terme qui souffre d’être trop large pour être utile. Il est plus utile de lire «autant de données qu’il est nécessaire de prendre des mesures minutieuses pour éviter des exécutions de scripts d’une semaine». Les mégadonnées sont davantage des stratégies et des outils qui aident les ordinateurs à effectuer des analyses complexes de très grandes (supérieure à 1 TB) ensembles de données. Les problèmes auxquels nous devons faire face avec le Big Data sont classés par les 4 V: volume, variété, véracité et vélocité.

Classification

La classification est un problème d’apprentissage automatique supervisé. Il traite de la catégorisation d’un point de données en fonction de sa similarité avec d’autres points de données. Vous prenez un ensemble de données dans lequel chaque élément possède déjà une catégorie et examinez les caractéristiques communes de chaque élément. Vous utilisez ensuite ces traits communs comme guide pour la catégorie que le nouvel élément pourrait avoir.

Base de données

Aussi simplement que possible, il s’agit d’un espace de stockage pour les données. Nous utilisons principalement des bases de données avec un système de gestion de base de données (SGBD), comme PostgreSQL ou MySQL. Ce sont des applications informatiques qui nous permettent d’interagir avec une base de données pour collecter et analyser les informations qu’il contient.

Entrepôt de données

Un entrepôt de données est un système utilisé pour analyser rapidement les tendances de l’entreprise à l’aide de données provenant de nombreuses sources. Ils sont conçus pour permettre aux utilisateurs de répondre facilement à des questions statistiques importantes sans doctorat. en architecture de base de données.

Front End

Le Front End comprend tout ce qu’un client ou un utilisateur peut voir et avec lequel il interagit directement. Cela inclut les tableaux de bord de données, les pages Web et les formulaires.

Algorithmes Flous

Algorithmes utilisant la logique floue pour réduire le temps d’exécution d’un script. Les algorithmes flous ont tendance à être moins précis que ceux utilisant la logique booléenne. Ils ont également tendance à être plus rapides et la vitesse de calcul est parfois supérieure à la perte de précision.

Logique floue

Une abstraction de la logique booléenne qui substitue l’habituel Vrai et Faux et une plage de valeurs comprise entre 0 et 1. En d’autres termes, la logique floue permet des énoncés du type “un peu vrai” ou “la plupart du temps faux”.

Algorithmes Gloutons

Un algorithme gourmand divisera un problème en une série d’étapes. Il cherchera ensuite la meilleure solution possible à chaque étape, dans le but de trouver la meilleure solution globale disponible. Un bon exemple est l’algorithme de Dijkstra, qui recherche le chemin le plus court possible dans un graphique.

Machine Learning

Processus par lequel un ordinateur utilise un algorithme pour comprendre un ensemble de données, puis effectue des prédictions en fonction de sa compréhension. Il existe de nombreux types de techniques d’apprentissage automatique. la plupart sont classées comme techniques supervisées ou non supervisées.

Overfitting 

La sur-adaptation survient lorsqu’un modèle prend en compte trop d’informations. C’est comme demander à une personne de lire une phrase en regardant une page à travers un microscope. Les schémas qui permettent la compréhension se perdent dans le bruit.

Régression

La régression est un autre problème d’apprentissage automatique supervisé. Il se concentre sur la façon dont une valeur cible change lorsque d’autres valeurs d’un jeu de données changent. Les problèmes de régression concernent généralement des variables continues, telles que la manière dont la superficie et l’emplacement affectent le prix d’une maison.

Statistique vs. Statistiques

Statistiques (pluriel) est l’ensemble des outils et méthodes utilisés pour analyser un ensemble de données. Une statistique (singulier) est une valeur que nous calculons ou déduisons à partir de données. Nous obtenons la médiane (une statistique) d’un ensemble de nombres en utilisant des techniques du domaine de la statistique.

Apprentissage et test

Cela fait partie du flux de travail d’apprentissage automatique. Lorsque vous créez un modèle prédictif, vous lui fournissez d’abord un ensemble de données d’apprentissage qui lui permet de mieux comprendre. Ensuite, vous transmettez au modèle un ensemble de tests dans lequel il applique sa compréhension et tente de prédire une valeur cible.

Underfitting 

Il y a sous-équipement lorsque vous n’offrez pas suffisamment d’informations à un modèle. Un exemple de sous-ajustement serait de demander à quelqu’un de représenter graphiquement le changement de température sur une journée et de ne lui donner que le haut et le bas. Au lieu de la courbe lisse attendue, vous ne disposez que de suffisamment d’informations pour tracer une ligne droite.

Domaines du Data

Apprendre le vocabulaire des domaines de la data science

Visualisation des données

Au fur et à mesure que les entreprises se concentrent davantage sur les données, de nouvelles opportunités s’offrent à des personnes de divers niveaux de compétences pour qu’elles fassent partie de la communauté des données. Ce sont quelques-uns des domaines de spécialisation existant dans le domaine de la science des données.

Connaitre ces domaine vous permettra d’approfondir votre jargon et  vocabulaire de la Data Science

Intelligence artificielle (IA)

Une discipline qui implique la recherche et le développement de machines conscientes de leur environnement. La plupart travaillent dans A.I. se concentre sur l’utilisation de la conscience de la machine pour résoudre des problèmes ou accomplir une tâche. Au cas où vous ne le sauriez pas, A.I. est déjà là: pensez aux voitures autonomes, aux robots chirurgiens et aux méchants de votre jeu vidéo préféré.

Business Intelligence (BI)

Similaire à l’analyse de données, mais plus étroitement centré sur les métriques commerciales. L’aspect technique de la BI consiste à apprendre à utiliser efficacement un logiciel pour générer des rapports et identifier les tendances importantes. C’est descriptif plutôt que prédictif.

L’analyse des données

Cette discipline est le petit frère de la science des données. L’analyse des données est davantage axée sur la réponse aux questions sur le présent et le passé. Il utilise des statistiques moins complexes et essaie généralement d’identifier les modèles qui peuvent améliorer une organisation.

Ingénierie de données (Data Engineering)

L’ingénierie des données concerne le back-end. Ce sont ces personnes qui construisent des systèmes qui facilitent l’analyse des scientifiques de données. Dans les équipes plus petites, un scientifique de données peut également être un ingénieur de données. Dans les groupes plus importants, les ingénieurs peuvent uniquement se concentrer sur l’accélération de l’analyse et la conservation des données bien organisées et faciles d’accès.

Journalisme de données (Data Journalism)

Cette discipline consiste à raconter des histoires intéressantes et importantes avec une approche centrée sur les données. Cela s’est fait naturellement avec plus d’informations devenant disponibles sous forme de données. Une histoire peut concerner des données ou être informée par des données. Il existe un manuel complet si vous souhaitez en savoir plus.

Science des données (Data Science)

Compte tenu de l’expansion rapide du domaine, la définition de la science des données peut être difficile à cerner. En gros, il s’agit de l’utilisation de données et de statistiques avancées pour faire des prévisions. La science des données est également axée sur la création d’une compréhension entre des données en désordre et disparates. Le «problème» abordé par un scientifique diffère considérablement d’un employeur à l’autre.

Visualisation de données

L’art de communiquer visuellement des données significatives. Cela peut impliquer des infographies, des tracés traditionnels ou même des tableaux de bord complets. Nicholas Felton est un pionnier dans ce domaine et Edward Tufte a littéralement écrit le livre.

Analyse quantitative:

Ce domaine est fortement axé sur l’utilisation d’algorithmes pour se démarquer dans le secteur financier. Ces algorithmes recommandent ou prennent des décisions de trading basées sur une énorme quantité de données, souvent de l’ordre de la picoseconde. Les analystes quantitatifs sont souvent appelés “quants”.

Outils statistiques

Il existe un certain nombre de statistiques utilisées par les professionnels des données pour raisonner et communiquer des informations sur leurs données. Voici quelques-uns des outils statistiques les plus élémentaires et les plus essentiels pour vous aider à démarrer.

Corrélation

La corrélation est la mesure de la mesure dans laquelle un ensemble de valeurs dépend d’un autre. Si les valeurs augmentent ensemble, elles sont positivement corrélées. Si l’une des valeurs d’un ensemble augmente à mesure que l’autre diminue, elles sont négativement corrélées. Il n’y a pas de corrélation lorsqu’un changement dans un ensemble n’a rien à voir avec un changement dans l’autre.

Moyenne (moyenne, valeur attendue)

Un calcul qui nous donne une idée d’une valeur “typique” pour un groupe de nombres. La moyenne est la somme d’une liste de valeurs divisée par le nombre de valeurs de cette liste. Il peut être trompeur d’être utilisé seul et, en pratique, nous utilisons la moyenne avec d’autres valeurs statistiques pour obtenir l’intuition de nos données.

Médian

Dans un ensemble de valeurs répertoriées dans l’ordre, la médiane est la valeur située au milieu. Nous utilisons souvent la médiane et la moyenne pour déterminer s’il existe des valeurs inhabituellement élevées ou basses dans l’ensemble. Ceci est un indice précoce pour explorer les valeurs aberrantes.

Normaliser

Un ensemble de données est dit normalisé lorsque toutes les valeurs ont été ajustées pour tomber dans une plage commune. Nous normalisons les ensembles de données pour rendre les comparaisons plus faciles et plus significatives. Par exemple, prendre les classements de films de plusieurs sites Web et les ajuster afin qu’ils tombent tous sur une échelle de 0 à 100.

Valeur aberrante

Une valeur aberrante est un point de données considéré comme extrêmement éloigné des autres points. Elles sont généralement le résultat de cas exceptionnels ou d’erreurs de mesure et doivent toujours être examinées tôt dans un flux de travail d’analyse de données.

Échantillon

L’échantillon est la collection de points de données auxquels nous avons accès. Nous utilisons l’échantillon pour tirer des conclusions sur une population plus importante. Par exemple, un sondage politique utilise un échantillon de 1 000 citoyens grecs pour inférer les opinions de l’ensemble de la Grèce.

Déviation standard

L’écart type d’un ensemble de valeurs nous aide à comprendre l’étendue de ces valeurs. Cette statistique est plus utile que la variance car elle est exprimée dans les mêmes unités que les valeurs elles-mêmes. Mathématiquement, l’écart-type est la racine carrée de la variance d’un ensemble. Il est souvent représenté par le symbole grec sigma, σ.

Signification statistique

Un résultat est statistiquement significatif lorsque nous jugeons que cela n’a probablement pas été le fruit du hasard. Il est très utilisé dans les enquêtes et les études statistiques, bien qu’il ne soit pas toujours une indication de la valeur pratique. Les détails mathématiques d’importance statistique dépassent le cadre de cet article, mais une explication plus complète est disponible ici.

Statistiques sommaires

Les statistiques récapitulatives sont les mesures que nous utilisons pour communiquer des informations sur nos données de manière simple. Des exemples de statistiques sommaires sont la moyenne, la médiane et l’écart type.

Des séries chronologiques (Temporelles)

Une série chronologique est un ensemble de données ordonnées par chaque point de données. Pensez aux cours boursiers sur un mois ou à la température tout au long de la journée.

Résiduelle (erreur)

Le résidu est une mesure de la différence entre une valeur réelle et une valeur statistique calculée à partir de l’ensemble de données. Donc, étant donné la prévision selon laquelle il fera 20 degrés Fahrenheit demain à midi, quand il sera midi et qu’il ne s’agit que de 18 degrés, nous avons une erreur de 2 degrés. Cela est souvent utilisé de manière interchangeable avec le terme “erreur”, même si, techniquement, l’erreur est une valeur purement théorique.

Variance

La variance d’un ensemble de valeurs mesure l’étendue de ces valeurs. Mathématiquement, il s’agit de la différence moyenne entre les valeurs individuelles et la moyenne de l’ensemble des valeurs. La racine carrée de la variance pour un ensemble nous donne l’écart type, ce qui est plus intuitivement utile.

Parties d’un flux de travail

Apprendre le vocabulaire de la data Science. Le workflow de la data science

Le workflow de la Data Science

Bien que chaque flux de travail soit différent, il s’agit de certains des processus généraux que les professionnels de l’information utilisent pour obtenir des informations à partir des données.

Exploration de données

La partie du processus de science des données où un scientifique posera des questions de base qui l’aideront à comprendre le contexte d’un ensemble de données. Ce que vous apprendrez au cours de la phase d’exploration guidera plus loin une analyse plus approfondie. En outre, cela vous aide à reconnaître quand un résultat peut être surprenant et à justifier une enquête plus approfondie.

Data Mining

Processus consistant à extraire des informations exploitables d’un ensemble de données et à les utiliser à bon escient. Cela inclut tout, depuis le nettoyage et l’organisation des données; l’analyse pour trouver des modèles et des relations significatives; de communiquer ces connexions de manière à aider les décideurs à améliorer leur produit ou leur organisation.

Pipelines de données

Une collection de scripts ou de fonctions qui transmettent des données dans une série. La sortie de la première méthode devient l’entrée de la seconde. Cela continue jusqu’à ce que les données soient nettoyées et transformées de manière appropriée pour la tâche sur laquelle une équipe travaille.

Wrangling de données (Munging)

Processus consistant à prendre les données dans leur forme d’origine et à les “apprivoiser” jusqu’à ce qu’elles fonctionnent mieux dans un flux de travail ou un projet plus large. Apprivoiser signifie rendre les valeurs cohérentes avec un ensemble de données plus volumineux, remplacer ou supprimer des valeurs susceptibles d’affecter l’analyse ou les performances ultérieurement, etc. La querelle et l’attachement sont utilisées de manière interchangeable.

ETL (Extraire, Transformer, Charger)

Ce processus est essentiel pour les entrepôts de données. Il décrit les trois étapes permettant de transférer les données de nombreux endroits sous forme brute sur un écran, prêtes à être analysées. Les systèmes ETL nous sont généralement offerts par les ingénieurs en informatique et fonctionnent en coulisse.

Web Scraping

Le Web Scraping consiste à extraire des données du code source d’un site Web. Il s’agit généralement d’écrire un script qui identifiera les informations souhaitées par un utilisateur et les extraira dans un nouveau fichier pour une analyse ultérieure.

Techniques de Machine Learning

Les techniques de machines Learning. Voir le vocabulaire de la data science specialement celui associer au ML

Les techniques de machines Learning.

Le domaine de l’apprentissage automatique a tellement grandi qu’il existe maintenant des postes pour les ingénieurs d’apprentissage automatique. Les termes ci-dessous offrent un large aperçu de certaines techniques courantes utilisées dans l’apprentissage automatique.

Clustering

Les techniques de regroupement tentent de collecter et de classer des ensembles de points en groupes suffisamment “proches” ou “proches” les uns des autres. La “proximité” varie selon la manière dont vous choisissez de mesurer la distance. La complexité augmente à mesure que le nombre de fonctionnalités ajoutées à un espace de problème.

Arbres de décision

Cette méthode d’apprentissage automatique utilise une série de questions ou d’observations sur un ensemble de données donné pour prédire une valeur cible. Ils ont tendance à sur-adapter les modèles à mesure que les ensembles de données deviennent volumineux. Les forêts aléatoires sont un type d’algorithme d’arbre de décision conçu pour réduire le sur-ajustement.

Deep Learning

Les modèles d’apprentissage en profondeur utilisent de très grands réseaux de neurones, appelés réseaux profonds, pour résoudre des problèmes complexes, tels que la reconnaissance faciale. Les couches d’un modèle commencent par l’identification de modèles très simples, puis par la complexité. À la fin, le réseau a une compréhension nuancée qui permet de classer ou de prédire avec précision les valeurs.

Ingénierie des fonctionnalités (Feature Engineering)


Processus consistant à prendre les connaissances que nous avons en tant qu’êtres humains et à les traduire en une valeur quantitative qu’un ordinateur peut comprendre. Par exemple, nous pouvons traduire notre compréhension visuelle de l’image d’une tasse en une représentation de l’intensité des pixels.

Sélection de fonctionnalité (Feature Selection)

Le processus d’identification des caractéristiques d’un ensemble de données sera le plus précieux lors de la construction d’un modèle. C’est particulièrement utile avec les grands ensembles de données, car utiliser moins de fonctionnalités réduira le temps et la complexité nécessaires à la formation et au test d’un modèle. Le processus commence par mesurer la pertinence de chaque caractéristique d’un ensemble de données pour prédire votre variable cible. Vous choisissez ensuite un sous-ensemble de fonctionnalités qui conduira à un modèle hautes performances.

Les réseaux de neurones

Une méthode d’apprentissage automatique très vaguement basée sur les connexions neuronales dans le cerveau. Les réseaux de neurones sont un système de noeuds connectés segmentés en couches – des couches d’entrée, de sortie et masquées. Les couches cachées (il peut y en avoir beaucoup) sont les poids lourds utilisés pour faire des prédictions. Les valeurs d’une couche sont filtrées par les connexions à la couche suivante, jusqu’à ce que le dernier ensemble de sorties soit fourni et qu’une prédiction soit effectuée. 

Apprentissage supervisé

Avec les techniques d’apprentissage supervisé, le Data Scientist donne à l’ordinateur un ensemble de données bien défini. Toutes les colonnes sont étiquetées et l’ordinateur sait exactement ce qu’il recherche. Cela ressemble à un professeur qui vous remet un programme et vous dit à quoi vous attendre lors de la finale.

Apprentissage automatique non supervisé

Dans les techniques d’apprentissage non supervisées, l’ordinateur développe sa propre compréhension d’un ensemble de données non étiquetées. Les techniques de ML non supervisées recherchent des modèles dans les données et traitent souvent de la classification des éléments sur la base de traits partagés.

>