All posts by Zakariyaa ISMAILI

Données Structurées et non Structurées : Tout ce qu’il faut savoir

L’une des caractéristique du Big Data est la variété. Cette variété concerne plusieurs niveaux et un des éléments est la variété des données. Dans cet article, nous allons étudier les deux types de données : Données structurées et non structurées.

Données structurées

Données Structurées

Données Structurées

Le terme données structurées signifie généralement des données ayant une typologie, format et longueur définies. On peut citer quelques exemples de données structurées :

  • Nombres
  • Dates
  • Chaînes de caractère

Plusieurs chercheurs spécialisés en Big Data affirment que ce type de données (structurées) représente environ 20% des données existants. Cependant, les données structurées sont les données les plus manipulées et sont généralement stocké dans des bases de données relationnelles.

Très souvent, on utilise le langage SQL pour interroger ces données.

Dans les entreprise, on collecte des données structurées à partir de différentes sources comme les CRM et les ERP.

Les sources des données structurées

Les sources de données structurées sont divisées en deux catégories:

1 – Données généré par ordinateur :

Ce sont les données générées automatiquement par la machine sans aucune intervention humaine.

Les données structurées générées par ordinateur inclus les éléments suivants :

  • Données de capteur: par exemple les étiquettes d’identification par radiofréquence, dispositifs médicaux et données GPS. On peut ici prendre l’exemple du suivi des conteneurs de produits d’un endroit à un autre. Lorsque l’information est transmise par la puce, elle peut aller sur un serveur et pour être analysé. Les entreprises s’intéressent à cela pour la gestion de la chaîne d’approvisionnement
    et contrôle des stocks.
  • Données de point de vente: lorsque le caissier scanne le code barre de tout produit, toutes les données associées à ce produit sont générées. Si on regarde le nombre de produits vendus par jour, on se rend compte de la quantité énorme de données générées.
  • Données financières: les systèmes financiers utilisent des règles prédéfinies pour automatiser les processus et ainsi générées des données. Par exemple, les données sur les actions contiennent des données structurées comme le code (ISIN) de l’entreprise et la valeur en dollars ou en euro.

2- Généré par l’homme:

Il s’agit des données générées par des humains en interaction avec l’ordinateur lors de saisie par exemple.

Les données structurées générées par l’homme inclus les éléments suivants :

  • Données de saisie: Il s’agit des données qu’un humain pourrait entrer dans un ordinateur en utilisant un clavier par exemple. 
  • Données de flux de clics: à chaque fois que vous visiter un site sur internet, lorsque vous cliquer sur un lien, vous générer des données. Ces données peuvent être analysées pour comprendre le comportement des visiteurs du site.
  • Données relatives au jeu: chaque mouvement que vous effectuez dans un jeu peut être enregistré. Cela peut être utile pour comprendre comment les utilisateurs finaux se déplacent dans une portefeuille de jeux.

 

Données non structurées

Données Non Structurées

Données Non Structurées

Les données non structurées sont des données qui ne suivent ni une typologie ni un format précis. Comme dit précédemment, 80% des données disponibles sont non structurées.
Les données non structurées c’est donc l’énorme majorité des données que vous rencontrerez. Cependant, jusqu’à récemment, la technologie ne permettait pas vraiment d’exploiter ces données à part les stocker ou les analyser manuellement.

Sources des données non structurées

La bonne nouvelle est que les données non structurées sont partout !

Tout comme pour les données structurées, les données non structurées sont générées par l’ordinateur ou par l’homme.

1 – Données généré par ordinateur :

Voici quelques exemples de données générés par la machine :

  • Images satellite: Cela comprend les données météorologiques, les données récupérées par les états dans le cadre de la surveillance par satellite. Google Earth est un excellent exemple.
  • Données scientifiques: Cela inclut les images sismiques, les données atmosphériques et physique des hautes énergies.
  • Photographies et vidéo: les données générées par les systèmes de vidéo surveillance par exemple.
  • Données radar

2 – Généré par l’homme:

Voici quelques exemples de données générés par l’homme :

  • Texte interne à votre entreprise: par exemple, le contenu texte dans les procédures, documentations et échanges d’email. 
  • Médias sociaux: Toutes les données générées sur les réseaux sociaux comme les commentaires sur YouTube ou les “likes” sur Instagram ou encore les tweets.
  • Données mobiles: Les messages textes (SMS) ou les données de localisation.
  • Contenu du site: Par exemple, le contenu de ce blog que je produit.

Qualité des données : Quels critères ?

Bonjour les Data Scientist ! Dans cet article, j’ai envie de vous exposer la notion de qualité des données qui est très importantes. Il faut absolument connaitre tous les critères de la qualité des données avant même de penser aux modèles de Machine Learning. 

Souvent, vous entendrez que la clé d’un bon modele de Machine Learning est la qualité des données utiliser pour l’entrainer. Donc, aujourd’hui je vais vous aider a déterminer la qualité de ces données en vous donnons les critères clés à vérifier.

Donc, allons directement voir les critères de qualité des donnes.

Validité

Le premier critère est le degré de conformité des données aux règles ou contraintes définies. Ces contraintes concernent :

  1. Les types de données: les valeurs d’une colonne doivent être d’un type de données particulier, par exemple, numérique, date, etc.
  2. Contraintes de plage: par exemple, les nombres doivent être compris dans une plage donnée.
  3. Contraintes obligatoires : par exemple certaines colonnes ne peuvent pas être vide. 
  4. Unicité: un champ ou plusieurs champs combinés doit être unique dans un dataset.
  5. Clé étrangère : comme pour les bases de données relationnelles, la colonne de clé étrangère ne peut pas avoir une valeur qui n’existe pas dans la clé primaire référencée.
  6. Motifs d’expression régulière: concernent des champs de textes doivent respecte un format précis. Exemple les numéros de téléphone qui doivent respecte le format (+33) 6 66 66 66 66.
  7. Validation entre champs: concernent des conditions qui doivent être remplies. Par exemple, un date de décès ne pas être avant une date de naissance de la même personne.

Précision

Ici la première des choses à avoir en tête est la différence entre exactitude et validité. Par exemple, dire que vous vivez en Europe est, certes, vrai. Cependant, cette réponse n’est pas précise.

Donc, ce qu’on doit vérifier est la précision des données et non seulement leurs exactitudes.

Cette tache n’est clairement pas simple. Car définir toutes les valeurs valides possibles permet de repérer facilement les valeurs non valides, cela ne signifie pas pour autant qu’elles sont exactes et encore moins qu’elles sont précis.

Complétude

On est souvent confrontes à cette problématique des valeurs manquantes qui rend nos données incomplets.

On peut atténuer cette problématique en nous assurant d’utiliser une bonne source de données. Il est possible de résoudre ce problème en discutant directement avec les propriétaires des données. Par exemple, dans une société d’assurance on peut avoir des contrats d’assurance manquants dans la base de donnes mais le service commercial a ses propres systèmes ce qui permettra de retrouver toutes les données manquantes.

Cohérence

qualité de données Cohérence ou Incohérence ?

Cohérence ou Incohérence ?

Ici, on parle du degré de cohérence des données, dans le même dataset ou entre plusieurs datasets.

Une incohérence est le fruit a deux ou plusieurs données contradictoire dans le même dataset.

Par exemple, dans une base de donnes, on ne peut pas avoir un enfant de 8 ans dont le statut marital est divorce. Incohérence !!

Uniformité

Dans un dataset les donnes doivent utiliser les mêmes normes. Par exemple les mêmes unités de mesure.

Le poids peut être entré en livres ou en kilos. La date peut suivre le format européen ou le format américain. 

Evitez de mélanger plusieurs unités de mesures dans le mêmes dataset.

 

Mathématiques essentielles pour la Data Science

Les mathématiques représentent la base de toute discipline scientifique. Presque tous les concepts de Data Science et Machine Learning reposent sur des bases mathématiques.

Dans votre apprentissage des techniques, algorithmes et langages de programmation en vue de devenir Data Scientist ou d’approfondir vos connaissance, il ne faut pas OUBLIER les mathématiques.

Il est souvent préférable de connaitre les dessous des algorithmes que vous utiliserez que d’être un simple exécutant. Par conséquent, une solide compréhension des mathématique vous donnera un avantage concurrentiel parmi vos pairs.

Considérons un développeur ou un analyste. Ils peuvent traiter un grand nombre de données et d’informations, mais ils sont pas intéressés par une modélisation de ces données. Souvent, l’accent est mis sur l’utilisation des données pour un besoin immédiat plutôt que sur une exploration scientifique approfondie.

La Data Science, en revanche, devrait s’intéresser aux modèles et ainsi suivre un processus scientifique. Le processus scientifique est le suivant :

  • Modéliser un processus en sondant la dynamique sous-jacente
  • Construire des hypothèses
  • Mesurer la qualité de la source de données
  • Quantifier l’incertitude
  • Identifier le modèle caché à partir des données analysées
  • Comprendre les limites du modèle

La Data Science est applicable à, presque, tous les domaines. Ainsi, elle peut traiter des problèmes aussi divers que le diagnostic du cancer et l’analyse du comportement social.

Cela donne la possibilité d’un tableau vertigineux d’objets mathématiques à n dimensions, de distributions statistiques, de fonctions d’optimisation, etc.

Dans le reste de l’article, je vous fourni les notions qu’il faut maitriser pour faire partie des meilleurs Data Scientists.

Fonctions, variables, équations et graphiques

Fonction Mathématique

Fonction Mathématique

Cette partie couvre les bases mathématiques, de l’équation au théorème binomial :

  • Logarithme, fonctions exponentielles, fonctions polynomiales, nombres rationnels
  • Géométrie, identités trigonométriques
  • Inégalités
  • Nombres réels et complexes, propriétés de base
  • Graphique, coordonnées cartésiennes et polaires
  • Séries, suites

Cas d’utilisation

Si vous souhaitez comprendre comment une requête s’exécute rapidement dans une base de données contenant des données massives triée, vous rencontrerez le concept de «recherche binaire».

Pour en comprendre ce concept, vous devez comprendre les logarithmes et la récurrence.

Ou, si vous souhaitez analyser une série temporelle, vous pouvez rencontrer des concepts tels que «fonctions périodiques».

Statistiques

Statistiques

Statistiques

Apprendre et maîtriser les concepts statistique et probabiliste est un pré-requis quand on parle de Machine Learning. Chaque Data Scientist doit avoir de solide connaissance en statistique.

De nombreux Data Scientists considèrent en fait que le Machine Learning  n’est qu’un apprentissage statistique.

Bien évidement c’est un sujet très vaste et une planification et organisation sont essentielles pour couvrir les concepts les plus importants :

  • Statistiques descriptives, variance, covariance, corrélation
  • Probabilité de base, espérance, calcul de probabilité, théorème de Bayes, probabilité conditionnelle
  • Fonctions de distribution de probabilité
  • Échantillonnage, mesure, erreur, génération de nombres aléatoires
  • Tests d’hypothèses, tests A / B, intervalles de confiance, valeurs p
  • ANOVA, test t
  • Régression linéaire, régularisation

Mathématiques discrètes

Mathématiques discrètes

Mathématiques discrètes

Les Mathématiques discrètes sont rarement cité quand on parle de Data Science. Et pourtant les mathématiques discrètes sont au cœur des systèmes informatiques modernes.

Vous devez connaitre les concepts de Maths discrète d’algorithmes et de structures de données dans un projet d’analyse :

  • Ensembles, sous-ensembles, ensembles d’alimentation
  • Fonctions de comptage, combinatoire, comptabilité
  • Techniques de preuve de base: induction, preuve par contradiction
  • Bases de la logique inductive, déductive et propositionnelle
  • Structures de données de base: piles, files d’attente, graphiques, tableaux, tables de hachage, arbres
  • Propriétés du graphique: composants connectés, degré, concepts de débit maximal / minimum de coupe, coloration du graphique
  • Relations de récurrence et équations
  • Croissance des fonctions et concept de notation O (n)

 

Algèbre linéaire

Algèbre linéaire

Algèbre linéaire

Pour comprendre le fonctionnement des algorithmes de Machine Learning sur un flux de données afin de créer un aperçu, l’algèbre linéaire est essentielle.

Vous avez certainement déjà eu des suggestions d’amis sur Facebook ou des recommandations de video sur YouTube, en passant par le transfert de votre selfie vers un portrait à la Salvador Dali utilisant l’apprentissage par transfert en profondeur. Tous ces exemples implique des matrices et une algèbre matricielle.

Les notions que vous devez apprendre :

  • Propriétés de base de la matrice et des vecteurs: multiplication scalaire, transformation linéaire, transposition, conjugaison, rang, déterminant
  • Produits internes et externes, règle de multiplication de matrice et divers algorithmes, matrice inverse
  • Concept de factorisation matricielle / décomposition de LU, élimination de Gauss / Gauss-Jordan, résolution du système d’équation linéaire Ax = b
  • Matrices spéciales: matrices carrées, matrices d’identité, matrices triangulaires, idées sur les matrices creuses et denses, vecteurs unitaires, matrices symétriques, matrices hermitiennes, asymétriques et unitaires
  • Valeurs propres, vecteurs propres, diagonalisation, décomposition en valeurs singulières
  • Espace vectoriel, base, étendue, orthogonalité, orthonormalité, moindre carré linéaire

Cas d’utilisation

  • Pour faire une analyse en composantes principales on utilise la décomposition en valeurs singulières pour obtenir une représentation de dimension compacte du jeu de données avec moins de paramètres. 
  • Les algorithmes de réseau de neurone utilisent des techniques d’algèbre linéaire pour représenter et traiter les structures de réseau et les opérations d’apprentissage.

 

Calcul

Calculs

Calculs

Le calcul apparaît partout en Data Science et en apprentissage automatique et plus globalement derrière tous les programmes et algorithmes. 

Les calculs se cachent derrière la solution analytique d’apparence simple d’un problème des moindres carrés ordinaires en régression linéaire ou intégrée à chaque propagation en retour de votre réseau de neurones pour apprendre un nouveau motif.

Si vous deviez vos concentrer que sur les concepts essentielles, apprenez ces sujets :

  • Fonctions de variable unique, limite, continuité, différentiabilité
  • Théorèmes de valeur moyenne, formes indéterminées, règle de L’Hospital
  • Maxima et minima
  • Produit et chaîne règle
  • Série de Taylor, concepts de sommation / intégration de séries infinies
  • Théorèmes fondamentaux et de valeur moyenne du calcul intégral, évaluation d’intégrales définies et impropres
  • Fonctions bêta et gamma
  • Fonctions de variables multiples, limite, continuité, dérivées partielles
  • Bases des équations différentielles ordinaires et partielles

 

Thèmes d’optimisation et de recherche opérationnelle

recherche opérationnelle

recherche opérationnelle

Ces concepts sont très pertinents car une compréhension de base de ces techniques puissantes peut être fructueuse dans la pratique du Machine Learning.

Pratiquement tous les algorithmes de Machine Learning visent à minimiser un type d’erreur d’estimation soumis à diverses contraintes, ce qui constitue un problème d’optimisation.

Vous devez à minima vous intéresser à ces sujets:

  • Bases de l’optimisation
  • Formuler le problème d’optimisation
  • Maxima, minima, fonction convexe, solution globale
  • Techniques d’optimisation randomisée: escalade, recuit simulé, algorithmes génétiques
  • Programmation linéaire, programmation entière
  • Programmation par contraintes, problème de sac à dos
12 meilleurs livres de Data Science

9 Meilleurs Livres de Data Science en 2019

Dans cet article, je vous propose une liste de livres qui vous permettront de développer vos compétences en Data Science. Les sujets traités vont de la programmation Python et R à l’apprentissage automatique en passant par les mathématiques et les statistiques.

Allons, donc, voir vos prochains livres de chevet !

1 – Python Data Science Handbook

Python Data Science Handbook

Python Data Science Handbook

Les tendances montrent que Python est toujours le langage principal de la Data Science et du Machine Learning.

Le livre Python Data Science Handbook est une excellente référence pour renforcer les compétences en Python.

On vous demandera souvent aux Data Scientists de travailler sur de nombreuses tâches, mais le nettoyage et la manipulation des données restent la tache qui prend la plus grande partie du temps.

Ce livre est une référence parfaite à garder sous la main pour les tâches fréquentes de manipulation de données principalement utilisant pandas.

Parmi les sujets traités dans ce livre:

  • Shell IPython
  • Numpy
  • Manipulation des données avec pandas
  • Visualisations de données avec Matplotlib
  • Machine Learning avec Scikit-Learn

Cliquer ici pour consulter le livre sur Amazon.

2 – Think Python

Think Python

Think Python

Si vous débutez avec Python, ce livre est fait pour vous.

Si vous avez un bon niveau en Python, ce livre est pour vous aussi.

Think Python traite toutes les bases de Python, des bases des structures et fonctions de données aux sujets plus avancés tels que les classes et l’héritage.

Dans ce livre, vous verrez en plus de la présentation des concepts clés, des cas d’études concrets. C’est un excellent moyen pour comprendre et assimiler de nouveaux concepts.

Parmi les sujets traités dans ce livre :

  • Les fonctions
  • Itération
  • Structures de données
  • Des dossiers
  • Des classes
  • Les méthodes
  • Héritage

Cliquer ici pour consulter le livre sur Amazon.

3 – R for Data Science

R for Data Science

R for Data Science

une bonne maîtrise de R vous permettra de vous “vendre” facilement auprès des employeurs. R est une compétence très recherchée.

R dispute avec Python la place du premier langage de programmation pour la Data Science.

Une étude récente menée par des Data Scientists a montré que 52,1% des Data Scientists répondants au sondage utilisent R, un peu moins de 52,6% utilisant Python.

Ce livre est parfait pour développer vos compétences en programmation statistique avec R.

Il couvre toutes les bases de R allant d’un niveau débutant aux sujet les plus avancés.

Ce livre est une excellente référence générale qui doit accompagner tout développeur R ou Data Scientist !

Les sujets abordés dans le livre :

  • Exploration
  • La programmation
  • La modélisation
  • La communication

Cliquer ici pour consulter le livre sur Amazon.

4 – Advanced R

Advanced R

Advanced R

Si vous voulez vraiment vous distinguer en tant qu’utilisateur R et impressionner les employeurs, Advanced R est une excellente ressource.

Il couvre tout, des fondations aux structures de données, à la programmation orientée objet et au débogage, à la programmation fonctionnelle et au code de performance.

Si vous avez une connaissance avancée de R et pouvez penser au code de niveau de production, vous vous rendrez immédiatement plus attrayant pour les employeurs potentiels.

Cliquer ici pour consulter le livre sur Amazon.

5 – Introduction to Statistical Learning

Introduction to Statistical Learning

Introduction to Statistical Learning


Ce livre est l’un des meilleurs livres d’introduction au Machine Learning.  l fournit des explications faciles pour comprendre des concepts de base et donne des exemples de code avec R.

Il couvre également les bases des modèles linéaires de manière approfondie.

Connaitre ces bases vous permettra de couvrir la major partie des problématiques ou questions posés pendant les entretiens d’embauche.

Les sujets abordés dans le livre :

  • Sélection de fonctionnalité
  • Régression polynomiale
  • Méthodes basées sur des arbres
  • Apprentissage supervisé
  • Apprentissage non supervisé

Cliquer ici pour consulter le livre sur Amazon.

6 – The Elements of Statistical Learning

The Elements of Statistical Learning

The Elements of Statistical Learning


Si vous souhaitez accélérer votre carrière dans le Machine Learning, vous devez bien maîtriser plus que les bases. Vous devez maîtriser les sujets avancés.

Ce livre est la ressource idéale pour amener vos compétences en Machine Learning à un niveau supérieur.

C’est l’un des livres les plus complets sur le Machine Learning.

Dans ce livre vous trouverez tout les concepts du Machine Learning, des méthodes linéaires aux réseaux de neurones, en passant par les forêts aléatoires.

C’est un peu plus mathématique que les autres livres, donc pour approfondir la compréhension des concepts c’est le TOP.

Cliquer ici pour consulter le livre sur Amazon.

7 – Understanding Machine Learning: From Theory to Algorithms

Understanding Machine Learning: From Theory to Algorithms

Understanding Machine Learning: From Theory to Algorithms


Si vous souhaitez bien comprendre les algorithmes de Machine Learning, ce livre est un excellent choix.

Il est divisé en sections de plus en plus complexes:

  • Bases
  • De la théorie aux algorithmes
  • Modèles de Machine Learning
  • Théorie avancée

C’est un excellent moyen d’acquérir une bonne compréhension des concepts de Machine Learning est de les implémenter.

Cliquer ici pour consulter le livre sur Amazon.

8 – Mining of Massive Datasets

Mining of Massive Datasets

Mining of Massive Datasets

Ce livre a été rédigé à partir de plusieurs cours de Stanford sur l’exploration de données à grande échelle.

Dans ce livre, on parle essentiellement de Data Mining.

Parmi les sujet abordés dans le livre :

  • Mapreduce
  • Exploitation de data stream
  • Systèmes de recommandation
  • Exploitation de graphiques de réseaux sociaux
  • Réduction de la dimensionnalité
  • Machine Learning à grande échelle

 

Cliquer ici pour consulter le livre sur Amazon.

9 – Think Stats

Think Stats

Think Stats



En tant que Data Scientist ou Data Analyst,  vous devez maîtriser les probabilités et les statistiques.

Les modèles de Machinea Learning sont basés sur des principes fondamentaux de la théorie des probabilités.

Donc, pendant vos entretiens d’embauche attendez vous a quelques questions sur les probabilités et les statistiques. 

Ce livre n’est pas destiné aux mathématiciens ou statisticiens, il utilise donc une approche pratique pour expliquer les concepts mathématiques.

Les sections sont courtes et faciles à lire, vous pourrez donc travailler rapidement à travers des exemples.

Ce livre aborde, entre autres, les sujets suivant :

  • Statistiques descriptives
  • Fonctions de distribution cumulatives
  • Distributions continues
  • Probabilités
  • Opération et distributions
  • Tests d’hypothèses
  • Estimation
  • Corrélation

Cliquer ici pour consulter le livre sur Amazon.

25 Questions-Réponses pour un Entretien Big Data

Entretien d’embauche Big Data : 25 Questions à préparer en 2019

Passer un entretien d’embauche en Big Data est, certes, une des étapes les plus stressantes dans une carrière. Il faut toujours montrer sa motivation, son dynamisme et surtout ses compétences techniques. C’est la raison pour laquelle j’ai décide d’écrire cet article afin de vous apporter les quelques questions qui sont souvent posés.

Ce sera bien évidement le premier article dans ce style mais certainement pas le dernier dans une longue séries.

Donc, sans plus tarder, allons voir ces questions-réponses !

Entretien Technique : Questions-Réponses  

Entretien d’embauche Big Data

Alors prêt pour l’entretien d’embauche ?


1. Qu’est ce que le terme «big data» signifie ?

Les Big Data traitent des ensembles de données volumineux, complexes et en constante augmentation qui ne peuvent pas être gérés et manipuler avec des logiciels et techniques classiques.

2. En quoi le Big Data est-il utile ?

Le Big Data permet aux entreprises de comprendre le comportement de leurs clients et les aide à tirer des conclusions à partir de grands ensembles de données collectées.

Cela les aide à prendre des décisions quant à leur offre de produit, tarification, distribution, etc.

3. Quel est le numéro de port pour NameNode?

Port 50070

4. Que fait la commande JPS?

On utilise la commande JPS pour tester si tous les daemons Hadoop fonctionnent correctement.

5. Comment démarrer tous les démons Hadoop ensemble ?

./sbin/start-all.sh


6. Caractéristiques de Hadoop.

  • Open source.
  • Convivial.
  • Évolutivité.
  • Localité de données.
  • Récupération de données.

7. Citez les cinq V du Big Data ?

les cinq V du Big data :

  • Le volume
  • La vitesse
  • La variété
  • La véracité
  • La valeur.

8. Citez les composants de HDFS ?

 Les 2 composants de HDFS sont:

  1. Name Node
  2. Data Node

9. Quel est le lien entre le Big Data et Hadoop?

Hadoop est un framework spécialisé dans les opérations Big Data.

10. Citez des outils de gestion de données utilisés avec les nœuds Edge ?

  • Oozie
  • Flume
  • Ambari
  • Hue

11. Les étapes pour déployer une solution Big Data ?

Les étapes du déploiement d’une solution Big Data :

  1. Ingestion de données
  2. Stockage de données
  3. Traitement de l’information

12. Dans combien de modes Hadoop peut-il être exécuté?

 Hadoop peut être exécuté selon 3 modes:

  1. le mode autonome
  2. le mode pseudo-distribué
  3. le mode entièrement distribué.

13. Citez les méthodes de base d’un réducteur

 Les 3 méthodes de base d’un réducteur sont :

  • installer()
  • réduire()
  • nettoyer()

14. La commande pour arrêter tous les deamons Hadoop ?

./sbin/stop-all.sh


15. Quel est le rôle de NameNode dans HDFS?

NameNode est responsable du traitement des informations de métadonnées pour les blocs de données dans HDFS.

16. Qu’est-ce que FSCK?

FSCK (File System Check) est une commande utilisée pour détecter les incohérences et les problèmes dans le fichier.

17. Quelles sont les applications en temps réel de Hadoop?

  • Gestion de contenu.
  • Agences financières.
  • Défense et cybersécurité.
  • Gestion des publications sur les médias sociaux.

18. Quelle est la fonction de HDFS?

 Le système de fichiers distribués Hadoop (HDFS) est l’unité de stockage par défaut de Hadoop. Il est utilisé pour stocker différents types de données dans un environnement distribué.

19. Qu’est-ce qu’un matériel standard?

Le matériel de base peut être défini comme les ressources matérielles de base requises pour exécuter la structure Apache Hadoop.

20. Citez des deamons utilisés pour tester la commande JPS.

  • NameNode
  • NodeManager
  • DataNode
  • Gestionnaire de ressources

21. Citez les formats de saisie les plus courants dans Hadoop?

  • Format de saisie de texte
  • Format d’entrée de la valeur clé
  • Format d’entrée du fichier de séquence

22. Donnez des exemples d’entreprises qui utilisent Hadoop.

  • Facebook
  • Netflix
  • Amazon
  • Twitter.

23. Quel est le mode par défaut pour Hadoop ?

 Le mode par défaut de Hadoop est le mode autonome. 

24. Quel est le rôle de Hadoop dans l’analyse de données volumineuses ?

Hadoop facilite l’analyse des données volumineuses car il fournit un stockage et aide à la collecte et au traitement des données.

25. Citez les composants de YARN

 Les principales composantes de YARN :

  • Gestionnaire de ressources
  • Node Manager

4 Compétences Essentielles pour Data Analyst

Les données constituent sans doute le principal avantage stratégique des entreprises d’aujourd’hui. Et, de manière compréhensible, les entreprises renforcent leur main-d’œuvre en matière de données et investissent dans le recrutement et le développement de postes clés tels que la data science et les analystes de données. Ces analystes doivent maîtriser la suite d’outils de données disponibles aujourd’hui.

Pour occuper ce poste, il faut maîtriser des domaines interdisciplinaires allant des statistiques aux compétences pratiques en informatique, à la théorie des couleurs et à la rédaction. Voici les quatre compétences essentielles dont vous avez besoin pour exceller en tant que Data Analyst.

1. Analyse de données

Au jour le jour, les analystes doivent interroger des ensembles de données, répondre à des questions et fournir une orientation basée sur des interprétations. En tant que tel, vous avez besoin d’une base solide de concepts mathématiques et statistiques. La synthèse et l’agrégation sont souvent nécessaires pour synthétiser et interpréter les données. Par exemple, utiliser la médiane et les quartiles opposés à la moyenne avec des données sensibles aux valeurs aberrantes peut aider à obtenir une image précise.

Les analystes maîtrisent également les techniques de test des données: du test A / B simpliste au développement de modèles qui correspondent et décrivent vos données, en passant par l’ANOVA et les tests d’hypothèses.

En plus de connaître les bonnes méthodes statistiques à appliquer, vous devez comprendre le lien qui existe entre les données et elles-mêmes. Les analystes doivent être à même de comprendre différentes structures de données et méthodes de stockage et de créer des ensembles de données robustes à l’aide de concepts tels que les clés primaires, les relations un à plusieurs, les dimensions et les faits.

2. SQL

SQL pour Data analyst

SQL

Pour exploiter véritablement les données, les Data Analysts doivent maîtriser le langage SQL. Généralement considéré comme le langage de programmation le plus populaire, SQL est la clé pour accéder aux données. La familiarité avec la manière de récupérer des données, de créer des jointures, de développer des procédures stockées, de créer des agrégations et de travailler avec des types de données vous permettra de mettre la main sur les données dont vous rêvez.

De plus, la capacité de décharger efficacement des calculs intensifs et de personnaliser la structure au niveau du modèle de données peut être essentielle pour créer des visualisations sophistiquées. L’analyste de données compétent maîtrisera suffisamment ces concepts pour s’associer à des ingénieurs et des architectes de données afin de faciliter la création de modèles de données personnalisés à des fins d’analyse.

3. Tableau Desktop

Tableau Desktop s’est positionné comme le principal outil utilisé par les analystes pour connecter, interagir et visualiser des données. Il est capable d’accéder aux données d’un large éventail de sources de données, de manipuler et de combiner facilement plusieurs ensembles de données et de créer rapidement un contenu analytique conçu pour une consommation de masse. Son interface réactive et son approche par drag and drop vous permettent de rester dans le flux de l’analyse. Tableau Desktop est la clé de chaque phase d’analyse: exploration, conservation, présentation et communication des données.

Les analystes doivent savoir comment créer efficacement différentes vues ou visualisations et comment optimiser les fonctionnalités intégrées de Tableau Desktop. Des analystes hautement qualifiés ont mis de côté le menu «show me» pour créer un contenu sur mesure visant directement des questions commerciales complexes.

Dans le monde de l’analyse en libre-service, vous devez maîtriser l’ajout d’interactivité et l’utilisation d’actions et de jeux pour aider les utilisateurs finaux à analyser en profondeur leurs questions brûlantes.

4. Visualisation des données

La communication de vos connaissances et de vos conclusions à partir de données permet de limiter les autres compétences que vous avez acquises et constitue peut-être l’élément le plus critique. Il est important que chaque analyste se concentre sur la manière dont ses conclusions sont communiquées. Cela signifie:

  • Utilisation efficace des types de graphique basés sur l’analyse.
  • Comprendre les attributs pré-attentifs comme la taille et la position.
  • Simplifier les solutions qui maximisent la connaissance et la compréhension.

Ces piliers de visualisation de données constituent le pont nécessaire pour permettre à d’autres d’extraire des résultats importants de votre travail. Les meilleurs analystes d’aujourd’hui connaissent le bon tableau pour répondre aux questions commerciales les plus courantes et sont suffisamment compétents pour adapter les meilleures pratiques à leur public. Les concepts en couleur et la manière de les appliquer aux données catégoriques par rapport aux données numériques, la mise en page et l’accompagnement de texte seront des priorités absolues pour affiner et simplifier en permanence votre approche.

Machine Learning: quels avantages pour votre entreprise?

Machine Learning: quels avantages pour votre entreprise?

Avez-vous déjà regardé une video recommandée sur YouTube ? Avez-vous déjà remarqué l’efficacité du correcteur automatique de votre smartphone ? Si tel est le cas, vous avez bénéficié d’une ou plusieurs application du Machine Learning.

Depuis quelques années, les entreprises explorent les possibilités de développements que peut offrir le Machine Learning. Dans cet article, je vais vous lister les avantages concurrentiels que peut vous apporter l’apprentissage automatique. 

Qu’est-ce que le Machine Learning?

Avant de voir tous les avantages que peut vous apporter le Machine Learning, on commence par le définir.

En pratique, le Machine Learning consiste à comprendre des données et des statistiques. Autrement dit, c’est un processus où des algorithmes informatiques trouvent des modèles dans les données, puis prédisent les résultats probables.

C’est, par exemple, le cas quand vous recevez un mail; votre fournisseur de messagerie électronique va analyser les mots figurant dans l’objet du mail, les liens, etc. Suite à cette analyse, il classifiera le mail soit en spam ou en mail légitime.

Dans certain cas, les algorithmes de votre fournisseur de messagerie va se tromper mais ce qui rend le machine learning vraiment utile, c’est que l’algorithme peut «apprendre» et adapter ses résultats en fonction de nouvelles informations. Cela signifie que lorsque les spammeurs changent de tactique, la machine détecte rapidement les nouveaux modèles et identifie à nouveau correctement les messages douteux comme étant du SPAM.

Comment les entreprises utilisent le Machine Learning

La surveillance des e-mails n’est qu’un petit exemple parmi tant d’autres. Le machine learning est partout.

Machine Learning : Risque de Fraude

Machine Learning : Risque de Fraude

  1. Lorsque vous utilisez Google Traduction, un algorithme traduit ce texte en un autre texte exploitable.
  2. PayPal utilise des modèles différents d’apprentissage automatique pour déterminer et prévoir les cas de fraude.
  3. Facebook l’utilise pour analyser les photos et détecter les visages, puis suggérer aux utilisateurs de marquer les personnes que l’algorithme trouve dans l’image.

Cependant, l’apprentissage automatique va bien au-delà des exemples que je viens de citer.

Il peut être utilisé pour prédire le trafic de transport, les maladies, les cours des actifs financiers, les pannes matérielles, etc.

Les défis du Machine Learning

Tous les usages du Machine Learning sont très passionnants  et interessants. Cependant, la mise en place de l’apprentissage automatique dans toute organisation pose des défis.

  1. La première consiste à comprendre le problème et déterminer quel type d’algorithme utiliser pour résoudre ce problème. Par exemple, un algorithme de classification peut être utilisé pour classer un client de restaurant comme étant plus susceptible de prendre un menu complet ou juste un plat, mais il ne peut pas être utilisé pour prédire l’impact des hausses de prix sur les ventes.
  2. Le deuxième étant le risque de «surapprentissage» des données, qui consiste à former le système pour comprendre un ensemble de données jusqu’au point ou il perd toute capacité de généraliser, d’apprendre et de faire des prévisions en se basant sur de nouvelles données. 

Votre entreprise doit-elle adopter le Machine Learning ?

Une fois correctement mis en place, le Machine Learning peut vous aider à résoudre d’énormes problèmes dans votre entreprise. Aussi, il pourra vous aider à prévoir le comportement des clients et prospect afin de développer votre activité.

Donc, si vous pouvez utiliser l’apprentissage automatique pour analyser  les données et faire des prédictions qui aideront votre entreprise à se développer, pourquoi ne pas le faire ?

Pour créer un bon système de Machine Learning, vous avez besoin de :

  1. Une compréhension du Machine Learning.
  2. Connaissance des différents algorithmes disponibles et des types de problèmes qu’ils peuvent résoudre.
  3. Données (de différentes sources; internes et externes)
  4. La patience

Et n’oubliez surtout pas de vous assurez que votre entreprise suit les grandes tendances technologiques.

Comment Obtenir des Données Financières grâce à Quandl ?

Pour implémenter un modèle de Machine Learning, le choix de la source de données est primordial. Ce choix est plus important quand on traite des données financières. Bien évidement, il existe plusieurs sources données mais dans notre article nous allons voir un “newcomer” qui est Quandl.com.

Nous allons voir comment le configurer pour obtenir des données en utilisant Python

A noter que Quandl propose des données payantes et une grande quantité de données gratuites.

Quandl, Késako ?

Quandl est un nouveau fournisseur de données financières fondé en 2013 et devenu rapidement très respecté. Ils comptent aujourd’hui plus de 250 000 utilisateurs allant des particuliers aux grandes institutions financières. En fait, Quandl fournit deux catégories principales de données :

  1. Données financières de base: données sur les titres et données marché pour toutes les classes d’actifs.
  2. Données alternatives: données de sources autres que les données des marchés réglementés.

Il couvre la plupart des données financières de base dont les sources les plus populaires sont payantes avec un système d’abonnement. Par contre, c’est dans les données alternatives que Quandl est désormais considéré comme l’un des principaux fournisseurs et enregistre la plus forte croissance.

Mais alors, qu’est ce que les données alternatives ?!

Données alternatives

Les données alternatives représente toute forme de données pouvant être utilisées par les analystes financiers pour évaluer un titre ou un marché. En principe, ces données proviennent de sources de données autre que les sources habituelles.

Une sources de données habituelle peut inclure des bilans financiers, des rapports réglementaires, des communiqués de presse et présentations d’entreprise, etc. Cependant avec l’essor fulgurant des «Big Data» et de «Data Science» ces dernières années, on constate une explosion de sources de données alternatives.

la croissance des fournisseurs de données alternatifs comme quandl

La croissance des fournisseurs de données alternatifs publiés par alternativedata.org

Parmi les données alternatives fournit, on a :

  • Transactions par carte de paiement
  • Imagerie satellite / GPS
  • Trafic aérien, maritime et ferroviaire
  • Réseaux sociaux
  • Tendances sur internet
  • Nouvelles immatriculations de voitures

Dans un environnement d’investissement très concurrentiel, l’analyse de ces données peut donner un avantage concurrentiel non négligeable.

 Ouvrir un compte sur Quandl

Pour commencer à utiliser Quandl, il faut d’abord créer un compte en suivant les étapes suivantes:

  • Renseigner votre nom et prénom
Ouvrir un compte Quandl

Ouvrir un compte Quandl

 

  • Entrez l’adresse email et choisir Personal dans “How will you use this data”
Ouvrir un compte quandl etape 2

Email

  • Choisir un mot de passe
Ouvrir un compte quandl etape3

Mot de passe sécurisé

  • Cliquer sur ‘Create account’

Vous allez recevoir dans les secondes qui suivent un email de confirmation. Vous devez cliquer sur le lien de validation.

Maintenant vous pouvez vous connectez à votre nouveau compte Quandl. D’abord, vous verrez votre vue Tableau de bord.

Le tableau de bord vous permet de voir toutes les données disponibles sous différentes catégories.

Tableau de bord Quandl

Tableau de bord Quandl

API de Quandl

Maintenant qu’on ait un compte sur Quandl, nous allons voir comment l’utiliser. Premièrement, nous allons voir comment générer la clé API

Clé API Quandl

Avant d’utiliser l’API de Quandl, on doit commencer par vérifier la clé cliente de l’API.

Accédez à la page “Account Settings” de votre compte Quandl:

Paramètres du compte Quandl

Paramètres du compte

Maintenant, la chaîne de caractère affichée à l’écran représente la clé API.

Clé API Quandl

Clé API

On va, maintenant, se pencher sur la configuration sur Python.

API Python

Dans cette partie de l’article, nous allons voir comment configurer l’API sur Python. Pour Cela, suivez les étapes suivantes :

1- Installation de Python 

Assurez-vous d’avoir installer Python sur votre machine. Si ce n’est pas le cas, installez-le en suivant le tutoriel sur Youtube.

2- Installation de la librairie Quandl

Après avoir installé python, nous devrons installer la librairie Quandl  avant d’essayer d’obtenir des données.

Python est fourni avec un outil appelé pip qui simplifie l’installation. Donc, il suffit d’exécuter la ligne suivante pour installer Quandl

pip install quandl

Installation de Quandl

Installation de Quandl

3- Premier script

Ce premier script va surtout nous permettre de tester que tout est bien configuré. 

  • Créer un dossier de travail
Creer un dossier de travail

Creer un dossier de travail

  • Ouvrer le terminal de commande et taper “python” pour accéder à l’environnement Python
Accéder à l'environnement Python

Accéder à l’environnement Python

  • Importer l’API Quandl et s’assurer que notre clé d’API est définie. 
import quandl
quandl.ApiConfig.api_key = ‘sufaEEBSq6gtFfX2SyXX’

Configurer la Cle API

Configurer la Cle API

  • Maintenant, on va récupérer des données sur les contrats d’Or
data = quandl.get(‘CME/GCJ2020`)
print(data)

Récupérer les contrats d'Or sur Quandl

Récupérer les contrats d’Or

  • On enregistre les données récupérées sur un fichier Csv
data.to_csv(‘c:\quandl\GCJ2020.csv’)


Top 10 des Librairies de Deep Learning sur Python

Python est si populaire en Data Science, Machine Learning et Deep Learning que la majorité des Data Scientits préfèrent Python. Au point que 45% des entreprises technologiques préfèrent utiliser Python pour implémenter l’IA et le Machine Learning. Une des raisons de la popularité de Python sont ses librairies et sa communauté. Dans cet article, nous allons voir le Top 10 des librairies de Deep Learning sur Python.

1. TensorFlow

TensorFlow une librairie de Deep Learning Python

TensorFlow, librairie développée par Google.

TensorFlow est une librairie open-source pour le calcul numérique dans laquelle elle utilise des graphiques de flux de données. Elle a été développé par des chercheurs de Google Brain Team avec l’organisation de recherche Machine Intelligence de Google.

TensorFlow est open source et disponible au public. 

Je vous invite a lire notre article sur les applications de TensorFlow.

2. Keras 

Keras une librairie de Deep Learning Python

Keras, librairie de Deep Learning

Keras est une librairie de réseaux de neurones minimaliste et modulaire. Elle utilise Theano ou TensorFlow comme back-end. Grâce à sa facilité et sa simplicité, Keras permet de mettre en place des projets rapidement.

Keras possède des algorithmes pour les couches d’optimisation, de normalisation et d’activation. Il traite également des réseaux de neurones de convolution et permet de construire des réseaux à base de séquences et de graphes.

Cependant, une des limites est qu’il ne prend pas en charge les environnements multi-GPU.

3. Apache MXNET

MXNET une librairie de Deep Learning Python

Apache MXNET

 

4. Caffe

Caffe une librairie de Deep Learning Python

Caffe

Caffe est une librairie de Deep Learning rapide et modulaire. 

5. Theano

Theano une librairie de Deep Learning Python

Theano

Sans NumPy, nous ne pourrions pas avoir SciPy, scikit-learn et scikit-image. De même, Theano sert de base à beaucoup. C’est une bibliothèque qui vous permettra de définir, d’optimiser et d’évaluer des expressions mathématiques impliquant des tableaux multidimensionnels. Il est étroitement intégré à NumPy et utilise le GPU de manière transparente.

6. Microsoft Cognitive Toolkit

Microsoft Cognitive Toolkit

Microsoft Cognitive Toolkit

Microsoft Cognitive Toolkit est un framework de Deep Learning développé par Microsoft.

7. PyTorch

PyTorch

PyTorch

PyTorch est un réseau de neurones tenseur et dynamique en Python. Il observe une forte accélération des GPU, est open-source et peut être utilisé pour des applications telles que le traitement du langage naturel.

8. Eclipse DeepLearning4J

DeepLearning4J est une librairie de Deep Learning développée par Eclipse.

9. Lasagne

Lasagne

Lasagne

Lasagne est une librairie Python légère qui nous aide à construire et à former des réseaux de neurones dans Theano.

10. PyLearn2

PyLearn2 est une librairie de Machine Learning avec la plupart des fonctionnalités construite sur Theano.

Il donne la possibilité d’écrire des plugins PyLearn2 en utilisant des expressions mathématiques. Que Theano va optimiser et stabiliser pour nous. Ensuite Theano les compile.

 

5 Raisons pour Apprendre le Python Maintenant

Python est clairement mon langage de “cœur” ! Mais, ça n’a pas toujours été le cas. J’ai commencé à apprendre la programmation avec Java et c’était pour moi un langage hyper compliqué au début, mais des que j’ai commence à maîtriser les notions de Java, je ne jurais que par ce langage.

Quelques années plus tard, j’ai eu à travailler avec mon professeur d’analyse sur un projet et m’a demandé d’utiliser Python. Cela me faisait un peu peur car je connaissais absolument pas Python et je voulais qu’on utilise plutôt Java. Cependant mon professeur a réussi à “m’imposer” Python.

J’ai dû, donc, apprendre ce langage pour réaliser un projet d’un mois !! Et depuis … Je ne jure que par Python 😉

Dans cet article, je vais vous expliquer pourquoi Python est devenu mon langage favori et pourquoi vous devriez l’apprendre aussi.

Mon objectif est, aussi, de vous épargner la même douleur et de vous convaincre que Python est quelque chose que vous devez ABSOLUMENT apprendre.

Python est facile à apprendre

C’est «plus facile» par rapport à la plupart des autres langages de programmation disponibles.

Dans mon cas, avant d’apprendre Python, je connaissais déjà Java et je peux vous garantir que Python est … mille fois plus facile que Java.

La syntaxe de Python est très intuitive, ce qui la rend lisible et compréhensible même lorsque vous n’êtes pas un expert en Python.

De mon expérience, Python s’y prête pour un apprentissage à l’aide d’exemples ou de projets concrets contrairement aux autres langages. Car la syntaxe de Python comporte beaucoup moins de règles et de cas particuliers.

Python est un langage polyvalents

Python a 30 ans maintenant. Même s’il est plus ancien que bon nombre de mes lecteurs, il reste très pertinent car il peut s’appliquer à presque tous les scénarios de développement logiciel ou d’opérations que vous pouvez trouver aujourd’hui.

Cela va de la gestion d’infrastructure locale ou cloud au développement web en passant par la Data Science.

Python peut aussi être utilise pour l’IOT, le développement des jeux vidéos, automatisations des taches, etc. Il est vraiment POLYVALENT !

Donc, en investissant un peu de temps pour apprendre ce langage, le retour sur investissement est clairement très intéressant. Et, vous serez gagnant à tous les coups.

Les Librairies Python sont ENORMES.

Raison apprendre python est les libraries

Librairie

Une fois que vous connaissez le langage et la syntaxe, vous pouvez commencer vos projets.

Python est soutenu par PyPI, qui est un référentiel de plus de 85 000 modules et scripts Python que vous pouvez utiliser immédiatement. Ces modules fournissent des fonctionnalités préemballées à votre environnement Python local et résolvent des problèmes aussi divers que le travail avec des bases de données, la mise en œuvre de la vision par ordinateur, l’exécution d’analyses de données avancées telles que l’analyse des sentiments ou la création de services Web RESTful.

Et au-delà de tout cela, Python regroupe un très grand nombre de librairies permettant de, quasiment, répondre à tous les besoin.

Python est un langage très utilisé.

Quel que soit votre travail actuel ou votre plan de carrière, les donnes en feront bien partie. 

Les domaines tels que le développement logiciel, le marketing, la finance, etc sont tous noyés dans les données et ont besoin de les comprendre. Actuellement, les compétences en programmation et en analyse des données sont très recherches. Tant mieux, Python répond aux deux problématiques.

D’abord, parce que Python est LE langage le plus utilisé en Data Science et Machine Learning. Deuxièmement, parce que les compétences que vous développez en apprenant Python seront directement utilisées pour développer vos compétences en analyse des données.

Python est Open Source

Python est multi-plateforme et développé en Open Source depuis plus de 30 ans. Si vous avez besoin d’un code qui fonctionne sous Linux, Windows et MacOS, Python vous le fournira.

De plus, cela fait des décennies que des bugs sont corriges et le langage s’adapte déjà parfaitement à tous les systèmes d’exploitation.

Cela veut, donc, dire que votre programme sera utilisable sur toutes les plateformes une fois développé.

Pourquoi devriez-vous connaître Python

Il n’existe pas beaucoup de langages pouvant offrir la polyvalence et la simplicité de Python. 

Comme, il n’existe pas beaucoup de langages pouvant offrir la robustesse et la communauté de Python. 

Je vous recommande de commencer à apprendre Python maintenant, vous y gagnerez beaucoup !

Je vous invite à lire mon article : Pourquoi Python est populaire en Data Science ?

 

>