25 Questions-Réponses pour un Entretien Big Data

Entretien d’embauche Big Data : 25 Questions à préparer en 2019

Passer un entretien d’embauche en Big Data est, certes, une des étapes les plus stressantes dans une carrière. Il faut toujours montrer sa motivation, son dynamisme et surtout ses compétences techniques. C’est la raison pour laquelle j’ai décide d’écrire cet article afin de vous apporter les quelques questions qui sont souvent posés.

Ce sera bien évidement le premier article dans ce style mais certainement pas le dernier dans une longue séries.

Donc, sans plus tarder, allons voir ces questions-réponses !

Entretien Technique : Questions-Réponses  

Entretien d’embauche Big Data

Alors prêt pour l’entretien d’embauche ?


1. Qu’est ce que le terme «big data» signifie ?

Les Big Data traitent des ensembles de données volumineux, complexes et en constante augmentation qui ne peuvent pas être gérés et manipuler avec des logiciels et techniques classiques.

2. En quoi le Big Data est-il utile ?

Le Big Data permet aux entreprises de comprendre le comportement de leurs clients et les aide à tirer des conclusions à partir de grands ensembles de données collectées.

Cela les aide à prendre des décisions quant à leur offre de produit, tarification, distribution, etc.

3. Quel est le numéro de port pour NameNode?

Port 50070

4. Que fait la commande JPS?

On utilise la commande JPS pour tester si tous les daemons Hadoop fonctionnent correctement.

5. Comment démarrer tous les démons Hadoop ensemble ?

./sbin/start-all.sh


6. Caractéristiques de Hadoop.

  • Open source.
  • Convivial.
  • Évolutivité.
  • Localité de données.
  • Récupération de données.

7. Citez les cinq V du Big Data ?

les cinq V du Big data :

  • Le volume
  • La vitesse
  • La variété
  • La véracité
  • La valeur.

8. Citez les composants de HDFS ?

 Les 2 composants de HDFS sont:

  1. Name Node
  2. Data Node

9. Quel est le lien entre le Big Data et Hadoop?

Hadoop est un framework spécialisé dans les opérations Big Data.

10. Citez des outils de gestion de données utilisés avec les nœuds Edge ?

  • Oozie
  • Flume
  • Ambari
  • Hue

11. Les étapes pour déployer une solution Big Data ?

Les étapes du déploiement d’une solution Big Data :

  1. Ingestion de données
  2. Stockage de données
  3. Traitement de l’information

12. Dans combien de modes Hadoop peut-il être exécuté?

 Hadoop peut être exécuté selon 3 modes:

  1. le mode autonome
  2. le mode pseudo-distribué
  3. le mode entièrement distribué.

13. Citez les méthodes de base d’un réducteur

 Les 3 méthodes de base d’un réducteur sont :

  • installer()
  • réduire()
  • nettoyer()

14. La commande pour arrêter tous les deamons Hadoop ?

./sbin/stop-all.sh


15. Quel est le rôle de NameNode dans HDFS?

NameNode est responsable du traitement des informations de métadonnées pour les blocs de données dans HDFS.

16. Qu’est-ce que FSCK?

FSCK (File System Check) est une commande utilisée pour détecter les incohérences et les problèmes dans le fichier.

17. Quelles sont les applications en temps réel de Hadoop?

  • Gestion de contenu.
  • Agences financières.
  • Défense et cybersécurité.
  • Gestion des publications sur les médias sociaux.

18. Quelle est la fonction de HDFS?

 Le système de fichiers distribués Hadoop (HDFS) est l’unité de stockage par défaut de Hadoop. Il est utilisé pour stocker différents types de données dans un environnement distribué.

19. Qu’est-ce qu’un matériel standard?

Le matériel de base peut être défini comme les ressources matérielles de base requises pour exécuter la structure Apache Hadoop.

20. Citez des deamons utilisés pour tester la commande JPS.

  • NameNode
  • NodeManager
  • DataNode
  • Gestionnaire de ressources

21. Citez les formats de saisie les plus courants dans Hadoop?

  • Format de saisie de texte
  • Format d’entrée de la valeur clé
  • Format d’entrée du fichier de séquence

22. Donnez des exemples d’entreprises qui utilisent Hadoop.

  • Facebook
  • Netflix
  • Amazon
  • Twitter.

23. Quel est le mode par défaut pour Hadoop ?

 Le mode par défaut de Hadoop est le mode autonome. 

24. Quel est le rôle de Hadoop dans l’analyse de données volumineuses ?

Hadoop facilite l’analyse des données volumineuses car il fournit un stockage et aide à la collecte et au traitement des données.

25. Citez les composants de YARN

 Les principales composantes de YARN :

  • Gestionnaire de ressources
  • Node Manager

About the Author Zakariyaa ISMAILI

Je suis Zakariyaa ISMAILI, titulaire d'un diplôme d'ingénieur en Mathématiques Appliquées et un Master en Informatique, Mathématiques et Finance de Marché. Je travaille depuis quelques années dans de grands groupes financiers européens (AXA et Swiss Life entre autres) sur des problématiques mêlant Data, Finance et Mathématiques.

follow me on:
>