La préparation pour un entretien d’embauche est très importante car elle vous permettra de renvoyer une image professionnelle et compétente au recruteur et c’est ce que les entreprises cherchent réellement: des professionnels compétents. Afin de vous aider à réussir votre entretien, nous vous présentons 50 questions à préparer pour un entretien d’embauche de Data Engineer.
L’ingénierie des données fait référence à métier, connu dans le domaine du Big Data. Elle fait référence à l’architecture et l’infrastructure des données. Elle se focalise sur de la collecte de données et de la recherche dans les données.
Les données sont générées à partir de plusieurs sources et ne sont que des données brutes. L’ingénierie des données aide à convertir ces données brutes en informations utiles.
Les compétences d’un Data Engineer se concentrent sur :
Un Data Engineer a plusieurs responsabilités. Il gère le système source des données et simplifie la structure complexe des données tout en évitant la duplication des données.
Le Data Engineer fournit souvent des ELT.
La réponse est détaillé dans cet article: Qu’est-ce qu’un Data Engineer?
La modélisation des données est une méthode documentation de la conception logicielle complexe comme un diagramme. Il s’agit d’une représentation conceptuelle des objets de données qui sont associés entre divers objets de données et sous des règles.
Il existe deux types de schémas dans la modélisation des données:
Données structurées:Sont des inormations (mots, signes, chiffres…) contrôlées par des référentiels et présentées dans une Base de données, qui facilite leur interprétation et traitement par des machines.
Données non structurées: Sont des données qui ne sont pas organisées d’une manière prédéfinie ou qui ne possèdent pas de modèle de données prédéfini. Elles ne conviennent donc pas à une base de données relationnelle traditionnelle. Elles sont ininterprétables par des machines.
Une application Hadoop se constitue de:
NameNode est l’élément central de HDFS. il stocke les données de HDFS et et suit différents fichiers à travers les clusters. Les données ne sont pas stockés dans cet élément, mais plutot dans les DataNodes.
C’est un outils qui permet de créer des cartes, de réduire l’emploi et les envoyer à un cluster spécifique.
HDFS = Hadoop Distributed File System / Système de fichiers distribués Hadoop
Les Blocks sont les plus petites unités de données dans un fichier de données. hadoop divise automatiquement Hadoop divise automatiquement les fichiers énormes en petits morceaux.
Block scanner vérifie la liste des blocks présents dans le DataNode.
Voici les étapes qui se produisent lorsque Block Scanner détécte un bloc de données corrompu :
Tout d’abord, lorsque Block Scanner trouve un bloc de données corrompu, DataNode rapporte NameNode
NameNode commence le processus de création d’une nouvelle “copie” en utilisant une copie du bloc corrompus.
Voici les noms des fichiers de configuration XML dans Hadoop:
Hadoop est:
COSHH signifie Classification and Optimization based Schedule for Heterogeneous Hadoop systems.
FSCK signifie File System Check, c’est une commande utilisé par HDFS. La commande FSCK est utiliser pour vérifier les incohérences et les problème dans un fichier.
Hadoop fonctionne avec des systèmes de fichiers distribués évolutifs comme S3, HFTP FS, FS, et HDFS. le système de fichiers distribués Hadoop est basé sur le système de fichiers Google. Ce système de fichiers est conçu de manière à pouvoir fonctionner facilement sur une grand cluster du système informatique.
YARN est Yet Another Resource Negotiator.
Les modes d’Hadoop sont:
Sécuriser le canal d’authentification entre le client et le serveur. Fournir un time-stamped au client.
Le client utilise le time-stamped reçu pour demander à TGS un ticket de service.
Le client utilise le ticket de service pour une auto-authentification sur un serveur spécifique.
Dans Hadoop, NameNode et DataNode communiquent entre eux. Heartbeat est le signal envoyé régulièrement , par le DataNode au NameNode pour s’assurer de son présence.
C’est un grand ensemble de données structurées et non structurées, qui ne peuvent pas être traitées facilement par les méthodes traditionnelles de stockage des données. Les Data Engineers utilisent Hadoop pour gérer le Big Data.
Il s’agit d’un algorithme de planification des tâches Hadoop. Dans cette planification FIFO, une sélection des tâches est faite à partir d’une file d’attente et la plus ancienne tâche est en premier.
Quels sont les numéros de ports par defaut de task tracker, NameNode, et job tracker d’Hadoop?
Pour désactiver Block Scanner dans le DataNode de HDFS, paramètrez dfs.datanode.scan.period.hours à 0.
La distance est égale à la somme de la distance aux nœuds les plus proches. La méthode getDistance() est utilisé pour calculer la distance entre deux nœuds.
Matériel de base est facile à obtenir et abordable. C’est un système qui est compatible avec Windows, MS-DOS, ou Linux.
Le facteur de réplication est un nombre total de répliques d’un fichier dans le système.
Le NameNode stocke les metadatas du HDFS comme l’information sur le block et l’information d’espace de noms.
dans les Cluster Hadoop, NameNode utilise le DataNode pour pour améliorer le trafic réseau lors de la lecture ou l’écriture de tout fichier qui est le plus proche du rack à la demande de lecture ou d’écriture. Namenode maintient l’id du rack de chaque DataNode pour obtenir des informations de rack. Ce concept est appelé Rack Awareness dans Hadoop.
le reducer d’Hadoop passe par 3 étapes:
Hadoop utilise Context object avec Mapper pour interagir avec le système restant.Context object récupère les détails de configuration du système et le travail dans son constructeur.
On utilise Context object pour faire passer dans les méthodes setup(), cleanup() et map().Cet objet rend les informations vitales disponibles pendant les opérations de cartographie.
Dans les systemes Big data, la taille des données est énorme, c’est pourquoi il n’est pas logique de de déplacer les données dans l’ensemble du réseau. De ce fait, Hadoop tente de rapprocher le calcul des données et c’est pourquoi les données restent locales de l’emplacement stocké.
En HDFS, le balancer est un outil administratif utilisé pour rééquilibrer les données dans l’ensemble des nœuds de données et déplacer les blocs des nœuds sur-utilisés aux nœuds sous-utilisés.
C’est un mode de lecture seulement pour un NameNode d’un cluster. Initialement, NameNode est un safe mode.
Il stocke le schéma ainsi que l’emplacement de la table Hive.
La table Hive définit la mappe et les métadonnées qui sont stockées dans Metastore. Cela peut être stocké dans RDBMS pris en charge par JPOX.
Serde est un nom court pour Serializer ou Deserializer. Dans Hive, Serde permet de lire des données de table et d’écrire dans un champ spécifique dans n’importe quel format .
Voici les composants du modèle de données dans Hive:
Hive fournit une interface pour gérer les données stockées dans l’éco-système Hadoop. il est utilisé pour la cartographie et le travail avec les tables de Hbase.
Les requêtes Hive sont converties en tâches Mapreduce afin de masquer la complexité associée à la création et à l’exécution des tâches Mapreduce.
Hive supporte:
Dans Hive, .hiverc est le fichier d’initialisation.Ce fichier est chargé dès que nous démarrons l’interface de ligne de commande (CLI) pour Hive. Nous pouvons définir les valeurs initiales des paramètres dans le fichier .hiverc.
oui, nous pouvons créer plus d’une table dans Hive pour un seul fichier de données. Hive enregistre le schéma dans Hive Metastore. Basé sur ce schéma, nous pouvons récupérer des différents résultats à partir des mêmes données.
47. Expliquez les différentes implémentations SerDe disponibles dans Hive
Il existe de nombreuses implémentations Serde disponibles dans Hive. Vous pouvez également écrire votre propre implémentation Serde personnalisée.
Voici quelques implémentations Serde :
Voici une liste des fonctions de génération de table:
Pour visualiser la structure d’une base de données MySQL, vous pouvez utiliser la commande DESCRIBE: la syntaxe est : DESCRIBE Table name;.
Nous pouvons définir différents types d’expression régulière et rechercher l’utilisation de regex.
Voici comment l’analyse des données et Bid peuvent augmenter les revenus de l’entreprise :
A lire aussi:
La session a expiré
Veuillez vous reconnecter. La page de connexion s’ouvrira dans une nouvelle fenêtre. Après connexion, vous pourrez la fermer et revenir à cette page.