Salaire du data scientist

    Entretien d’embauche de Data Scientist : 50 Questions à préparer en 2020

    La préparation pour un entretien d’embauche est très importante car elle vous permettra de renvoyer une image professionnelle et compétente au recruteur et c’est ce que les entreprises cherchent réellement: des professionnels compétents. Afin de vous aider à réussir votre entretien, nous vous présentons dans cet article 50 questions à préparer pour un entretien d’embauche de Data Scientist.

    Question basiques posées en entretien d’embauche de Data Scientist

    Dans cette première section de l’article, je vais vous proposer une liste de questions souvent posées en entretien d’embauche de Data Scientist.

    Je vous conseille de bien comprendre toutes ces notions car ils sont basiques et souvent très posées.

    1. Quel est le rôle d’un Data Scientist ?

    On pose souvent des questions d’entretien sur le rôle du scientifique des données. Les Data Scientists aident les entreprises à comprendre les données et à résoudre des problèmes complexes en utilisant leurs compétences pointues dans l’analyse des données.

    Les scientifiques des données analysent et visualisent les données et facilitent leur transmission au client. Ils possèdent des connaissances et de l’expérience en informatique, en modélisation de données, en statistique, en analytique et en mathématiques, ainsi que des connaissance métiers liés au domaine d’expertise de l’entreprise (Finance, Marketing ou autres).

    ✅ Je vous invite vivement à consulter l’article de Zack : Qu’est-ce qu’un Data Scientist ?

    2.Définissez la Data Science

    La Data science est la combinaison des algorithmes, outils et techniques de Machine Learning ou Apprentissage automatique qui aident à trouver des modèles cachés communs à partir des données brutes.

    3. Quelle est la différence entre la Data Science et le Big Data?

    Cet article répond en détails à cette question: Data science vs Big Data 

    4. Énumérez les principales composantes d’un projet de Data Science.

    Voici les principales composantes d’un projet de Data Science:

    1. Compréhension des exigences opérationnelles
    2. Acquisition et préparation des données
    3. Analyse des données, visualisation et inférence

    5. Que signifie la régression logique dans la Data Science?

    La régression logique est une méthode pour prévoir le résultat binaire à partir d’une combinaison linéaire de variables prédictives.

    6. Nommez trois types de biais qui peuvent se produire pendant l’échantillonnage

    Dans le processus d’échantillonnage, il existe trois types de biais:

    • Sélection
    • Sous-couverture
    • Survie

    7. A quoi sert l’algorithme de l’arbre de décision?

    L’arbre de décision est un algorithme d’apprentissage supervisé. Il est utilisé pour la régression et la classification.  Cela permet de diviser un ensemble de données en sous-ensembles plus petits. L’arbre de décision peut gérer à la fois les données catégoriques et numériques.

    8. Que signifie la probabilité antérieure et la vraisemblance?

    La probabilité antérieure est la proportion de la variable dépendante dans l’ensemble de données, tandis que la vraisemblance est la probabilité de classer un observateur donné en présence d’une autre variable.

    9. Quels sont les systèmes recommandation?

    Les systèmes recommandation  représentent un filtrage de données. Ils prévoient les préférences des utilisateurs sur les produits en vente. Avec cette préférence, les systèmes de recommandations peuvent recommander un produit ou service à l’utilisateur.

    Le système de recommandation est largement utilisé pour recommander: films, articles à lire, produit, musique,…

    10. Nommez trois inconvénients du modèle linéaire

    Les  trois inconvénients du modèle linéaire sont :

    • L’hypothèse de linéarité des erreurs.
    • Vous ne pouvez pas utiliser ce modèle pour les résultats binaires ou de dénombrements
    • Dans ce modèle, il y a plusieurs problèmes d’Overfitting ou dépassement qu’il ne peut pas résoudre

    11. Listez les librairies Python les plus utilisés dans la Data Science

    • SciPy
    • Pandas
    • Matplotlib
    • NumPy
    • SciKit
    • Seaborn

    12. Que signifie l’analyse de puissance?

    L’analyse de la puissance fait partie intégrante de la conception expérimentale. Elle aide à déterminer la taille de l’échantillon nécessaire pour déterminer l’effet d’un ensemble de donnée avec un niveau d’assurance spécifique. Elle permet également de déployer une probabilité particulière dans une contrainte de taille d’échantillon.

    13. Expliquez le filtrage coopératif ou Collaborative filtering

    Le filtrage coopératif est utilisé pour rechercher le meilleur modèle en collaboration  avec des points de vue, de multiples sources de données et différents agents.

    14. Que signifie un biais?

    Le biais est une erreur introduite dans votre modèle à cause de la simplification excessive d’un algorithme de Machine Learning.

    15. Que signifie Naive dans l’algorithme Naive Bayes?

    Le modèle d’algorithme de Naive Bayes est basé sur le théorème de Bayes. Il décrit la probabilité d’un événement. Il est basé sur la connaissance préalable des conditions qui pourraient être liées à cet événement particulier.

    16. Définissez la régression Linéaire.

    la régression Linéaire est une méthode de programmation statique où le score d’une variable ‘A’ est prédit à partir du score d’une deuxième variable ‘B’. B fait référence à la variable prédictive et B à la variable critère.

    17. Quelle est la différence entre la valeur attendue et la valeur moyenne?

    Ces deux termes sont utilisés dans différents contextes. La valeur moyenne est généralement mentionnée lorsqu’on est sur une distribution de probabilités, tandis que la valeur attendue est mentionnée dans le contexte d’une variable aléatoire.

    18. Que sont les tests A/B?

    Le test A/B est le test d’hypothèse statistique pour une expérience aléatoire avec deux variables: A et B. C’est une méthode analytique qui évalue les paramètres de la population à partir des échantillons statistiques. Ce test compare deux pages web en montrant deux variantes A et B, à un nombre similaire de visiteurs, et la variante qui donne un meilleur taux de conversion gagne.

    Le but de test A/B est d’identifier s’il y a eu des changements dans une page web. Par exemple, si vous avez une bannière publicitaire sur laquelle vous avez dépensé beaucoup d’argent, vous pouvez trouver le rendement de l’investissement, c.-à-d. le taux de clic dans la bannière publicitaire.

    19. Que signifie l’apprentissage d’ensemble?

    Pour résoudre un programme de calcul particulier, plusieurs modèles tels que les classificateurs ou les experts sont stratégiquement générés et combinés. Ce processus est connu sous le nom d’apprentissage d’ensemble.

    20. Pourquoi l’apprentissage d’ensemble est-il utilisé?

    L’apprentissage d’ensemble sert à améliorer la classification, la prédiction, l’approximation des fonctions, … d’un modèle.

    21. Quand utiliser l’apprentissage d’ensemble?

    L’apprentissage d’ensemble est utilisé lorsque vous construisez des classificateurs de composants qui sont plus précis et indépendants les uns des autres.

    22. Quels sont les deux paradigmes des méthodes d’ensemble ?

    Les deux paradigmes des méthodes d’ensemble sont:

    • Méthodes d’ensemble séquentielles
    • Méthodes d’ensemble parallèles

    la Data Science

    Question Avancées posées en entretien d’embauche de Data Scientist

    Maintenant que vous connaisez toutes les questions de bases, je vais vous proposer d’autres questions plus avancées qu’il faut préparer pour votre entretien d’embauche de Data Scientist.

    1. Expliquez les termes Eigenvalue et Eigenvector

    • Eigenvectors sont utilisés pour comprendre les transformation linéaires. Les Data Scientist ont besoin de calculer les Eigenvectors pour la matrice de covariance ou corrélation.
    • Eigenvalues sont les directions en utilisant des actes de transformation linéaires spécifiques par compression, basculement ou étirement.

    2. Que signifie le terme cross-validation?

    Cross-validation est une technique de validation pour évaluer la manière avec laquelle les résultats de l’analyse statistique se généralisent pour un ensemble de données indépendant. Cette méthode est utilisé dans des contextes où l’objectif est prédéfinie, et où il faut estimer la précision d’un modèle.

    Autrement dit, Le but principal de la méthode cross-validation est de définir un ensemble de données pour “tester” le modèle dans la phase de formation.

    3. Quel est le processus de Data Analysis ou Analyse de données?

    Le processus de Data Analysis comprends la collecte, nettoyage, interprétation, transformation et modélisation des données pour extraire des renseignements et en tirer profit.

    4. Que signifie ANN: Artificial Neural Networks ou réseaux neuronaux artificiels

    Les réseaux neuronaux artificiels (ANN) sont un ensemble d’algorithmes qui ont révolutionné la Machine Learning. Ils aident à s’adapter à l’entrée de données changeante. Le réseau génère le meilleur résultat possible sans repenserles critères de sortie.

    5. Quelle est la différence entre la Data Science(Science de données) et la Data analytics(Analyse des données)?

    Les Data Scientists doivent découper les données pour extraire des informations utiles qu’un Data Analyst peut appliquer à des scénarios réels. La différence entre les deux est que les data Scientist ont plus de connaissances techniques que les Data Analyst.

    6. En quoi le Machine Learning  diffère du Deep Learning?

    L’apprentissage automatique se base sur  des algorithmes qui sont utilisés pour analyser les données, en tirer des leçons, puis appliquer ce qu’ils ont appris pour prendre des décisions.

    Le deep Learning  fait partie du Machine Learning. Il s’inspire de la structure du cerveau humain et qui est particulièrement utile dans la détection de fonctions.

    7. Nommez les differents Frameworks de Deep Learning

      • Pytorch
      • Microsoft Cognitive Toolkit
      • TensorFlow
      • Caffe
      • Chainer
      • Keras

    8. Quel est le meilleur langage de programmation,  utilisé pour l’analyse de texte? R ou Python?

    Python sera plus approprié pour l’analyse de texte grâce à une riche bibliothèque connue sous le nom de pandas. Il vous permet d’utiliser des outils d’analyse de données de haut niveau et des structures de données.

    9. Pourquoi les Data Scientists utilisent les statistiques?

    Les statistiques aident le scientifique des données à avoir une meilleure idée sur les attentes du client.Ils les aident également à contruire des modèles de données puissants pour valider certaines prédictions.

    10. Quels sont les Auto-Encoder?

    un Auto-Encoder est un réseaux d’apprentissage. Il aide à transformer les entrées en sorties avec peu d’erreurs. Cela signifie que vous obtiendrez une sortie aussi proche que possible de l’entrée.

    11. Definissez la machine Boltzmann

    La machine Boltzman est un algorithme d’apprentissage. Il aide à découvrir les caractéristiques qui représentent des régularités complexes dans les données de formation.Cet algorithme vous également d’optimiser les poids et la quantité pour un problème donné.

    12. Quand le underfitting ou sous-ajustement se produit dans un modèle statique?

    Le sous-ajustement se produit lorsqu’un modèle statistique ou un algorithme d’apprentissage automatique est incapable de saisir la tendance sous-jacente des données.

    13. Nommez 4 algorithmes utilisés dans Data Science

    les 4 algorithmes les plus utilisés par les Data Scientists sont :

    • Linear regression : régression Linéaire
    • Logistic regression: Régression logistique
    • Random Forest: Forêt ou arborescence aléatoire
    • KNN

    14. Que signifie KNN ?

    KNN ou K nearest neighbors(voisins les plus proches) est un algorithme supervisé qui est utilisé pour la classification. Dans KNN, un échantillon d’essai est donné comme classe de la majorité de ses voisins les plus proches.

    15. Que signifie la précision?

    La précision est la metrique d’erreur la plus utilisée dans les mécanismes de classification. sa valeur est entre 0 et 1.

    16. Que signifie l’analyse univariante?

    une analyse qui est  appliquée à aucun attribut est appelée analyse univariée.

    17. Définissez l’’apprentissage par renforcement.

    L’apprentissage de renforcement est une technique d’algorithme utilisée dans l’apprentissage automatique. Il s’agit d’un agent qui interagit avec son environnement en produisant des actions et en découvrant des erreurs ou des récompenses. L’apprentissage de renforcement est utilisé par différents logiciels et machines pour rechercher le meilleur comportement approprié ou la voie qu’il devrait suivre dans une situation spécifique. Il apprend habituellement à la base de la récompense ou de la pénalité donnée pour chaque action qu’il effectue

    18. Quels sont les compétences techniques du Data Scientist?

    • Mathématiques: algorithmique, Algèbre lineaire,…
    • Statistiques : types de données,  Correlation, Regression,  Theoreme de la limite centrale, T-test, ANOVA
    • Programation : Les outils ETL comme Informatica, SQL, Analyse de données R & Python

    19. Quelle librairie Python est utilisé pour la visualisation des données?

    Plot Ly ou Plot.ly est la librairie Python utilisée pour la visualisation des données.Il s’agit d’un outil collaboratif de visualisation en ligne qui est utilisé pour l’analyse des données, les graphiques scientifiques et d’autres types de visualisation.

    20. Listez les différents types de données disponibles dans les entreprises

    • données structurées
    • données non structurées
    • Big Data prevenante de différentes sources: réseaux sociaux, questionnaires,…
    • Données générées par la machine à partir d’instruments
    • Flux de données en temps réel

    21. Quelle est la différence entre les données structurées et non structurés?

    Cet article detaille la difference entre les données structurées et non structurés:

    Données Structurées et non Structurées : Tout ce qu’il faut savoir

    22. Que signifie le terme Deep Learning?

    Deep Learning est un sous-type de la Machine Learning. Il concerne les algorithmes inspirés de la structure des réseaux neuronaux artificiels (ANN).

    23. Quelle est la différence entre Primary Data( données primaires) et Secondary Data(données secondaires)?

    Données primaires : Les données recueillies par soi-même sont des données primaires.

    24. À quelle fréquence un algorithme doit-il être mis à jour?

    Vous devez mettre à jour un algorithme lorsque :

    • Vous voulez que le modèle évolue en parralèle du flux de données
    • La source de données sous-jacente est en modification
    • Il y a un cas de non-stabilité

    25. Quelles sont les différentes fonctions des noyaux dans SVM ?

    Il existe quatre types de noyaux dans SVM:

    • Linear Kernel
    • Polynomial kernel
    • Radial basis kernel
    • Sigmoid kernel

    26. Que signifie le terme Distribution Normale?

    Les données sont généralement distribuées de différentes façons avec un biais vers la gauche ou vers la droite ou elles peuvent toutes être mélangées. Cependant, il y a des chances que les données soient réparties autour d’une valeur centrale sans aucun biais vers la gauche ou la droite et atteignent une distribution normale sous la forme d’une courbe en forme de cloche. Les variables aléatoires sont réparties sous la forme d’une courbe symétrique en forme de cloche.

    27. Que sont les systèmes de recommandation?

    Les systèmes recommandation  représentent un filtrage de données. ILs prévoient les préférences des utilisateurs sur les produits en vente. Avec cette préférence, les systèmes de recommandations peuvent recommander un produit ou service à l’utilisateur.

    On utilise le système de recommandation pour recommander: des films, articles à lire, produits, musique,…

     

     

    Ressources pour bien préparer votre entretien

    Pour réussir votre entretien d’embauche de data scientist, je vous invite vivement de consulter les ressources suivantes.

    Vous y trouverez des informations supplémentaires pour réussir votre entretien.

     

    >