Qu’est-ce qu’un Data Engineer?

    Le métier d’ ingénieur de données ou Data Engineer n’est pas toujours aussi attirant par rapport au scientifique de données(data scientist). Cependant, les apparences ne sont pas toujours vraies, le travail d’un ingénieur de données constitue une partie importante du travail effectué par un scientifique des données.

    Bien évidemment, les sujets comme Machine Learning et AI sont plus populaires, surtout quand ils augmentent en popularité dans les médias grand public. Cependant, une bonne partie du travail qui se trouve derrière ces concepts vient du travail d’ingénierie des données.

    Ce n’est pas un article sur la bataille entre l’ingénieur de données et le scientifique de données. Mais, cet article vient du fond de la mer d’articles qui traitent ce point précis : 80% du travail de Data Scientists est la préparation des données et le nettoyage.

    Donc, Nous allons voir pourquoi l’ingénierie des données représente un domaine important en fonction de ce qu’elle fournit et de la façon dont, avec Data Science, elle constitue l’épine dorsale des  nouvelles technologie dans l’industrie.

    Les modèles d’AI et d’apprentissage automatique nécessitent des données

    Si vous parlez à n’importe quel scientifique de données et ils vont  vous dire que l’obtention de données est une source particulière qui a absolument tout ce dont ils ont besoin pour atteindre leurs objectifs.

    Dans le monde réel, les ensembles de données qui sont très utiles sont rares et c’est là que la première compétence de l’ingénieur de données entre en jeu. Nous consacrons beaucoup de temps à extraire des ensembles de données d’un éventail de sources.

    Aujourd’hui, n’importe qui peut  télécharger un ensemble de données statiques à partir d’un site Web. L’avantage d’un ingénieur de données est uniquement : l’ingénierie. Non seulement ils peuvent vous fournir une multitude de données provenant de différentes sources, mais ils peuvent le faire d’une manière répétitive, que ce soit  après les mises à jour ou en temps réel.

    Données propres == Meilleur modèle

    Toutes les données nécessaires pour construire votre modèle AI ou ML arrivent maintenant fréquemment à votre centre de données.

    La prochaine étape requise avant de démarrer votre modèle d’AI et ML est la préparation des données. Il existe plusieurs articles qui traitent ce sujet et même un sondage de Forbes daté de 2016. Le sondage de Forbes indique que 80 % du travail en science des données est une préparation de données et que 75 % des scientifiques des données trouvent que c’est l’aspect le plus ennuyeux de leurs métier.

    C’est là que l’ingénieur des données prospère également. Nous passons tellement de temps à manipuler des données qu’une grande partie de ce travail nous apparaît comme une seconde nature. Qu’il s’agisse de regrouper des ensembles de données, de supprimer des valeurs nulles et erronées, de manipuler des chaînes de fonctions ou d’agréger des données.

    Avec le travail réalisé par les Data Engineer, vous obtenez également un avantage supplémentaire qui est d’aléger la charge sur vos scientifiques de donées pour comprimer chaque centimètre du modèle et de garder leur moral plus élevé puisque la partie la plus ennuyeuse de leur travail a maintenant disparu.

    Finalement, la construction du modèle

    Nous y sommes enfin, après tout ce travail initial sur le modèle, on peut enfin commencer et vous pourriez penser que c’est là que l’ingénieur des données disparaît.

    Cependant, la personne qui a construit les modèles AI et ML sait que ce n’est pas simple. Au fur et à mesure de l’élaboration du modèle, de multiples itérations de ce qui précède seront parcourues au fur et à mesure, d’autres questions seront posées et des données supplémentaires seront requises pour les réponses.

    C’est là où le Datascientist interviennent vraiment. Le but de cet article n’est pas de dire que les ingénieurs de données sont meilleurs ou valent plus, mais, est de montrer comment ils peuvent aider les scientifiques de données à aller au fond des choses.

    Un modèle n’est utile que si quelqu’un l’utilise

    Le travail est terminé pour la première version du modèle. Nous pouvons tous faire nos valises et rentrer chez nous, n’est-ce pas? Comme la plupart d’entre vous le savent déjà, ce n’est pas le cas. Le modèle peut être construit, mais il reste peu de choses à considérer : comment sera-t-il utilisé dans le monde réel et à quelle vitesse il deviendra périmé?

    Le but des modèles d’AI ou de ML est de résoudre un problème dans le monde réel, donc il faut maintenant l’appliquer. Habituellement, cela signifie sa mise en œuvre dans une application ou peut-être son utilisation pour la segmentation ou le marketing prédictif.

    Un Data Engineer sera en mesure d’ajouter le modèle à un pipeline de données qui traite l’ensemble d’une base d’utilisateurs par rapport au modèle et les segmente en conséquence.

    Et si vous craignez que le modèle devienne périmé dans quelques mois, n’ayez pas peur. Un bon ingénieur de données sera en mesure de travailler avec les scientifiques des données et de traduire leurs travaux en quelque chose qui peut être mis à jour en permanence. Alimenter de nouvelles données, reconstruire le modèle et le publier automatiquement.

    ET après?

    Que vous envisagiez d’embaucher un Data Engineer ou que vous envisagiez d’entrer dans le domaine des données, mais que vous ne sachiez pas par où commencer, il est clair que l’ingénierie des données est un domaine important à prendre en considération.

    Vous pouvez voir à quel point le travail de construction d’un modèle de données et de sa mise en service peut être accompli par un ingénieur de données.

    Les gains d’efficience réalisés signifient que l’élaboration du modèle sera plus rapide et que les modèles seront sans aucun doute meilleurs, puisque les scientifiques des données auront plus de temps pour les peaufiner et les améliorer.

    A lire aussi:

    >