Category Archives for Big Data

data science vs big data

Data science vs Big Data

Dans un univers où «Big Data» et «Data Science» sont ultra présents dans les réseaux sociaux liés à la technologie, les termes ont-ils finalement atteint la saturation de l’intérêt public? Tandis que l’utilisation de quantités de données massives est devenue une pratique courante, le rôle de la «science des données» remplace-t-il le battage médiatique du «Big Data»?

Les recherches

L’informatique en mode Cloud a commencé a éclaté à la fin de 2007 et les réseaux sociaux au début 2009.  Recherches internationales en anglais sur les réseaux sociaux et le cloud computing via Google Trends.
Pourtant, alors que l’expression «réseaux sociaux» a augmenté de manière linéaire au cours de la décennie. «L’informatique Cloud» a suivi une trajectoire très différente, culminant en mars 2011. Diminuant jusqu’à la fin de 2016 et se stabilisant depuis trois ans.

Il parrait que l’idée de louer de la puissance de calcul dans le «Cloud» soit devenue si probable que nous n’en discutons même plus. Même si les réseaux sociaux, malgré leurs omnipotences, continuent d’attirer notre attention. La phase de recherche la plus populaire au cours des 12 derniers mois a été «marketing sur les réseaux sociaux». Refléchissant le pouvoir sans limites des géants numériques en matière de contrôle du flux continu d’attention tant convoité par les entreprises. Il est intéressant de savoir que «les réseaux sociaux» et «sur les médias sociaux» sont les deux recherches les plus populaires du monde entier. Reflétant le fait que malgré leur apparente omniprésence. Les médias sociaux restent un nouveau concept pour beaucoup de la population cosmopolite mondiale.

Les termes

Le terme désormais répandu de «big data» commence sa ascension fulgurante avec la chute libre de l’informatique en cloud. laissant penser que l’attention du public sur la location de matériel informatique a été rapidement remplacée par la façon dont toute cette puissance informatique était utilisée. Pour analyser d’énormes jeux de données.
Par contre, la «science des données» et «l’apprentissage en profondeur» décollent en 2013 et s’accélèrent en 2014. Il est intéressant de comprendre que malgré l’explosion markovienne de l’apprentissage en profondeur ces dernières années. L’intérêt pour cette requête semble s’être stabilisé, suggérant peut-être que nous recherchons maintenant davantage les applications individuelles de l’apprentissage en profondeur que la phrase elle-même.

Une recherche Web internationale en anglais sur «data science», «deep learning» et «big data» via Google Trends.

De manière plus simple, la «science des données» a dépassé le «big data» en termes de volume total de recherche. L’informatique en cloud a cédé la place au big data à ce que nous faisons avec tout ce matériel, mais l’accent a également été mis sur le regroupement d’énormes groupes de données au profit de personnes et de processus donnant un sens à toutes ces données. Bien qu’il ne soit qu’une pure coïncidence, il est cool de noter que la science des données et l’apprentissage en profondeur ont rapidement gagné en popularité juste après les révélations d’Edward Snowden en juin 2013, soulevant la question de savoir si la sensibilisation accrue du public à l’exploration de données avait suscité un intérêt accru pour ces domaines.

Résultat de recherche d'images pour "edward snowden"

Enfin, en fusionnant tous ces termes sur le même calendrier. Et en ajoutant «l’intelligence artificielle» à l’ensemble.Plusieurs tendances clés se dégagent.

Dans le monde entier, le Web en anglais recherche chacun des termes via Google Trends. La plus probante est que l’intérêt de la cherche pour le cloud computing à son apogée a surpassé tous les termes au cours des 15 dernières années. La seconde est que l’attention portée pour la recherche dans l’expression «intelligence artificielle» . A chuté et a recommencé à augmenter en 2014 avec le début de la renaissance actuelle de l’IA. Les recherches sur l’IA, intelligence artificielle, commencent vraiment à s’accélérer en 2017, au même titre que les recherches sur «l’apprentissage en profondeur».

La selection naturelle

Ceci est inquiétant dans le registre où il suggère que, pour le grand public, ces avancées neuronales s’éloignent de plus. en plus de leurs fondements mathématiques «d’apprentissage en profondeur» pour revenir à la conquête de l’IA par la science-fiction. Au fur et à mesure que cette transition se renforce, il est à craindre que le public considère ces créations comme plus que de simples équations statistiques codifiées dans un logiciel et, encore une fois, comme des incarnations en silicium d’une nouvelle forme de vie artificielle. Cela fait craindre un nouvel hiver de l’IA alors que l’imagination grandissante du public. commence à entrer en collision avec la réalité primitive des avancées actuelles.
En résumé, il est instructif de voir comment le public a intériorisé la révolution des données des 15 dernières années, de la location de matériel à la sélection de données en passant. par les personnes et les processus qui régissent notre compréhension fondée sur les données. Il semble que nous n’ayons pas. encore capté l’imagination du public, comme le faisait l’informatique en cloud ou peut-être que le vocabulaire actuel s’est trop fragmenté.

 

 

Données Structurées et non Structurées : Tout ce qu’il faut savoir

L’une des caractéristique du Big Data est la variété. Cette variété concerne plusieurs niveaux et un des éléments est la variété des données. Dans cet article, nous allons étudier les deux types de données : Données structurées et non structurées.

Données structurées

Données Structurées

Données Structurées

Le terme données structurées signifie généralement des données ayant une typologie, format et longueur définies. On peut citer quelques exemples de données structurées :

  • Nombres
  • Dates
  • Chaînes de caractère

Plusieurs chercheurs spécialisés en Big Data affirment que ce type de données (structurées) représente environ 20% des données existants. Cependant, les données structurées sont les données les plus manipulées et sont généralement stocké dans des bases de données relationnelles.

Très souvent, on utilise le langage SQL pour interroger ces données.

Dans les entreprise, on collecte des données structurées à partir de différentes sources comme les CRM et les ERP.

Les sources des données structurées

Les sources de données structurées sont divisées en deux catégories:

1 – Données généré par ordinateur :

Ce sont les données générées automatiquement par la machine sans aucune intervention humaine.

Les données structurées générées par ordinateur inclus les éléments suivants :

  • Données de capteur: par exemple les étiquettes d’identification par radiofréquence, dispositifs médicaux et données GPS. On peut ici prendre l’exemple du suivi des conteneurs de produits d’un endroit à un autre. Lorsque l’information est transmise par la puce, elle peut aller sur un serveur et pour être analysé. Les entreprises s’intéressent à cela pour la gestion de la chaîne d’approvisionnement
    et contrôle des stocks.
  • Données de point de vente: lorsque le caissier scanne le code barre de tout produit, toutes les données associées à ce produit sont générées. Si on regarde le nombre de produits vendus par jour, on se rend compte de la quantité énorme de données générées.
  • Données financières: les systèmes financiers utilisent des règles prédéfinies pour automatiser les processus et ainsi générées des données. Par exemple, les données sur les actions contiennent des données structurées comme le code (ISIN) de l’entreprise et la valeur en dollars ou en euro.

2- Généré par l’homme:

Il s’agit des données générées par des humains en interaction avec l’ordinateur lors de saisie par exemple.

Les données structurées générées par l’homme inclus les éléments suivants :

  • Données de saisie: Il s’agit des données qu’un humain pourrait entrer dans un ordinateur en utilisant un clavier par exemple. 
  • Données de flux de clics: à chaque fois que vous visiter un site sur internet, lorsque vous cliquer sur un lien, vous générer des données. Ces données peuvent être analysées pour comprendre le comportement des visiteurs du site.
  • Données relatives au jeu: chaque mouvement que vous effectuez dans un jeu peut être enregistré. Cela peut être utile pour comprendre comment les utilisateurs finaux se déplacent dans une portefeuille de jeux.

 

Données non structurées

Données Non Structurées

Données Non Structurées

Les données non structurées sont des données qui ne suivent ni une typologie ni un format précis. Comme dit précédemment, 80% des données disponibles sont non structurées.
Les données non structurées c’est donc l’énorme majorité des données que vous rencontrerez. Cependant, jusqu’à récemment, la technologie ne permettait pas vraiment d’exploiter ces données à part les stocker ou les analyser manuellement.

Sources des données non structurées

La bonne nouvelle est que les données non structurées sont partout !

Tout comme pour les données structurées, les données non structurées sont générées par l’ordinateur ou par l’homme.

1 – Données généré par ordinateur :

Voici quelques exemples de données générés par la machine :

  • Images satellite: Cela comprend les données météorologiques, les données récupérées par les états dans le cadre de la surveillance par satellite. Google Earth est un excellent exemple.
  • Données scientifiques: Cela inclut les images sismiques, les données atmosphériques et physique des hautes énergies.
  • Photographies et vidéo: les données générées par les systèmes de vidéo surveillance par exemple.
  • Données radar

2 – Généré par l’homme:

Voici quelques exemples de données générés par l’homme :

  • Texte interne à votre entreprise: par exemple, le contenu texte dans les procédures, documentations et échanges d’email. 
  • Médias sociaux: Toutes les données générées sur les réseaux sociaux comme les commentaires sur YouTube ou les “likes” sur Instagram ou encore les tweets.
  • Données mobiles: Les messages textes (SMS) ou les données de localisation.
  • Contenu du site: Par exemple, le contenu de ce blog que je produit.
12 meilleurs livres de Data Science

9 Meilleurs Livres de Data Science en 2019

Dans cet article, je vous propose une liste de livres qui vous permettront de développer vos compétences en Data Science. Les sujets traités vont de la programmation Python et R à l’apprentissage automatique en passant par les mathématiques et les statistiques.

Allons, donc, voir vos prochains livres de chevet !

1 – Python Data Science Handbook

Python Data Science Handbook

Python Data Science Handbook

Les tendances montrent que Python est toujours le langage principal de la Data Science et du Machine Learning.

Le livre Python Data Science Handbook est une excellente référence pour renforcer les compétences en Python.

On vous demandera souvent aux Data Scientists de travailler sur de nombreuses tâches, mais le nettoyage et la manipulation des données restent la tache qui prend la plus grande partie du temps.

Ce livre est une référence parfaite à garder sous la main pour les tâches fréquentes de manipulation de données principalement utilisant pandas.

Parmi les sujets traités dans ce livre:

  • Shell IPython
  • Numpy
  • Manipulation des données avec pandas
  • Visualisations de données avec Matplotlib
  • Machine Learning avec Scikit-Learn

Cliquer ici pour consulter le livre sur Amazon.

2 – Think Python

Think Python

Think Python

Si vous débutez avec Python, ce livre est fait pour vous.

Si vous avez un bon niveau en Python, ce livre est pour vous aussi.

Think Python traite toutes les bases de Python, des bases des structures et fonctions de données aux sujets plus avancés tels que les classes et l’héritage.

Dans ce livre, vous verrez en plus de la présentation des concepts clés, des cas d’études concrets. C’est un excellent moyen pour comprendre et assimiler de nouveaux concepts.

Parmi les sujets traités dans ce livre :

  • Les fonctions
  • Itération
  • Structures de données
  • Des dossiers
  • Des classes
  • Les méthodes
  • Héritage

Cliquer ici pour consulter le livre sur Amazon.

3 – R for Data Science

R for Data Science

R for Data Science

une bonne maîtrise de R vous permettra de vous “vendre” facilement auprès des employeurs. R est une compétence très recherchée.

R dispute avec Python la place du premier langage de programmation pour la Data Science.

Une étude récente menée par des Data Scientists a montré que 52,1% des Data Scientists répondants au sondage utilisent R, un peu moins de 52,6% utilisant Python.

Ce livre est parfait pour développer vos compétences en programmation statistique avec R.

Il couvre toutes les bases de R allant d’un niveau débutant aux sujet les plus avancés.

Ce livre est une excellente référence générale qui doit accompagner tout développeur R ou Data Scientist !

Les sujets abordés dans le livre :

  • Exploration
  • La programmation
  • La modélisation
  • La communication

Cliquer ici pour consulter le livre sur Amazon.

4 – Advanced R

Advanced R

Advanced R

Si vous voulez vraiment vous distinguer en tant qu’utilisateur R et impressionner les employeurs, Advanced R est une excellente ressource.

Il couvre tout, des fondations aux structures de données, à la programmation orientée objet et au débogage, à la programmation fonctionnelle et au code de performance.

Si vous avez une connaissance avancée de R et pouvez penser au code de niveau de production, vous vous rendrez immédiatement plus attrayant pour les employeurs potentiels.

Cliquer ici pour consulter le livre sur Amazon.

5 – Introduction to Statistical Learning

Introduction to Statistical Learning

Introduction to Statistical Learning


Ce livre est l’un des meilleurs livres d’introduction au Machine Learning.  l fournit des explications faciles pour comprendre des concepts de base et donne des exemples de code avec R.

Il couvre également les bases des modèles linéaires de manière approfondie.

Connaitre ces bases vous permettra de couvrir la major partie des problématiques ou questions posés pendant les entretiens d’embauche.

Les sujets abordés dans le livre :

  • Sélection de fonctionnalité
  • Régression polynomiale
  • Méthodes basées sur des arbres
  • Apprentissage supervisé
  • Apprentissage non supervisé

Cliquer ici pour consulter le livre sur Amazon.

6 – The Elements of Statistical Learning

The Elements of Statistical Learning

The Elements of Statistical Learning


Si vous souhaitez accélérer votre carrière dans le Machine Learning, vous devez bien maîtriser plus que les bases. Vous devez maîtriser les sujets avancés.

Ce livre est la ressource idéale pour amener vos compétences en Machine Learning à un niveau supérieur.

C’est l’un des livres les plus complets sur le Machine Learning.

Dans ce livre vous trouverez tout les concepts du Machine Learning, des méthodes linéaires aux réseaux de neurones, en passant par les forêts aléatoires.

C’est un peu plus mathématique que les autres livres, donc pour approfondir la compréhension des concepts c’est le TOP.

Cliquer ici pour consulter le livre sur Amazon.

7 – Understanding Machine Learning: From Theory to Algorithms

Understanding Machine Learning: From Theory to Algorithms

Understanding Machine Learning: From Theory to Algorithms


Si vous souhaitez bien comprendre les algorithmes de Machine Learning, ce livre est un excellent choix.

Il est divisé en sections de plus en plus complexes:

  • Bases
  • De la théorie aux algorithmes
  • Modèles de Machine Learning
  • Théorie avancée

C’est un excellent moyen d’acquérir une bonne compréhension des concepts de Machine Learning est de les implémenter.

Cliquer ici pour consulter le livre sur Amazon.

8 – Mining of Massive Datasets

Mining of Massive Datasets

Mining of Massive Datasets

Ce livre a été rédigé à partir de plusieurs cours de Stanford sur l’exploration de données à grande échelle.

Dans ce livre, on parle essentiellement de Data Mining.

Parmi les sujet abordés dans le livre :

  • Mapreduce
  • Exploitation de data stream
  • Systèmes de recommandation
  • Exploitation de graphiques de réseaux sociaux
  • Réduction de la dimensionnalité
  • Machine Learning à grande échelle

 

Cliquer ici pour consulter le livre sur Amazon.

9 – Think Stats

Think Stats

Think Stats



En tant que Data Scientist ou Data Analyst,  vous devez maîtriser les probabilités et les statistiques.

Les modèles de Machinea Learning sont basés sur des principes fondamentaux de la théorie des probabilités.

Donc, pendant vos entretiens d’embauche attendez vous a quelques questions sur les probabilités et les statistiques. 

Ce livre n’est pas destiné aux mathématiciens ou statisticiens, il utilise donc une approche pratique pour expliquer les concepts mathématiques.

Les sections sont courtes et faciles à lire, vous pourrez donc travailler rapidement à travers des exemples.

Ce livre aborde, entre autres, les sujets suivant :

  • Statistiques descriptives
  • Fonctions de distribution cumulatives
  • Distributions continues
  • Probabilités
  • Opération et distributions
  • Tests d’hypothèses
  • Estimation
  • Corrélation

Cliquer ici pour consulter le livre sur Amazon.

mongodb avantages et inconvénients

MongoDB: Avantages et inconvénients

Lorsque nous nous lançons dans un nouveau projet backend, notre première étape en tant que développeur consiste souvent à utiliser une base de données relationnelle bien établie, telle que PostgreSQL ou MySQL. Cependant, depuis un certain temps, différents types de bases de données sont disponibles sur le marché. L’un d’entre eux est MongoDB. Dans cet article, j’aimerais souligner quelques avantages et inconvénients de son utilisation dans un projet.Résultat de recherche d'images pour "MONGODB"

MongoDB est une base de données orientée document. Les données sont organisées en documents JSON (équivalents lignes) avec des champs (équivalents colonnes) qui sont regroupés dans des collections (équivalents tables). Il utilise le format BSON pour le stockage de documents (JSON sérialisé binaire), ce qui étend la mise en œuvre JSON pour offrir des types de données supplémentaires (par exemple, des tableaux). Il fournit également une validation des données basée sur le standard de schéma JSON (lors de la configuration d’une collection, vous pouvez fournir une définition de schéma JSON). MongoDB est conçu sans schéma, c’est-à-dire que chaque document peut avoir son propre ensemble de champs uniques dans une collection. De plus, il est distribué et facilement extensible géographiquement / horizontalement pour de meilleures performances.

MongoDB est un programme de base de données multi-plateforme orienté document. Classée comme un programme de base de données NoSQL. MongoDB utilise des documents de type JSON avec des schémas. MongoDB est développé par MongoDB Inc. et est sous licence SSPL (Server Side Public License).

Vous vous demandez peut-être pourquoi utiliser MongoDB en première instance.

Avantages

   Un des gros avantages de MongoDB est qu’il est possible de déployer les nouvelles fonctionnalités en  peu de temps: Au fil des expériences, nous avons vu MongoDB évoluer à un rythme dingue. À l’heure actuelle, vous pouvez facilement utiliser MongoDB. Certains utilisateurs trouvaient qu’il fallait beaucoup de temps pour développer une application avec MongoDB. Mais aujourd’hui la communauté MongoDB s’est bien développée et prospère.

    Bonne équipe support:

Le support proposé par MongoDB est de très bonne qualité. Ils sont toujours pertinents et répondent de manière très rapide. Précis et concis ils ont toujours un raisonnement exact pour votre problème. La fonctionnalité la plus appréciable est que pratiquement toutes les langues sont prises en charge par MongoDB pour le développement d’applications. Ce qui a facilitera le travail si vous faites partie d’une équipe internationale et que certains de vos développeurs et ne sont pas habitués à MongoDB.

    Nouvelle intégration et nouvelles frontières:

Avec l’intégration de Spark, MongoDB propose de nouveaux horizons pour l’analyse qui sont incroyable. Nous avons besoin de plus de telles fonctionnalités pour l’analyse.

    Performance :

 Il est possible de récupérer simplement des documents, et ce ultra rapidement. En essayant d’utiliser MongoDB comme un système relationnel on peut s’exposer et avoir des problèmes, mais si vous apprenez comment il est destiné à être utilisé, vous aurez très peu de souci au niveau de la performance.

    Sécurité et performance durable:

Avec tous les résultats de nos tests de performance, nous sommes assez satisfaits. La sécurité est améliorée avec la communication https entre les nœuds de jeux de réplicas. Même ici, vous avez un accès de niveau utilisateur comme une base de données relationnelle, mais les données peuvent être beaucoup plus développées qu’une base de données relationnelle. Avec MongoDB, les performances obtenues étaient phénoménales et nous ont aidés à supprimer l’utilisation du serveur de mise en cache.

Inconvénients

    Analytique:

Cette zone nécessite une refonte complète avec de nouvelles fonctionnalités et une intégration améliorée. Je pense que cela doit être plus réfléchi.

    Migration:

La nécessité d’une migration propre et sans problème d’une version à la suivante ou à la précédente devrait se faire sans encombre. Pour l’instant, cette fonctionnalité n’est pas à l’ordre du jour et suscite  un grand nombre de réactions au sein même de la communauté MongoDB, et attire beaucoup l’attention.

    Fonctions de requête:Résultat de recherche d'images pour "sql"

 Comme dans les « relational database management system », RDBMS, des fonctions SQL sont manquantes. Nécessité d’utiliser un cadre d’agrégation pour un calcul simple, qui prend du temps et est lent à s’exécuter. J’espère que de nouvelles fonctions seront ajoutées avec de nouvelles améliorations.

Fonctionnalités hors concours de MongoDB

Le Développement open source est devenu une veritable force de la communauté MongoDB. Dans le contexte actuel, il est nécessaire de plus de produits comme celui-ci. C’est un bon exemple après Java et MySQL. Partagez davantage de choses avec la communauté, car ce sont les véritables leaders du monde du développement. Nous ne pouvons en aucun cas cacher le code aux pirates informatiques, alors ouvrez-le plutôt et profitez de la communauté.

La base de données orientée document présente certains avantages: flexibilité (absence de structure rigide), adaptation aux infrastructures JavaScript modernes (utilisation directe de JSON), traitement des données volumineuses et analyse statistique / de données en temps réel. Les bases de données relationnelles, en revanche, fournissent une application stricte de l’intégrité des données et un moyen fiable de combiner les enregistrements lors de la récupération.

 

apache cassandra

Apache Cassandra: Avantages et Inconvénients

Apache Cassandra est une base de données NoSQL très dépendante des cas d’utilisation. Dans la majorité des cas, une simple instance MySQL ou PostgreSQL sera suffisante. Quand vous vous trouvez dans le besoin d’attributs spécifiques que Cassandra a à offrir, alors, il peut être judicieux de l’utiliser.
Il existe de nombreux pours et contres quant à l’utilisation de Apache Cassandra, dont beaucoup dépendent de ce que vous souhaitez en faire. Nous allons ici vous donnez les avantages et inconvénients de cette technologie NoSQL de plus en plus populaire.

AvantagesRésultat de recherche d'images pour "le symbol plus"

La Vitesse d’écriture D’Apache Cassandra:

L’un de plus grands atouts d’Apache Cassandra est la quantité incroyable de volume d’écriture qu’elle peut gérer. Il est capable de gérer un aussi grand volume d’écritures. En effet, en écrivant d’abord dans une structure de données en mémoire, puis dans un journal avec ajout uniquement. Ces structures de données sont ensuite “vidées” vers un fichier plus permanent et optimisé en lecture à une date ultérieure. Les logs sont simplement utilisés pour la récupération des données en mémoire en cas de panne.

Cohérence ajustable:

En ce qui concerne les données répliquées, il faut que vous soyez en mesure de décider de ce qui se passe lorsqu’une panne survient dans un ou plusieurs de vos nœuds. Apache Cassandra rend possible, requête par requête, de choisir comment gérer les potentiels problèmes. Si vous êtes en possession d’un ensemble de données qui, à n’importe quel instant, doit disposer les données les plus récentes, vous pouvez choisir de lire et d’écrire à un niveau de quorum. Dans le cas ou vous avez un ensemble de données qui doit être écrit à tout prix, même s’il n’y a qu’un seul nœud actif et que disposer des informations les plus récentes n’est pas une exigence absolue, vous pouvez écrire au niveau “ANY” . Il existe de nombreuses façons de lire / écrire vos informations. Cassandra vous permet de choisir celui qui correspond le mieux à votre cas d’utilisation et à vos valeurs.

Réplication multi-DC:

Apache Cassandra est livré avec une réplication multi-centres de données. Cette réplication clonera les informations dans un nombre illimité d’instances du processus Cassandra. De plus, vous pouvez créer plusieurs centres de données “actifs” qui reçoivent également une copie des données. Ces derniers peuvent être utilisés pour des soucis géographiques ou pour une reprise après sinistre ou les deux. Une configuration de plusieurs centres de données est aussi simple que de modifier une seule ligne dans un fichier de configuration et de mettre à jour votre schéma. La réplication multi-DC est l’une des principales raisons pour lesquelles les gens choisissent d’utiliser Cassandra.

Apache Cassandra est Basée sur la Machine Virtuelle Java (JVM):

Apache Cassandra est basé en Java. Cela veut dire que Cassandra peut s’intégrer facilement à d’autres applications basées sur JVM. Notamment de nombreux outils basés sur des données tels que Apache SOLR, Spark, Hadoop, Hive, PIG, Mahout et bien d’autres. En outre, la machine virtuelle Java dispose d’une quantité massive d’assistance et d’outils pour résoudre différents problèmes pouvant survenir.

CQL:

CQL (Cassandra Query Language) est un moyen familier d’interroger Cassandra. Il s’agit d’un sous-ensemble de SQL et de nombreuses fonctionnalités identiques, rendant la transition d’un “Relational database management system” (RDBMS) basé sur SQL à Cassandra moins choquante.

 

InconvénientsRésultat de recherche d'images pour "le symbol moins"

Absence de requête ad hoc:

La couche de stockage de données Apache Cassandra est un système de stockage de clés / valeurs. Ce qui signifie qu’il vous faut “modéliser” vos informations autour des requêtes que vous souhaitez faire apparaître, plutôt que de la structure des données elles-mêmes. Cela peut avoir comme conséquence de stocker les données plusieurs fois de différentes manières pour pouvoir satisfaire aux exigences de votre application.

Performances imprévisibles:

Dans la mesure où Apache Cassandra dispose de plusieurs jobs asynchrones et tâches en arrière-plan non planifiés par l’utilisateur, les performances peuvent être imprévisibles. Ce qui peut vouloir dire que vous pouvez constater des répercussions sur les performances qui peuvent ne pas être liées à une requête ou à un volume de requêtes. Cela peut provoquer des problèmes de performances de dépannage plutôt difficiles â résoudre.

Absence de fonctions d’agrégation:

Les plus récentes versions de Apache Cassandra disposeront d’un support limité pour les agrégats avec une seule partition. Ceci est d’une utilisation très restreinte. Apache Cassandra étant un système de clés / valeurs, les agrégations SUM, MIN, MAX, etc. nécessitent énormément de ressources, voire de ressources. Si votre analyse nécessite une analyse ad hoc, Apache Cassandra peut ne pas vous convenir.

Apache Cassandra est Basée sur la JVM:

Alors Oui, effectivement ce point est déjà considéré en tant qu’avantage au dessus.Mais il comporte des points négatifs. La JVM, aussi rapide soit elle, reste un langage peu efficace. En effet, la gestion de la mémoire est effectuée par le langage lui-même et non par l’application. Pour une grande partie partie des utilisateurs, ce n’est pas et cela ne sera jamais un problème. Mais si vous obtenez des volumes de données massives en quantité industrielle, qu’il s’agisse du volume de la demande ou de la taille des données, vous serez dans l’obligation d’adapter la machine virtuelle Java aux besoins spécifiques de votre implémentation. Cela signifie une expertise et une connaissance requises de la langue dans laquelle la base de données a été écrite.

CQL:

Cet avantage peut aussi être vu par certains utilisateurs comme étant un point faible, tout comme pour la machine virtuelle Java. Cette option était également répertoriée en tant que “Pro”. En raison du fait que CQL soit très semblable à SQL, il est facile pour une personne venant de SQL de se mélanger les pinceaux sur ce qui est ou non pris en charge. Cela signifie une frustration supplémentaire (coûts de lecture) pour les programmeurs qui ne connaissent pas les limites de Cassandra.

 

Il y en a pas mal d’autres avantages et inconvénients bien évidement. Nous avons voulu ici proposer les plus Ce ne sont que quelques-uns qui ont tendance à être les plus fréquents et ceux qui devraient décider de l’utilisation de Cassandra devraient, à mon avis, en être informés.


Cassandra vaut-elle la peine d’être adoptée?

Oui. Avec un Grand O.
Les modèles de base de données NoSQL ne remplaceront pas et ne remplaceront pas complètement la technologie des RDBMS, mais leur importance croîtra du fait de l’échelle, de la flexibilité et de la facilité d’utilisation. Nous traitons de plus en plus de données; nous voulons des applications durables et tolérantes aux pannes; nous voulons des applications évolutives et des applications rapides. Parce que tout cela, NoSQL sera de plus en plus autour de nous, et c’est certainement une technologie qui mérite d’être explorée.

25 Questions-Réponses pour un Entretien Big Data

Entretien d’embauche Big Data : 25 Questions à préparer en 2019

Passer un entretien d’embauche en Big Data est, certes, une des étapes les plus stressantes dans une carrière. Il faut toujours montrer sa motivation, son dynamisme et surtout ses compétences techniques. C’est la raison pour laquelle j’ai décide d’écrire cet article afin de vous apporter les quelques questions qui sont souvent posés.

Ce sera bien évidement le premier article dans ce style mais certainement pas le dernier dans une longue séries.

Donc, sans plus tarder, allons voir ces questions-réponses !

Entretien Technique : Questions-Réponses  

Entretien d’embauche Big Data

Alors prêt pour l’entretien d’embauche ?


1. Qu’est ce que le terme «big data» signifie ?

Les Big Data traitent des ensembles de données volumineux, complexes et en constante augmentation qui ne peuvent pas être gérés et manipuler avec des logiciels et techniques classiques.

2. En quoi le Big Data est-il utile ?

Le Big Data permet aux entreprises de comprendre le comportement de leurs clients et les aide à tirer des conclusions à partir de grands ensembles de données collectées.

Cela les aide à prendre des décisions quant à leur offre de produit, tarification, distribution, etc.

3. Quel est le numéro de port pour NameNode?

Port 50070

4. Que fait la commande JPS?

On utilise la commande JPS pour tester si tous les daemons Hadoop fonctionnent correctement.

5. Comment démarrer tous les démons Hadoop ensemble ?

./sbin/start-all.sh


6. Caractéristiques de Hadoop.

  • Open source.
  • Convivial.
  • Évolutivité.
  • Localité de données.
  • Récupération de données.

7. Citez les cinq V du Big Data ?

les cinq V du Big data :

  • Le volume
  • La vitesse
  • La variété
  • La véracité
  • La valeur.

8. Citez les composants de HDFS ?

 Les 2 composants de HDFS sont:

  1. Name Node
  2. Data Node

9. Quel est le lien entre le Big Data et Hadoop?

Hadoop est un framework spécialisé dans les opérations Big Data.

10. Citez des outils de gestion de données utilisés avec les nœuds Edge ?

  • Oozie
  • Flume
  • Ambari
  • Hue

11. Les étapes pour déployer une solution Big Data ?

Les étapes du déploiement d’une solution Big Data :

  1. Ingestion de données
  2. Stockage de données
  3. Traitement de l’information

12. Dans combien de modes Hadoop peut-il être exécuté?

 Hadoop peut être exécuté selon 3 modes:

  1. le mode autonome
  2. le mode pseudo-distribué
  3. le mode entièrement distribué.

13. Citez les méthodes de base d’un réducteur

 Les 3 méthodes de base d’un réducteur sont :

  • installer()
  • réduire()
  • nettoyer()

14. La commande pour arrêter tous les deamons Hadoop ?

./sbin/stop-all.sh


15. Quel est le rôle de NameNode dans HDFS?

NameNode est responsable du traitement des informations de métadonnées pour les blocs de données dans HDFS.

16. Qu’est-ce que FSCK?

FSCK (File System Check) est une commande utilisée pour détecter les incohérences et les problèmes dans le fichier.

17. Quelles sont les applications en temps réel de Hadoop?

  • Gestion de contenu.
  • Agences financières.
  • Défense et cybersécurité.
  • Gestion des publications sur les médias sociaux.

18. Quelle est la fonction de HDFS?

 Le système de fichiers distribués Hadoop (HDFS) est l’unité de stockage par défaut de Hadoop. Il est utilisé pour stocker différents types de données dans un environnement distribué.

19. Qu’est-ce qu’un matériel standard?

Le matériel de base peut être défini comme les ressources matérielles de base requises pour exécuter la structure Apache Hadoop.

20. Citez des deamons utilisés pour tester la commande JPS.

  • NameNode
  • NodeManager
  • DataNode
  • Gestionnaire de ressources

21. Citez les formats de saisie les plus courants dans Hadoop?

  • Format de saisie de texte
  • Format d’entrée de la valeur clé
  • Format d’entrée du fichier de séquence

22. Donnez des exemples d’entreprises qui utilisent Hadoop.

  • Facebook
  • Netflix
  • Amazon
  • Twitter.

23. Quel est le mode par défaut pour Hadoop ?

 Le mode par défaut de Hadoop est le mode autonome. 

24. Quel est le rôle de Hadoop dans l’analyse de données volumineuses ?

Hadoop facilite l’analyse des données volumineuses car il fournit un stockage et aide à la collecte et au traitement des données.

25. Citez les composants de YARN

 Les principales composantes de YARN :

  • Gestionnaire de ressources
  • Node Manager
apache-spark

Apache Spark: Avantages et Inconvénients

Apache Spark est l’outil de génération de données massives largement utilisé par les industries  Apache Spark atteint des performances élevées pour les données par lots et en continu, en utilisant un planificateur DAG de pointe, un optimiseur de requêtes et un moteur d’exécution physique. Spark est principalement conçu pour la science des données et les abstractions de Spark facilitent les choses. Apache Spark fournit des API de haut niveau en Java, Scala, Python et R. Il dispose également d’un moteur optimisé pour les graphes d’exécution généraux. En traitement de données, Apache Spark est le plus grand projet open source.

Dans cet article, nous allons voir les avantages et inconvénients.

AvantagesRésultat de recherche d'images pour "le symbol plus"

Calcul en mémoire dans Spark

Avec le traitement en mémoire, nous pouvons augmenter la vitesse de traitement. Ici, les données sont mises en cache, nous n’avons donc pas besoin d’extraire les données du disque, le temps est donc sauvegardé. Spark dispose d’un moteur d’exécution DAG qui facilite le calcul en mémoire et le flux de données acyclique se traduisant par une vitesse élevée.

Rapidité de Traitement

Avec Apache Spark, on atteint une vitesse de traitement de données élevée. Environ 100 fois plus rapide en mémoire et 10 fois plus rapide sur le disque. Ceci est rendu possible en réduisant le nombre de lecture-écriture sur le disque.

Dynamique dans la nature

Il est facilement possible de développer une application parallèle, car Spark fournit 80 opérateurs de haut niveau.

Tolérance aux pannes dans l’étincelle

Apache Spark offre une tolérance aux pannes via Spark abstraction-RDD. Les RDD Spark sont conçus pour gérer l’échec de tout nœud de travail du cluster. Ainsi, cela garantit une perte de données nulle.

Traitement de flux en temps réel

Spark a une disposition pour le traitement de flux en temps réel. Auparavant, le problème avec Hadoop MapReduce était qu’il pouvait gérer et traiter des données déjà présentes, mais pas les données en temps réel. mais avec Spark Streaming, nous pouvons résoudre ce problème.

InconvénientsRésultat de recherche d'images pour "le symbol moins"

L’Absence de support pour le traitement en temps réel

Dans Spark Streaming, le flux de données en direct qui arrive est divisé en lots de l’intervalle prédéfini, et chaque lot de données est traité comme une base de données distribuée résiliente Spark (RDD). Ensuite, ces RDD sont traités à l’aide d’opérations telles que mapper, réduire, joindre, etc. Le résultat de ces opérations est envoyé par lots. Ainsi, ce n’est pas un traitement en temps réel, mais Spark gère presque en temps réel des données temps réel. Le traitement par micro-lots a lieu dans Spark Streaming.


Problème avec les petits fichiers

Si nous utilisons Spark avec Hadoop, nous rencontrons un problème pour la gestion de petits fichiers. HDFS fournit un nombre limité de gros fichiers plutôt qu’un grand nombre de petits fichiers. Un autre endroit où Spark Legs est derrière est que nous stockons les données compressées dans S3. Ce modèle est très bien sauf quand il y a beaucoup de petits fichiers compressés. La mission de Spark consiste maintenant à conserver ces fichiers sur le réseau et à les décompresser. Les fichiers compressés ne peuvent être décompressés que si l’intégralité du fichier se trouve sur un noyau. Il faudra donc beaucoup de temps pour graver leurs fichiers de décompression principaux en séquence.

Dans la RDD résultante, chaque fichier deviendra une partition; du coup, il y aura une grande quantité de petites partition dans une RDD. Maintenant, si nous voulons que notre traitement soit efficace, les RDD doivent être repartitionnés dans un format gérable. 


Aucun système de gestion de fichiers

Apache Spark n’a pas son propre système de gestion de fichiers. Il repose donc sur une autre plate-forme comme Hadoop ou une autre plate-forme sur le cloud. C’est l’un des problèmes connus de Spark. La capacité en mémoire peut être un goulot d’étranglement lorsque nous voulons un traitement rentable des mégadonnées, car conserver des données en mémoire coûte assez cher. En effet, la consommation de mémoire est très élevée et elle n’est pas gérée de manière conviviale. Apache Spark nécessite beaucoup de RAM pour s’exécuter en mémoire, le coût de Spark est donc assez élevé.

Manque d’algorithmes

Spark MLlib est à la ramasse en ce qui concerne un certain nombre d’algorithmes disponibles, tels que la distance de Tanimoto.

Optimisation manuelle

Le travail Spark doit être optimisé manuellement et convient à des jeux de données spécifiques. Si nous voulons que la partition et le cache dans Spark soient corrects, ils doivent être contrôlés manuellement.

Traitement itératif

Dans Spark, les données sont itérées par lots et chaque itération est planifiée et exécutée séparément.

Temps de Latence

Apache Spark a une latence plus élevée par rapport à Apache Flink.

Spark ne prend pas en charge les critères de fenêtre basés sur les enregistrements. Il n’a que des critères de fenêtre temporels.

 

Conclusion:

Kafka est une plate-forme unifiée permettant de gérer tous les flux de données en temps réel. Kafka prend en charge la livraison de messages à faible temps de latence et offre une garantie de tolérance de panne en cas de panne de la machine. Il a la capacité de gérer un grand nombre de consommateurs divers. Kafka est très rapide, effectue 2 millions d’écritures / seconde. Kafka conserve toutes les données sur le disque, ce qui signifie essentiellement que toutes les écritures sont stockées dans la mémoire cache de la page du système d’exploitation (RAM). Cela rend très efficace le transfert de données du cache de pages vers un socket réseau.

 

kafka

Apache Kafka: Avantages et Inconvénients

Le Big Data, un énorme volume de données. En ce qui concerne les données, il y a deux défis principaux. Le premier défi consiste à collecter un volume important de données et le second consiste à analyser les données collectées.  Apache Kafka est conçu pour les systèmes distribués à haut débit. Kafka fonctionne très bien en remplacement d’un broker de messages plus traditionnel. Comparé aux autres systèmes de messagerie, Kafka présente un meilleur débit, un partitionnement intégré, une réplication et une tolérance aux pannes inhérente, ce qui en fait un bon choix pour les applications de traitement de messages à grande échelle.

Dans cet article nous allons voir les différents avantages et inconvénients de Apache Kafka.

AvantagesRésultat de recherche d'images pour "le symbol plus"

Haut débit

Aucunement besoin de posséder un matériel très volumineux, Apache Kafka peut gérer des données à grande vitesse et à volume élevé. En outre, capable de prendre en charge des milliers de messages par seconde.

Faible latence

Kafka peut gérer ces messages avec une latence faible de quelques millisecondes requise par la plupart des nouveaux cas d’utilisation.

Tolérance de panne

L’un des meilleurs avantages est la tolérance aux pannes. En effet, Apache Kafka possède une capacité inhérente, à résister aux pannes de nœuds / machines au sein d’un cluster.

Durabilité

Quand on parle de durabilité on fait référence à la persistance des données / messages sur le disque. De plus, la réplication des messages est l’une des raisons de la durabilité. Les messages ne sont donc jamais perdus.

L’évolutivité

Sans aucun temps mort instantané en ajoutant des nœuds supplémentaires, Kafka peut être étendu. De plus, à l’intérieur du cluster Apache Kafka, la gestion des messages est totalement transparente et transparente.

Distribué

L’architecture distribuée de Apache Kafka  rend ce dernier est évolutif  grace à de nombreuses fonctionnalités telles que la réplication et le partitionnement.

Capacités du Broker de messages

Kafka a tendance à très bien fonctionner en remplacement d’un broker de messages plus traditionnel. Ici, un broker de messages fait référence à un programme intermédiaire, qui convertit les messages du protocole de messagerie formel de l’éditeur au protocole de messagerie formel du destinataire.

Variété de cas d’utilisation

Il est capable de gérer la variété de cas d’utilisation généralement requis pour un Data Lake. Par exemple, agrégation de journaux, suivi de l’activité Web, etc.

Traitement en temps réel

Kafka peut gérer un pipeline de données en temps réel. Étant donné que nous devons trouver un élément technologique pour gérer les messages en temps réel des applications, c’est l’une des raisons principales pour lesquelles Apache Kafka est notre choix.

 

InconvénientsRésultat de recherche d'images pour "le symbol moins"

Problèmes liés au réglage du message

Comme nous le savons, le broker utilise certains appels système pour transmettre des messages au consumers. Cependant, les performances de Kafka diminuent considérablement si le message doit être légèrement modifié. Donc, il peut très bien fonctionner si le message reste inchangé car il utilise les capacités du système.

Ne prend pas en charge la sélection de sujets génériques

Il y a un problème qui fait que Apache Kafka ne fait correspondre que le nom exact du sujet, ce qui signifie qu’il ne prend pas en charge la sélection de sujets génériques. Parce que cela le rend incapable de traiter certains cas d’utilisation.

Manque de rythme

Il peut y avoir un problème en raison du manque de rythme, alors que les API nécessaires à d’autres langues sont gérées par des personnes et des entreprises différentes.

Réduit les performances

Généralement, la taille des messages individuels ne pose aucun problème. Cependant, les brokers et les consumers compressent ces messages à mesure que leur taille augmente. De ce fait, lors de la décompression, la mémoire du nœud est utilisée lentement. En outre, la compression se produit lorsque le flux de données dans le pipeline. Cela affecte le débit et les performances.

Se comporte maladroit

Parfois, il commence à se comporter un peu maladroit et lentement lorsque le nombre de files d’attente dans un cluster Apache Kafka augmente.

Manque de paradigmes de messagerie

Certains paradigmes de messagerie manquent dans Kafka, tels que les requêtes / réponses, les files d’attente de point à point, etc. Pas toujours, mais pour certains cas d’utilisation, cela semble problématique.
Il s’agissait donc des avantages et des inconvénients de Apache Kafka. J’espère que vous aimez notre explication.

 

Conclusion: avantages et inconvénients de Apache Kafka

Nous avons passé en revu l’essentiel des avantages et inconvénients de Kafka. Cela vous aidera beaucoup avant de l’utiliser. Toutefois, en cas de doute sur les avantages et les inconvénients de Kafka, n’hésitez pas à consulter la section commentaires.

 

Apache Hadoop: Avantages et Inconvénients

Le Big Data est l’un des secteurs d’intervention majeur dans le monde numérique actuel. On dénombre des tonnes de données produites et amassées à partir des divers processus implémenté par la société. Il se peut que ces données contiennent des modèles et des méthodes permettant à l’entreprise d’améliorer ses performances. Les données contiennent aussi des commentaires du client. Inutile de préciser que ces données sont cruciales pour l’entreprise et ne doivent en aucun cas être ignorées. Mais, une certaine quantité de données est inutile. Afin de determiner la partie utile des données, diverses plateformes sont utilisées. La plus connue de ces plateformes est Apache Hadoop. Hadoop peut analyser efficacement les données et extraire les informations utiles.

AvantagesRésultat de recherche d'images pour "le symbol plus"

1) Gamme de sources de données

Les données recueillies auprès de diverses sources seront de forme structurée ou non structurée. Les sources peuvent être des médias sociaux, des données par clic ou même des conversations par courrier électronique. Il faudrait beaucoup de temps pour convertir toutes les données collectées en un seul format.Apache Hadoop économise ce temps, car il peut extraire des données précieuses de toute forme de données. Il remplit également diverses fonctions, telles que l’entreposage de données, la détection des fraudes, l’analyse de campagnes de marché, etc.

2) Rentable

Avant, les entreprises devaient dépenser une part considérable de leurs avantages pour stocker de grandes quantités de données. Dans certains cas, ils ont même dû supprimer d’importants ensembles de données non traitées afin de laisser de la place pour de nouvelles données. Il était possible que des informations de grande valeur soient perdues dans de tels cas. Grace à Apache Hadoop, ce problème a été complètement résolu. C’est une solution rentable pour le stockage de données. Cela aide à long terme car il stocke la totalité des données brutes générées par une entreprise. Si l’entreprise change la direction de ses processus à l’avenir, elle peut facilement se référer aux données brutes et prendre les mesures nécessaires. Cela n’aurait pas été possible dans l’approche traditionnelle vu que les données brutes auraient été supprimées en raison de l’augmentation des dépenses.

3) Vitesse

Chaque organisation utilise une plate-forme pour faire un travail plus rapidement. Hadoop donne la possibilité à chaque entreprise de répondre à ses problèmes de stockage de données. Il utilise un système de stockage dans lequel les données sont stockées sur un système de fichiers distribué. Étant donné que les outils utilisés pour le traitement des données sont situés sur les mêmes serveurs que les données, on effectue également le traitement à un rythme plus rapide. Par conséquent, vous pouvez traiter des téraoctets de données en quelques minutes à l’aide de Apache Hadoop.

4) Copies multiples

Hadoop duplique automatiquement les données qui y sont stockées et crée plusieurs copies. Ceci est fait pour s’assurer qu’en cas de panne, les données ne soient pas perdues. Apache Hadoop comprend que les données stockées par la société sont importantes et ne doivent pas être perdues à moins que la société ne les abandonne.

InconvénientsRésultat de recherche d'images pour "le symbol moins"

1) Absence de mesures préventives

Pendant le traitement de données sensibles collectées par une entreprise, il est nécessaire de fournir les mesures de sécurité obligatoires. Dans Hadoop, les mesures de sécurité sont désactivées par défaut. Le responsable de l’analyse des données est conscient et prend les mesures nécessaires pour sécuriser les données.

2) Problèmes liés aux petites données

On trouve des plates-formes Big Data sur le marché qui ne conviennent pas aux petites données. Hadoop est l’une de ces plates-formes dans laquelle seules les grandes entreprises générant des données volumineuses peuvent profiter de ses avantages. En effet, Hadoop ne peut pas fonctionner efficacement dans de petits environnements de données.

3) Fonctionnement risqué

Java est l’un des langages de programmation les plus populaire au monde. C’est également lié à diverses controverses car les cybercriminels peuvent facilement exploiter les frameworks construits sur Java. Hadoop est un de ces frameworks entièrement basé en Java. Par conséquent, la plate-forme est très vulnérable et peut subir des dommages.

 

Conclusion 

Chaque plate-forme utilisée dans le monde numérique présente ses propres avantages et inconvénients. Ces plates-formes servent un objectif vital pour l’entreprise. Par conséquent, il est nécessaire de vérifier si les avantages l’emportent sur les inconvénients. Si c’est le cas, utilisez les avantages et prenez des mesures préventives pour vous protéger des inconvénients. Pour en savoir plus sur Apache Hadoop et y faire carrière, inscrivez-vous pour une certification Big Data Hadoop. Vous pouvez également gagner mieux avec les formations en ligne Big Data Hadoop.

Machine Learning: quels avantages pour votre entreprise?

Machine Learning: quels avantages pour votre entreprise?

Avez-vous déjà regardé une video recommandée sur YouTube ? Avez-vous déjà remarqué l’efficacité du correcteur automatique de votre smartphone ? Si tel est le cas, vous avez bénéficié d’une ou plusieurs application du Machine Learning.

Depuis quelques années, les entreprises explorent les possibilités de développements que peut offrir le Machine Learning. Dans cet article, je vais vous lister les avantages concurrentiels que peut vous apporter l’apprentissage automatique. 

Qu’est-ce que le Machine Learning?

Avant de voir tous les avantages que peut vous apporter le Machine Learning, on commence par le définir.

En pratique, le Machine Learning consiste à comprendre des données et des statistiques. Autrement dit, c’est un processus où des algorithmes informatiques trouvent des modèles dans les données, puis prédisent les résultats probables.

C’est, par exemple, le cas quand vous recevez un mail; votre fournisseur de messagerie électronique va analyser les mots figurant dans l’objet du mail, les liens, etc. Suite à cette analyse, il classifiera le mail soit en spam ou en mail légitime.

Dans certain cas, les algorithmes de votre fournisseur de messagerie va se tromper mais ce qui rend le machine learning vraiment utile, c’est que l’algorithme peut «apprendre» et adapter ses résultats en fonction de nouvelles informations. Cela signifie que lorsque les spammeurs changent de tactique, la machine détecte rapidement les nouveaux modèles et identifie à nouveau correctement les messages douteux comme étant du SPAM.

Comment les entreprises utilisent le Machine Learning

La surveillance des e-mails n’est qu’un petit exemple parmi tant d’autres. Le machine learning est partout.

Machine Learning : Risque de Fraude

Machine Learning : Risque de Fraude

  1. Lorsque vous utilisez Google Traduction, un algorithme traduit ce texte en un autre texte exploitable.
  2. PayPal utilise des modèles différents d’apprentissage automatique pour déterminer et prévoir les cas de fraude.
  3. Facebook l’utilise pour analyser les photos et détecter les visages, puis suggérer aux utilisateurs de marquer les personnes que l’algorithme trouve dans l’image.

Cependant, l’apprentissage automatique va bien au-delà des exemples que je viens de citer.

Il peut être utilisé pour prédire le trafic de transport, les maladies, les cours des actifs financiers, les pannes matérielles, etc.

Les défis du Machine Learning

Tous les usages du Machine Learning sont très passionnants  et interessants. Cependant, la mise en place de l’apprentissage automatique dans toute organisation pose des défis.

  1. La première consiste à comprendre le problème et déterminer quel type d’algorithme utiliser pour résoudre ce problème. Par exemple, un algorithme de classification peut être utilisé pour classer un client de restaurant comme étant plus susceptible de prendre un menu complet ou juste un plat, mais il ne peut pas être utilisé pour prédire l’impact des hausses de prix sur les ventes.
  2. Le deuxième étant le risque de «surapprentissage» des données, qui consiste à former le système pour comprendre un ensemble de données jusqu’au point ou il perd toute capacité de généraliser, d’apprendre et de faire des prévisions en se basant sur de nouvelles données. 

Votre entreprise doit-elle adopter le Machine Learning ?

Une fois correctement mis en place, le Machine Learning peut vous aider à résoudre d’énormes problèmes dans votre entreprise. Aussi, il pourra vous aider à prévoir le comportement des clients et prospect afin de développer votre activité.

Donc, si vous pouvez utiliser l’apprentissage automatique pour analyser  les données et faire des prédictions qui aideront votre entreprise à se développer, pourquoi ne pas le faire ?

Pour créer un bon système de Machine Learning, vous avez besoin de :

  1. Une compréhension du Machine Learning.
  2. Connaissance des différents algorithmes disponibles et des types de problèmes qu’ils peuvent résoudre.
  3. Données (de différentes sources; internes et externes)
  4. La patience

Et n’oubliez surtout pas de vous assurez que votre entreprise suit les grandes tendances technologiques.

>