Données Structurées et non Structurées : Tout ce qu’il faut savoir

L’une des caractéristique du Big Data est la variété. Cette variété concerne plusieurs niveaux et un des éléments est la variété des données. Dans cet article, nous allons étudier les deux types de données : Données structurées et non structurées.

Données structurées

Données Structurées

Données Structurées

Le terme données structurées signifie généralement des données ayant une typologie, format et longueur définies. On peut citer quelques exemples de données structurées :

  • Nombres
  • Dates
  • Chaînes de caractère

Plusieurs chercheurs spécialisés en Big Data affirment que ce type de données (structurées) représente environ 20% des données existants. Cependant, les données structurées sont les données les plus manipulées et sont généralement stocké dans des bases de données relationnelles.

Très souvent, on utilise le langage SQL pour interroger ces données.

Dans les entreprise, on collecte des données structurées à partir de différentes sources comme les CRM et les ERP.

Les sources des données structurées

Les sources de données structurées sont divisées en deux catégories:

1 – Données généré par ordinateur :

Ce sont les données générées automatiquement par la machine sans aucune intervention humaine.

Les données structurées générées par ordinateur inclus les éléments suivants :

  • Données de capteur: par exemple les étiquettes d’identification par radiofréquence, dispositifs médicaux et données GPS. On peut ici prendre l’exemple du suivi des conteneurs de produits d’un endroit à un autre. Lorsque l’information est transmise par la puce, elle peut aller sur un serveur et pour être analysé. Les entreprises s’intéressent à cela pour la gestion de la chaîne d’approvisionnement
    et contrôle des stocks.
  • Données de point de vente: lorsque le caissier scanne le code barre de tout produit, toutes les données associées à ce produit sont générées. Si on regarde le nombre de produits vendus par jour, on se rend compte de la quantité énorme de données générées.
  • Données financières: les systèmes financiers utilisent des règles prédéfinies pour automatiser les processus et ainsi générées des données. Par exemple, les données sur les actions contiennent des données structurées comme le code (ISIN) de l’entreprise et la valeur en dollars ou en euro.

2- Généré par l’homme:

Il s’agit des données générées par des humains en interaction avec l’ordinateur lors de saisie par exemple.

Les données structurées générées par l’homme inclus les éléments suivants :

  • Données de saisie: Il s’agit des données qu’un humain pourrait entrer dans un ordinateur en utilisant un clavier par exemple. 
  • Données de flux de clics: à chaque fois que vous visiter un site sur internet, lorsque vous cliquer sur un lien, vous générer des données. Ces données peuvent être analysées pour comprendre le comportement des visiteurs du site.
  • Données relatives au jeu: chaque mouvement que vous effectuez dans un jeu peut être enregistré. Cela peut être utile pour comprendre comment les utilisateurs finaux se déplacent dans une portefeuille de jeux.

 

Données non structurées

Données Non Structurées

Données Non Structurées

Les données non structurées sont des données qui ne suivent ni une typologie ni un format précis. Comme dit précédemment, 80% des données disponibles sont non structurées.
Les données non structurées c’est donc l’énorme majorité des données que vous rencontrerez. Cependant, jusqu’à récemment, la technologie ne permettait pas vraiment d’exploiter ces données à part les stocker ou les analyser manuellement.

Sources des données non structurées

La bonne nouvelle est que les données non structurées sont partout !

Tout comme pour les données structurées, les données non structurées sont générées par l’ordinateur ou par l’homme.

1 – Données généré par ordinateur :

Voici quelques exemples de données générés par la machine :

  • Images satellite: Cela comprend les données météorologiques, les données récupérées par les états dans le cadre de la surveillance par satellite. Google Earth est un excellent exemple.
  • Données scientifiques: Cela inclut les images sismiques, les données atmosphériques et physique des hautes énergies.
  • Photographies et vidéo: les données générées par les systèmes de vidéo surveillance par exemple.
  • Données radar

2 – Généré par l’homme:

Voici quelques exemples de données générés par l’homme :

  • Texte interne à votre entreprise: par exemple, le contenu texte dans les procédures, documentations et échanges d’email. 
  • Médias sociaux: Toutes les données générées sur les réseaux sociaux comme les commentaires sur YouTube ou les “likes” sur Instagram ou encore les tweets.
  • Données mobiles: Les messages textes (SMS) ou les données de localisation.
  • Contenu du site: Par exemple, le contenu de ce blog que je produit.
>