R

datacleaning R

Des milliers voir des  millions ou des milliards d’éléments de données entrant dans les entreprises chaque jour. Il est presque inévitable que la plupart d’entre elles ne possèdent pas la qualité suffisante pour créer des modèles de gestion efficaces. S’assurer que vos données sont propres doit toujours être la partie la plus importante et sans doute la plus importante d’un flux de travail Data Science. Sans cela, vous aurez du mal à voir ce qui est primordial et vous il se peut que vous preniez de mauvaises décisions en raison de doublons, d’anomalies ou d’informations manquantes.

Résultat de recherche d'images pour "r studio"
L’un des outils de programmation de données les plus populaires et les plus puissants est R, langage et environnement open source pour l’informatique statistique et les graphiques. R propose tous les outils nécessaires pour produire des projets data science. Avec cet environnement, plusieurs bibliothèques de l’environnement R facilitent le nettoyage et la manipulation des données avant le début d’un projet.

Explorer les données

La plupart des outils facilitant d’explorer un ensemble de données que vous avez importé existent déjà sur la plate-forme R.

Cette commande donne tout simplement une vue d’ensemble de tous vos attributs de données, en montrant les divisions min, max, médiane, moyenne et catégorie pour chacun. C’est une excellente méthode pour repérer rapidement les éventuelles anomalies de données.
Ensuite, vous pouvez utiliser un histogramme pour mieux comprendre la distribution de vos données. Cela permettra d’afficher les valeurs aberrantes au sein du jeu de données ou les colonnes numériques que vous souhaitez particulièrement observer.

Le package plyr

Vous devrez installer le paquet plyr pour créer votre histogramme, en utilisant la fonctionnalité standard R pour l’installation de bibliothèques.

 

<code>

Install.packages(“plyr”)

Library(plyr)

Hist(YOUR_DATASET_NAME)

</code>

Cela mettra en place une visualisation de vos données pour détecter rapidement les anomalies. Une visualisation de boîte à moustaches utilise le même package mais se scinde en quartiles pour la détection des valeurs aberrantes. Ces deux éléments combinés vous indiqueront rapidement si vous devez limiter l’ensemble de données ou n’en utiliser que certains segments dans un algorithme ou une modélisation statistique.


Correction des erreurs

R possède un certain nombre de méthodes prédéfinies pour corriger les erreurs de données, telles que la conversion de valeurs, comme vous le feriez dans Excel ou SQL avec une logique simple, par exemple. as.charater() convertit la colonne en chaîne de caractères.
En revanche, si vous souhaitez commencer à corriger les erreurs que vous avez vues dans votre histogramme ou votre boîte à moustaches, d’autres packages peuvent le faire.


Le paquet stringr

Stringr peut vous aider à nettoyer vos données de différentes manières, par exemple via la suppression d’espaces blancs et le remplacement de certains mots inutiles. Ce sont des bits de code assez standard structurés comme str_trim (YOUR_DATA_FIELD) qui supprime simplement les espaces.
Cependant, qu’en est-il de l’élimination des anomalies évoquées dans notre histogramme? Cela nécessiterait un peu plus de complexité que cela, mais à titre d’exemple de base, nous pouvons dire à R de remplacer toutes les valeurs aberrantes de notre champ par la valeur médiane de ce champ. Cela déplacera tout ensemble et enlèvera le biais d’anomalie.
Valeurs manquantes
Dans R, il est très simple de rechercher des données incomplètes et d’exécuter des actions avec ce champ. Par exemple, cette fonction éliminera complètement les valeurs manquantes de la colonne de données choisie.

 

<code>

Na.omit(YOUR_DATA_COLUMN)

</code>

Des options similaires permettent de remplacer les valeurs vides par 0 ou N / A en fonction du type de champ et d’améliorer la cohérence du jeu de données.

Résultat de recherche d'images pour "r studio"

• Le paquet tidyr

Le paquet tidyr est conçu pour ranger vos données. Cela fonctionne en identifiant les variables dans votre jeu de données et en utilisant les outils fournis pour les déplacer dans des colonnes avec trois fonctions principales ou bien organiser une (), séparer () et répartir ().
La fonction organiser () prend plusieurs colonnes et les rassemble en paires de valeurs clés. Un exemple, disons que vous avez des données de score d’examen comme.

 

Nom

Exam A

Exam B

Martin

45

90

Walter

66

80

Samuel

55

65

 

Les fonctions de rassemblement fonctionnent en transformant cela en colonnes utilisables comme celle-ci.

Nom

Exam

Score

Martin

A

45

Walter

A

66

Samuel

A

55

Martin

B

90

Walter

B

80

Samuel

B

65

Maintenant, nous sommes vraiment en mesure d’analyser les résultats de l’examen. Les fonctions séparées et étendues font des choses similaires que vous pouvez explorer une fois que vous avez le paquet, mais qui finissent par caler vos données au besoin.
Voici quelques autres packages intéressants qui peuvent être utiles pour le nettoyage des données dans R

• le paquet purrr

Le paquet purrr est conçu pour la lutte contre les données. Il ressemble beaucoup au paquet plyr, mais il est plus ancien et certains utilisateurs le trouvent simplement plus facile à utiliser et plus standardisé dans ses fonctionnalités.

• Le paquet sqldf

De nombreux utilisateurs de R sont plus à l’aise avec le langage SQL que le R. Cette fonction vous permet d’écrire du code SQL dans R studio pour sélectionner vos éléments de données.

• Le paquet de janitor

Ce package est capable de rechercher des doublons sur plusieurs colonnes et de créer facilement des colonnes conviviales à partir de votre cadre de données. Il a même une fonction get_dupes () pour rechercher des valeurs en double parmi plusieurs lignes de données. Si vous souhaitez dédupler vos données de manière plus avancée, par exemple en trouvant différentes combinaisons ou en utilisant la logique floue, vous souhaiterez peut-être plutôt utiliser un outil de déduplication.

• Le package splitstackshape

Il s’agit d’un package plus ancien qui peut fonctionner avec des valeurs séparées par des virgules dans une colonne de données. Utile pour la préparation d’enquêtes ou d’analyses de texte.
R a un grand nombre de paquets et cet article ne touche vraiment qu’à la surface de ce qu’il peut faire. Comme de nouvelles bibliothèques apparaissent tout le temps, il est important de faire vos recherches et d’en obtenir les bonnes avant de commencer tout nouveau projet.

>