Bonjour les Data Scientist ! Dans cet article, j’ai envie de vous exposer la notion de qualité des données qui est très importantes. Il faut absolument connaitre tous les critères de la qualité des données avant même de penser aux modèles de Machine Learning.
Souvent, vous entendrez que la clé d’un bon modele de Machine Learning est la qualité des données utiliser pour l’entrainer. Donc, aujourd’hui je vais vous aider a déterminer la qualité de ces données en vous donnons les critères clés à vérifier.
Donc, allons directement voir les critères de qualité des donnes.
Le premier critère est le degré de conformité des données aux règles ou contraintes définies. Ces contraintes concernent :
Ici la première des choses à avoir en tête est la différence entre exactitude et validité. Par exemple, dire que vous vivez en Europe est, certes, vrai. Cependant, cette réponse n’est pas précise.
Donc, ce qu’on doit vérifier est la précision des données et non seulement leurs exactitudes.
Cette tache n’est clairement pas simple. Car définir toutes les valeurs valides possibles permet de repérer facilement les valeurs non valides, cela ne signifie pas pour autant qu’elles sont exactes et encore moins qu’elles sont précis.
On est souvent confrontes à cette problématique des valeurs manquantes qui rend nos données incomplets.
On peut atténuer cette problématique en nous assurant d’utiliser une bonne source de données. Il est possible de résoudre ce problème en discutant directement avec les propriétaires des données. Par exemple, dans une société d’assurance on peut avoir des contrats d’assurance manquants dans la base de donnes mais le service commercial a ses propres systèmes ce qui permettra de retrouver toutes les données manquantes.
Cohérence ou Incohérence ?
Ici, on parle du degré de cohérence des données, dans le même dataset ou entre plusieurs datasets.
Une incohérence est le fruit a deux ou plusieurs données contradictoire dans le même dataset.
Par exemple, dans une base de donnes, on ne peut pas avoir un enfant de 8 ans dont le statut marital est divorce. Incohérence !!
Dans un dataset les donnes doivent utiliser les mêmes normes. Par exemple les mêmes unités de mesure.
Le poids peut être entré en livres ou en kilos. La date peut suivre le format européen ou le format américain.
Evitez de mélanger plusieurs unités de mesures dans le mêmes dataset.
La session a expiré
Veuillez vous reconnecter. La page de connexion s’ouvrira dans une nouvelle fenêtre. Après connexion, vous pourrez la fermer et revenir à cette page.