Quelle type de données sont utilisées pour le data mining ?

exploration de données

Le data mining est un processus utilisé par les entreprises pour transformer des données brutes en informations utiles. En utilisant un logiciel pour rechercher des modèles dans de grands lots de données, les entreprises peuvent en apprendre davantage sur leurs clients afin de développer des stratégies de marketing plus efficaces, d’augmenter les ventes et de réduire les coûts.

Quel type de données peut-on miner ?

Il existe un grand type de données prêtes à être exploitées. Sans rentrer dans des détails trop complexes

Flat File ou Fichiers plats

Les flat file en data mining sont définis comme des fichiers de données sous forme de texte ou sous forme binaire avec une structure qui peut être facilement extraite par des algorithmes d’exploration de données. Les données dites plates n’ont pas de relations entre elles, ce qui facilite (et limite leurs exploitation). Ce type de données est principalement utilisé pour le transport des informations entre divers serveurs.
Ex : fichier CSV.

Bases de données relationnelles

Une base de données relationnelle est définie comme la collecte de données organisées en tableaux avec des lignes et des colonnes. Le schéma physique des bases de données relationnelles est un schéma qui définit la structure des tables. Le schéma logique dans les bases de données relationnelles est un schéma qui définit la relation entre les tables. L’API standard des bases de données relationnelles est le SQL.

On utilise les bases de données relationnelles dans le data mining via des modèles structurants comme le modèle ROLAP…

DataWarehouse

Le datawarehouse ou entrepôt de données est défini comme une lieu de collecte de données intégrées provenant de sources multiples qui permettront d’effectuer des requêtes et de prendre des décisions. Il existe trois types d’entrepôts de données : Entrepôt de données d’entreprise, Data Mart et Entrepôt virtuel.

Deux approches peuvent être utilisées pour mettre à jour les données dans le DataWarehouse : L’approche basée sur les requêtes et l’approche basée sur la mise à jour. Ces approches sont très utiles et aident à la prise de décision d’entreprise

Bases de données transactionnelles

Les bases de données transactionnelles sont un ensemble de données organisées par horodatage, date, etc. pour représenter les transactions dans les bases de données. Ce type de base de données a la capacité de revenir en arrière ou d’annuler son fonctionnement lorsqu’une transaction n’est pas terminée ou engagée.

Il s’agit donc d’un système très flexible où les utilisateurs peuvent modifier les informations sans changer les informations sensibles.

On utilise surtout les bases de données transactionnelles dans les banques ou les systèmes distribués, bases de données d’objets, etc.

Bases de données multimédia

Les bases de données multimédia sont constituées de supports audio, vidéo, images et textes. Elles peuvent être stockées sur des bases de données orientées objet. Elles sont utilisées pour stocker des informations complexes dans des formats prédéfinis.

Une base de données multimédia sera utilisé pour mettre en forme les bibliothèques numériques, service de vidéo à la demande ou encore les base de données musicales comme Spotify, etc.

l'exploration de données ou le data mining
L’exploration de données ou le data mining [source : Unsplash]

Base de données spatiales

L’objectif de ce type de base de données est de stocker des informations géographiques. Une base de données spatiale stocke les données sous forme de coordonnées, de topologie, de lignes, de polygones.. Elle seront très utilies pour les systèmes de cartographies ou de GPS..

Bases de données de séries chronologiques

Les bases de données de séries chronologiques contiennent des données boursières et des activités enregistrées par les utilisateurs. Elles vont permettre de gérer un ensemble de nombres indexés par heure, date, etc. Elle nécessite une analyse en temps réel.

Données du World Wide Web

Le WWW désigne le World wide web, à savoir un ensemble de documents et de ressources tels que des documents audio, vidéo, textes, etc. qui sont identifiés par des localisateurs de ressources uniformes (URL) au moyen de navigateurs web, reliés par des pages HTML et accessibles via le réseau Internet.

Il s’agit du dépôt le plus hétérogène, car il recueille des données provenant de multiples ressources. Il est de nature dynamique car le volume des données est en constante augmentation et évolution.

On connait tous le web et les donnée du wwww vont servir les achats en ligne, la recherche d’emploi, recherche, études ou même ce blog

Est-ce que c’est mauvais ?

Bien que l’exploitation de la puissance de l’analyse des données soit clairement un avantage concurrentiel, l’exploitation trop zélée des données peut facilement se retourner contre elle. À mesure que les entreprises deviennent expertes dans le découpage des données pour révéler des détails aussi personnels que les défauts de paiement des prêts hypothécaires et les risques de crise cardiaque, la menace de violations flagrantes de la vie privée s’accroît.

Cependant, le data mining n’est pas illégal, il n’est simplement pas encore régulé du à sa nouveauté.

source :

https://www.geeksforgeeks.org/types-of-sources-of-data-in-data-mining/
https://www.computerworld.com/article/2485493/enterprise-applications-big-data-blues-the-dangers-of-data-mining.html

Crédits photos : Pixabay & Unsplash

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.