Comprendre: le data mining

On entend souvent parler de data mining, sans trop savoir réellement à quoi cela correspond. Alors voici un article complet sur le data mining, ou l’exploration de données… en français.

Data mining – une définition

L’exploration de données, également appelée découverte de connaissances dans les bases de données, est, en informatique, le processus de découverte de modèles et de relations intéressants et utiles dans de grands volumes de données. Ce domaine combine des outils issus des statistiques et de l’intelligence artificielle (tels que les réseaux neuronaux et l’apprentissage automatique) avec la gestion des bases de données pour analyser de grandes collections numériques, appelées ensembles de données. L’exploration de données est largement utilisée dans le monde des affaires (assurances, banques, commerce de détail), la recherche scientifique (astronomie, médecine) et la sécurité gouvernementale (détection des criminels et des terroristes).

La prolifération d’un grand nombre de bases de données gouvernementales et privées, parfois connectées entre elles, a conduit à l’adoption de réglementations visant à garantir l’exactitude des données individuelles et leur protection contre toute consultation ou altération non autorisée. La plupart des types d’exploration de données visent à établir des connaissances générales sur un groupe plutôt que des connaissances sur des individus spécifiques – un supermarché est moins préoccupé par la vente d’un article de plus à une personne que par la vente de nombreux articles à de nombreuses personnes – bien que l’analyse des modèles puisse également être utilisée pour discerner un comportement individuel anormal, comme une fraude ou une autre activité criminelle.

Data Mining – origines et premières applications

Avec l’augmentation des capacités de stockage des ordinateurs dans les années 80, de nombreuses entreprises ont commencé à stocker davantage de données transactionnelles. Les collections d’enregistrements qui en résultaient, souvent appelées entrepôts de données, étaient trop volumineuses pour être analysées avec les approches statistiques traditionnelles. Plusieurs conférences et ateliers informatiques ont été organisés afin d’examiner comment les récentes avancées dans le domaine de l’intelligence artificielle (IA) – telles que les découvertes des systèmes experts, des algorithmes génétiques, de l’apprentissage automatique et des réseaux neuronaux – pourraient être adaptées à la découverte de connaissances (terme préféré de la communauté informatique). Ce processus a abouti en 1995 à la première conférence internationale sur la découverte de connaissances et l’extraction de données, qui s’est tenue à Montréal, et au lancement en 1997 de la revue Data Mining and Knowledge Discovery. C’est également à cette époque que de nombreuses entreprises d’exploration de données ont été créées et que des produits ont été lancés.

L’une des premières applications réussies de l’exploration de données, peut-être la deuxième après la recherche marketing, a été la détection des fraudes à la carte de crédit. L’étude du comportement d’achat d’un consommateur permet généralement de dégager un modèle typique ; les achats effectués en dehors de ce modèle peuvent alors être signalés pour une enquête ultérieure ou pour refuser une transaction. Cependant, la grande variété de comportements normaux rend cette tâche difficile ; aucune distinction unique entre comportement normal et frauduleux ne fonctionne pour tout le monde ou tout le temps. Chaque individu est susceptible d’effectuer des achats différents de ceux qu’il a effectués auparavant, de sorte que le fait de se baser sur ce qui est normal pour un seul individu risque de donner trop de fausses alertes. Pour améliorer la fiabilité, on peut d’abord regrouper les individus qui ont des habitudes d’achat similaires, car les modèles de groupe sont moins sensibles aux anomalies mineures. Par exemple, un groupe de « grands voyageurs d’affaires » aura probablement un modèle qui inclut des achats sans précédent dans divers endroits, mais les membres de ce groupe pourraient être signalés pour d’autres transactions, telles que des achats par catalogue, qui ne correspondent pas au profil de ce groupe.

Approches de modélisation et d’exploration des données

Création de modèles

Le processus complet d’extraction de données comporte plusieurs étapes, depuis la compréhension des objectifs d’un projet et des données disponibles jusqu’à la mise en œuvre des changements de processus basés sur l’analyse finale. Les trois étapes clés du calcul sont le processus d’apprentissage du modèle, l’évaluation du modèle et l’utilisation du modèle. Cette division est la plus claire avec la classification des données. L’apprentissage de modèle se produit lorsqu’un algorithme est appliqué à des données dont l’attribut de groupe (ou de classe) est connu afin de produire un classificateur, ou un algorithme appris à partir des données. Le classificateur est ensuite testé avec un ensemble d’évaluation indépendant qui contient des données avec des attributs connus. La mesure dans laquelle les classifications du modèle correspondent à la classe connue pour l’attribut cible peut alors être utilisée pour déterminer la précision attendue du modèle. Si le modèle est suffisamment précis, il peut être utilisé pour classer des données pour lesquelles l’attribut cible est inconnu.

Techniques d’exploration de données

Il existe de nombreux types d’exploration de données, généralement divisés par le type d’informations (attributs) connues et le type de connaissances recherchées à partir du modèle d’exploration de données.

Modélisation prédictive

La modélisation prédictive est utilisée lorsque l’objectif est d’estimer la valeur d’un attribut cible particulier et qu’il existe des données d’apprentissage pour lesquelles les valeurs de cet attribut sont connues. Un exemple est la classification, qui prend un ensemble de données déjà divisé en groupes prédéfinis et recherche des modèles dans les données qui différencient ces groupes. Ces modèles découverts peuvent ensuite être utilisés pour classer d’autres données pour lesquelles la désignation du groupe approprié pour l’attribut cible est inconnue (bien que d’autres attributs puissent être connus). Par exemple, un fabricant peut développer un modèle prédictif qui distingue les pièces qui tombent en panne sous une chaleur extrême, un froid extrême ou d’autres conditions en fonction de leur environnement de fabrication, et ce modèle peut ensuite être utilisé pour déterminer les applications appropriées pour chaque pièce. Une autre technique employée dans la modélisation prédictive est l’analyse de régression, qui peut être utilisée lorsque l’attribut cible est une valeur numérique et que l’objectif est de prédire cette valeur pour de nouvelles données.

Modélisation descriptive

La modélisation descriptive, ou clustering, divise également les données en groupes. Avec le clustering, cependant, les groupes appropriés ne sont pas connus à l’avance ; les modèles découverts en analysant les données sont utilisés pour déterminer les groupes. Par exemple, un annonceur pourrait analyser une population générale afin de classer les clients potentiels en différents groupes, puis développer des campagnes publicitaires distinctes pour chaque groupe. La détection des fraudes fait également appel au regroupement pour identifier les groupes d’individus ayant des habitudes d’achat similaires.

Exploration de motifs

L’exploration de modèles se concentre sur l’identification de règles qui décrivent des modèles spécifiques au sein des données. L’analyse du panier de la ménagère, qui identifie les articles qui se retrouvent généralement ensemble dans les transactions d’achat, a été l’une des premières applications du data mining. Par exemple, les supermarchés utilisaient l’analyse du panier de la ménagère pour identifier les articles qui étaient souvent achetés ensemble – par exemple, un magasin proposant une vente de poisson s’approvisionnerait également en sauce tartare. Bien qu’il soit possible depuis longtemps de tester de telles associations et qu’elles soient souvent simples à voir dans de petits ensembles de données, l’exploration de données a permis de découvrir des associations moins apparentes dans d’immenses ensembles de données. Le plus intéressant est la découverte d’associations inattendues, qui peuvent ouvrir de nouvelles voies pour le marketing ou la recherche. Une autre utilisation importante de l’exploration de motifs est la découverte de motifs séquentiels ; par exemple, les séquences d’erreurs ou d’avertissements qui précèdent une panne d’équipement peuvent être utilisées pour planifier la maintenance préventive ou fournir un aperçu d’un défaut de conception.

Détection d’anomalies

La détection d’anomalies peut être considérée comme le revers de la médaille du clustering, c’est-à-dire la recherche d’instances de données qui sont inhabituelles et ne correspondent à aucun modèle établi. La détection des fraudes est un exemple de détection des anomalies. Bien que la détection de la fraude puisse être considérée comme un problème pour la modélisation prédictive, la rareté relative des transactions frauduleuses et la vitesse à laquelle les criminels développent de nouveaux types de fraude signifient que tout modèle prédictif risque d’être peu précis et de devenir rapidement obsolète. Ainsi, la détection d’anomalies se concentre plutôt sur la modélisation du comportement normal afin d’identifier les transactions inhabituelles. La détection d’anomalies est également utilisée avec divers systèmes de surveillance, par exemple pour la détection des intrusions.

De nombreuses autres techniques d’exploration de données ont été développées, notamment la découverte de modèles dans les données de séries chronologiques (par exemple, les cours de la bourse), les données en continu (par exemple, les réseaux de capteurs) et l’apprentissage relationnel (par exemple, les réseaux sociaux).

Problèmes de confidentialité et orientations futures

Le potentiel d’invasion de la vie privée par l’exploration de données a été une préoccupation pour beaucoup de gens. Les bases de données commerciales peuvent contenir des dossiers détaillés sur les antécédents médicaux, les transactions d’achat et l’utilisation du téléphone des personnes, entre autres aspects de leur vie. Les défenseurs des libertés civiles considèrent que certaines bases de données détenues par les entreprises et les gouvernements constituent une intrusion injustifiée et une invitation aux abus. Par exemple, l’American Civil Liberties Union a intenté un procès à l’Agence nationale de sécurité des États-Unis (NSA), alléguant l’espionnage sans mandat de citoyens américains par l’acquisition d’enregistrements d’appels auprès de certaines sociétés de télécommunications américaines. Le programme, qui a débuté en 2001, n’a été découvert par le public qu’en 2006, lorsque les informations ont commencé à fuir. Souvent, le risque ne provient pas de l’exploration de données elle-même (qui vise généralement à produire des connaissances générales plutôt qu’à obtenir des informations sur des questions spécifiques), mais d’une mauvaise utilisation ou d’une divulgation inappropriée des informations contenues dans ces bases de données.

Aux États-Unis, de nombreuses agences fédérales sont désormais tenues de produire des rapports annuels qui traitent spécifiquement des conséquences sur la vie privée de leurs projets d’exploration de données. La loi américaine exigeant des rapports sur la protection de la vie privée de la part des agences fédérales définit l’exploration de données de manière assez restrictive comme « … des analyses visant à découvrir ou à localiser un modèle prédictif ou une anomalie indiquant une activité terroriste ou criminelle de la part d’un ou plusieurs individus ». Comme divers organismes locaux, nationaux et internationaux chargés de l’application de la loi ont commencé à partager ou à intégrer leurs bases de données, le risque d’abus ou de failles de sécurité a obligé les gouvernements à collaborer avec l’industrie pour développer des ordinateurs et des réseaux plus sûrs. En particulier, des recherches ont été menées sur des techniques d’exploration de données préservant la vie privée qui fonctionnent sur des données déformées, transformées ou cryptées afin de réduire le risque de divulgation des données d’un individu.

L’exploration de données est en pleine évolution, l’un des moteurs étant les concours sur les problèmes de défi. Le prix Netflix d’un million de dollars en est un exemple commercial. Netflix, une société américaine qui propose la location de films par courrier ou en streaming sur Internet, a lancé ce concours en 2006 pour voir si quelqu’un pouvait améliorer de 10 % son système de recommandation, un algorithme permettant de prédire les préférences cinématographiques d’une personne sur la base des données de location précédentes. Le prix a été décerné le 21 septembre 2009 à l’équipe Pragmatic Chaos de BellKor, composée de sept mathématiciens, informaticiens et ingénieurs des États-Unis, du Canada, d’Autriche et d’Israël, qui ont atteint l’objectif de 10 % le 26 juin 2009 et ont finalisé leur victoire avec un algorithme amélioré 30 jours plus tard. Le concours ouvert de trois ans a donné lieu à de nombreuses innovations ingénieuses en matière d’extraction de données de la part des participants. Par exemple, les Conférences 2007 et 2008 sur la découverte de connaissances et l’extraction de données ont organisé des ateliers sur le prix Netflix, au cours desquels des documents de recherche ont été présentés sur des sujets allant des nouvelles techniques de filtrage collaboratif à la factorisation matricielle plus rapide (un élément clé de nombreux systèmes de recommandation). Les préoccupations relatives à la confidentialité de ces données ont également conduit à des avancées dans la compréhension de la vie privée et de l’anonymat.

L’exploration de données n’est cependant pas une panacée et les résultats doivent être considérés avec la même prudence que pour toute analyse statistique. L’une des forces de l’exploration de données est la capacité d’analyser des quantités de données qui ne seraient pas pratiques à analyser manuellement, et les modèles trouvés peuvent être complexes et difficiles à comprendre pour les humains ; cette complexité exige une certaine prudence dans l’évaluation des modèles. Néanmoins, les techniques d’évaluation statistique peuvent déboucher sur des connaissances exemptes de biais humains, et la grande quantité de données peut réduire les biais inhérents à des échantillons plus petits. Utilisée correctement, l’exploration de données permet d’obtenir des informations précieuses sur de grands ensembles de données qu’il ne serait pas pratique ou possible d’obtenir autrement.

data mining

SEO Inside est une agence web.

SEO Inside est une agence web et SEO - en savoir plus sur nous:

Agence web / Audit SEO / Conseil SEO / Création de site internet / Refonte de site internet optimisé pour le SEO / Référencement naturel / Référencement local /Netlinking / Formation SEO / E-Réputation et avis

Voici nos implantations :
Lille / Dunkerque / Amiens – ce sont nos 3 bureaux historiques.

Puis voici nos zones géographiques d’intervention :
Paris / Abbeville / Rouen / Compiègne / Reims / Metz / Caen / Evreux / Nancy / Colmar / Rennes / Le Mans / Orléans / Dijon / Besançon / Angers / Nantes / La Rochelle / Poitiers / Limoges /Clermont-Ferrand / Lyon / Annecy / Grenoble / Valence / Bordeaux / Montauban / Toulouse / Biarritz / Montpellier / Marseille / Cannes / Nice / Avignon / Monaco

SEO INSIDE est une agence web spécialiste en référencement naturel qui se veut proche de vous. Contactez-nous pour discuter de vos projets.

Comprendre: le data mining