Fouille de données


Définition de la fouille de donnée
La fouille de donnée (souvent appelée « data mining ») est l'exploration et l'analyse de grandes quantités de données afin d'y découvrir de l'information implicite. Cette information peut être de différente nature, par exemple on recherchera des règles d'association, une classification ou une segmentation de population. On pourra en faire des représentations différentes pour en faciliter l'usage et mettre en oeuvre nombre de techniques souvent complémentaires sans qu'aucune ne surpasse l'autre. On retrouve notamment dans ce domaine les arbres de décision ou les réseaux de neurones parmi les techniques les plus sophistiquées. Il existe également une branche spécialisée de la fouille de données qui prend part à l'analyse de textes libres : la fouille de données textuelles ou « text mining ».

Les enjeux économiques
Les domaines d'utilisations du « data mining » sont nombreux : médecine, génétique, astronomie, processus industriels, agriculture ou encore la gestion de la relation client (G.R.C.). Les entreprises ont mis en oeuvre ces outils pour améliorer leur connaissance des clients et ainsi augmenter leur rentabilité. Elles entendent exploiter les grandes quantités d'information qu'elles détiennent et les tourner en avantages compétitifs. Les principaux secteurs économiques utilisant ces techniques sont le secteur financier (banques et assurance), les télécommunications ainsi que les entreprises de la grande distribution. Dans ces secteurs, massivement informatisés depuis longtemps, les données sont disponibles au sein d'entrepôts de données. Par exemple : · Chaque banque conserve l'historique des relevés de comptes de ses clients donc de toutes leurs dépenses ou revenus et peut donc calculer une «note» en fonction des risques financiers encourus, · Les entreprises de télécommunication connaissent l'ensemble les appels ainsi que leurs dates, heures, destination et durées. Ils peuvent donc prévoir, grâce à ces informations, si un client est susceptible de passer à la concurrence, · Les entreprises de la grande distribution utilisent les lecteurs de code barre et les caisses enregistreuses pour centraliser les achats conservées sous forme de tickets de caisse électroniques. Il leur est donc facile de cibler leurs actions commerciales sur les propensions de la clientèle à acheter tel ou tel produit. Toutes ces informations sont généralement enrichies par les données socio-démographiques (professions, âge, statut marital, nombre d'enfants) et géographiques (adresse personnelle, lieu de travail, etc...), qui permettent d'améliorer la connaissance des clients. Pour la grande distribution, l'éloignement géographique du magasin par rapport au domicile est souvent un critère important. Dans le cadre de concurrence exacerbée que connaissent ces entreprises, la maîtrise de l'analyse et de la compréhension des comportements des clients et des prospects est devenue une arme commerciale. Les directions commerciales et mercatiques de ces entreprises espèrent ainsi prévoir l'évolution de comportements d'achat et ainsi personnaliser la relation entre l'entreprise et le consommateur. La fouille fait donc partie de la gamme de techniques utilisées pour améliorer leur G.R.C..


Oral Probatoire CNAM( mars 2002 ) Apport du Datamining pour l'analyse de textes (format pdf)