Machine Learning and Data Mining

Goals

Donner aux élèves un aperçu et la pratique des bases de cette discipline. Un tour non exhaustif des méthodes les plus utilisées sur des données transactionnelles (ce sont en général des données non-image car les données images nécessitent d'autres traitements). Différents objectifs peuvent être énumérés :

Comprendre les données : collecter, nettoyer, organiser et analyser les données pour comprendre leur signification et leur pertinence. Quelques méthodes d'exploration (statistiques) permettent de se familiariser avec les données et constater d'éventuelles anomalies.
Appliquer des méthodes statistiques et algorithmiques (avec les techniques de l'Intelligence Artificielle) pour l'obtention de modèles prédictifs / analytiques et synthétiques afin de :
- Développer des modèles prédictifs pour aider à identifier les tendances et les comportements futurs.
- Aider à anticiper les besoins, par exemple à prévoir le stock ou à prédire les risques de défaillance d'un équipement. Prévoir l'apparition de maladies, calculer les probabilités d'évènements...
- Optimiser et améliorer les processus et les opérations d'une entreprise, des chaînes d'approvisionnement ou la réduction des coûts de production.
Evaluer et comparer les modèles. Au besoin; vérifier avec les experts du domaine dont les données proviennent.
Exploiter les modèles validés pour découvrir des informations "cachées". Par exemple, la segmentation des données en groupes peut aider à identifier des opportunités divers. Elle permet également d'automatiser les prises de décisions en utilisant des algorithmes. Par exemple, la détection de fraudes ou l'évaluation du risque de crédit. Egalement, en entreprise, améliorer l'expérience client pour personnaliser les offres, recommander des produits et des services, et optimiser les interactions avec les clients.

Programme

La problématique scientifique de l'apprentissage artificiel (Machine Learning)
Formalisation et fondements Algorithmiques / Statistiques
Quelques applications typiques
Apprentissage supervisé, Non-(et semi-) supervisé,
Classification, régression, association (Introduction à la fouille de textes) - Arbres de décision / de régression
Méthodes statistiques (Bayes, SVM, Méthodes à base de noyaux)
Méthodes et indicateurs d'évaluation statistiques
Méthodes de Classification (Clustering)
Règles de classification / d'association
Méthodes importantes de pré et post-traitement des données
Evaluation et exploitation des Connaissances extraites Permettre aux élèves de pratiquer le Data science à travers les méthodes les plus employées. L'outil utilisé est WEKA. Le meilleur outil de nos jours serait Python (+ les bibliothèques de Data Science) mais le public de ce MOD n'est pas forcément Informaticien. Il risque donc d'avoir à apprendre un autre langage avant de pratiquer les méthodes utilisées. Mais les élèves sont encouragés à réaliser les BEs en Python/R (via un bonus).

Study

12h

Course

16h

Code

24_I_G_S09_MOD_07_2

Responsibles

Alexandre SAIDI
Céline HARTWEG-HELBERT

Language

French

Keywords

Fouille de données, Extraction de connaissances à partir de données, Data Science, Machine learning.

Offre de formation