Objectifs

Donner aux élèves un aperçu et la pratique des bases de cette discipline. Un tour non exhaustif des méthodes les plus utilisées sur des données transactionnelles (ce sont en général des données non-image car les données images nécessitent d'autres traitements). Différents objectifs peuvent être énumérés :

  1. Comprendre les données : collecter, nettoyer, organiser et analyser les données pour comprendre leur signification et leur pertinence. Quelques méthodes d'exploration (statistiques) permettent de se familiariser avec les données et constater d'éventuelles anomalies.
  2. Appliquer des méthodes statistiques et algorithmiques (avec les techniques de l'Intelligence Artificielle) pour l'obtention de modèles prédictifs / analytiques et synthétiques afin de :
    • Développer des modèles prédictifs pour aider à identifier les tendances et les comportements futurs.
    • Aider à anticiper les besoins, par exemple à prévoir le stock ou à prédire les risques de défaillance d'un équipement. Prévoir l'apparition de maladies, calculer les probabilités d'évènements...
    • Optimiser et améliorer les processus et les opérations d'une entreprise, des chaînes d'approvisionnement ou la réduction des coûts de production.
  3. Evaluer et comparer les modèles. Au besoin; vérifier avec les experts du domaine dont les données proviennent.
  4. Exploiter les modèles validés pour découvrir des informations "cachées". Par exemple, la segmentation des données en groupes peut aider à identifier des opportunités divers. Elle permet également d'automatiser les prises de décisions en utilisant des algorithmes. Par exemple, la détection de fraudes ou l'évaluation du risque de crédit. Egalement, en entreprise, améliorer l'expérience client pour personnaliser les offres, recommander des produits et des services, et optimiser les interactions avec les clients.

Programme

  • La problématique scientifique de l'apprentissage artificiel (Machine Learning)
  • Formalisation et fondements Algorithmiques / Statistiques
  • Quelques applications typiques
  • Apprentissage supervisé, Non-(et semi-) supervisé,
  • Classification, régression, association (Introduction à la fouille de textes) - Arbres de décision / de régression
  • Méthodes statistiques (Bayes, SVM, Méthodes à base de noyaux)
  • Méthodes et indicateurs d'évaluation statistiques
  • Méthodes de Classification (Clustering)
  • Règles de classification / d'association
  • Méthodes importantes de pré et post-traitement des données
  • Evaluation et exploitation des Connaissances extraites Permettre aux élèves de pratiquer le Data science à travers les méthodes les plus employées. L'outil utilisé est WEKA. Le meilleur outil de nos jours serait Python (+ les bibliothèques de Data Science) mais le public de ce MOD n'est pas forcément Informaticien. Il risque donc d'avoir à apprendre un autre langage avant de pratiquer les méthodes utilisées. Mais les élèves sont encouragés à réaliser les BEs en Python/R (via un bonus).
BE
12h
 
Cours
16h
 

Responsables

  • Alexandre SAIDI
  • Céline HARTWEG-HELBERT

Langue

Français

Mots-clés

Fouille de données, Extraction de connaissances à partir de données, Data Science, Machine learning.