Objectifs

Dans le domaine de la classification de données, on se focalise sur la famille des méthodes bayésiennes, qui se distingue par son optimalité au sens de certains critères, par son coût réduit d’un point de vue algorithmique et par l’interprétabilité de ses résultats. Nous étudierons aussi les solutions qui s’offrent au Data Scientist lorsque l’échantillon d’apprentissage est peu important au regard du nombre de paramètres à apprendre, ou lorsque l’apprentissage doit se faire de manière non supervisée. En termes d’application, nous mettrons l’accent sur l'exploration d'un corpus textuel pour découvrir par exemple de nouveaux clients éligibles à la vente d'un service/produit, de prévoir les sentiments (avis) des clients ou comprendre les comportements qui prédisent une fraude.

Programme

  • Décision bayésienne (2h)
  • Modèle de mélange gaussien (2h)
  • Chaîne de Markov cachée (2h)
  • BE sur l’apprentissage bayésien (4h)
  • Technologies et méthodes de traitement de langues naturelles et fouille de texte (8h)
  • Restitution d’une lecture scientifique par groupe (4h)

Modalité du contrôle des connaissances

Note = 50% savoir + 50% savoir-faire Note de savoir = 100% examen terminal Note de savoir-faire = BE text Mining (50%) + restitution d’un article scientifique (50%)

Bibliographie

  • M. R. Gupta and Y. Chen, Theory and Use of the EM Algorithm, Foundations and Trends in Signal Processing, Vol. 4(3), pp. 223–296, 2011.0
  • M. Watanabe and K. Yamaguchi, The EM algorithm and related statistical models, Statistics: Dekker series of textbooks and monographs, 2004.0
  • Michael W. Berry, Jacob Kogan, Text Mining: Applications and Theory, Willey, 2010.0
BE
8h
 
Cours
12h
 

Code

24_I_G_S09_MSO_INFO_3_7

Responsables

  • Alexandre SAIDI
  • Stéphane DERRODE

Langue

Français

Mots-clés

Théorie de la décision bayésienne, Apprentissage non supervisé, Modèles de Markov cachés, Fouille de textes, Analyse de sentiments, Chatbot, Traitement de Langues Naturelle.