Dans le domaine de la classification de données, on se focalise sur la famille des méthodes bayésiennes, qui se distingue par son optimalité au sens de certains critères, par son coût réduit d’un point de vue algorithmique et par l’interprétabilité de ses résultats. Nous étudierons aussi les solutions qui s’offrent au Data Scientist lorsque l’échantillon d’apprentissage est peu important au regard du nombre de paramètres à apprendre, ou lorsque l’apprentissage doit se faire de manière non supervisée. En termes d’application, nous mettrons l’accent sur l'exploration d'un corpus textuel pour découvrir par exemple de nouveaux clients éligibles à la vente d'un service/produit, de prévoir les sentiments (avis) des clients ou comprendre les comportements qui prédisent une fraude.