En tant que Data Scientist, il est essentiel de maîtriser les outils de la statistique descriptive, au même titre que les outils de conception et validation de modèles d’apprentissage automatique. La statistique exploratoire doit être utilisée à chaque étape ou chaque projet :

  • dans la phase d’étude, afin de prouver l’intérêt d’un modèle ou proposer une alternative plus légère, construire des études clients;

  • en amont de la construction du modèle, pour qualifier le lien entre les variables ou étudier la distribution de la variable cible ;

  • dans le cadre de la description des résultats de modèles comme l’interprétation des groupes de K-means.

Ces outils permettent de prendre du recul sur ses données et contribuent à savoir correctement traduire une problématique en termes statistiques. Etant donné le temps limité, nous resterons dans le cadre uni- et bivarié, tout en donnant des références pour construire sa culture statistique d’exploration multivariée !