BLOG

« Pas besoin d’avoir fait Math sup pour travailler dans la data »

Veltys Advisory Veltys Academy Veltys Experts Veltys Factory
Pourquoi il est indispensable d’avoir un socle scientifique minimum en mathématiques et en statistiques pour faire de la data science.

Dans le métro, j’ai croisé à plusieurs reprises un panneau publicitaire pour un organisme de formation qui m’a interpellé.

 

Je tiens à préciser d’emblée que je n’ai rien contre cette entreprise. J’ai même eu des échos plutôt positifs sur les formations qu’elle propose. C’est plutôt sa communication qui me fait réagir et je vais vous expliquer pourquoi.

En tant que data scientist, je suis surpris par le propos mis en avant sur cette affiche qui déclare « pas besoin d’avoir fait Math sup pour travailler dans la data ».

Ce qui me gêne dans cette affirmation, ce n’est évidemment pas la référence à Math Sup (je ne suis d’ailleurs personnellement pas passé par cette voie), mais c’est qu’elle laisse entendre implicitement qu’on peut devenir un bon data scientist sans aucun bagage scientifique en mathématiques et en statistiques. 

 

Or, se passer de ce bagage scientifique me paraît impossible pour deux raisons majeures :

  • Le risque est de former de bons techniciens qui ne comprennent pas ce qu’ils font.

La data science nécessite plus qu’une simple maîtrise de la programmation. Les modèles de data science sont souvent complexes et requièrent une connaissance fine des mathématiques et des statistiques sous-jacentes. Sans cette compréhension, les techniciens risquent de coder sans comprendre réellement ce qu’ils font, ce qui peut conduire à des erreurs, de mauvaises interprétations et des résultats faussés.

 

  • La capacité à comprendre et adapter les modèles statistiques est ce qui fait la différence dans les projets data.

Sans les bases statistiques pour comprendre comment fonctionnent les modèles, difficile de les challenger et de les améliorer, et même de les remettre en cause. Alors que chaque modèle a ses limites et qu’il est indispensable de les connaître précisément pour faire les bonnes recommandations avec certitude. La valeur générée grâce à la data vient du regard critique, et ce regard critique n’est possible que si on comprend les hypothèses sur lesquelles reposent les analyses.

 

Cela n’exclut évidemment pas d’être un autodidacte sur la data avec un parcours atypique sans passer par une grande école ou une formation universitaire spécialisée, bien au contraire ! Mais le parcours d’apprentissage ne comprendra pas qu’une formation en Python/R, il faudra aussi se former en statistiques descriptives, en algèbre linéaire, en modélisation statistique, en optimisation sous contraintes, en économétrie, en machine learning, etc.

En résumé, il me semble clé de ne pas minimiser l’importance de la formation scientifique dans le domaine de la data et de faire preuve de clairvoyance. Le mouvement « data sans stats/maths » me paraît dangereux et décrédibilise l’ensemble de la filière.

J’attends donc avec impatience le moment où de nouvelles affiches publicitaires apparaîtront sur mon trajet !

Jean-Baptiste Vilain
Partner - Practice Sports & Enchères