Science des données ?

"La science des données, communément appelé Data Science en bon français, est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées de nombreuses données structurelles et non structurées. Elle est souvent associée aux données massives et à l'analyse des données.

Elle utilise des techniques et des théories tirées de nombreux domaines dans le contexte des mathématiques, des statistiques, de l'informatique, de la théorie et des technologies de l'information. "

Et justement cette science n'est pas là pour se compliquer la vie à vouloir faire des algorithmes longs et complexes "pour la frime". Non! La Science des Données est une science pratique et qui a pour vocation à extraire le maximum de valeur ajouté des données dont nous sommes en possession. Pour passer d'une donnée à une information puis in fine à une connaissance à forte valeur ajoutée.

Quel language choisir ?

Python !

Nommé en l'honneur de la troupe "The mounty Python", ce langage déjà trentenaire (1991) est le plus puissant.

La Science des données et sa branche du langage automatique (Machine Learning) a tiré sa gloire de 4 grands sujets très rentables :

  1. Reconnaissance de photos

  2. Publicité ciblée

  3. Recommandation de produits

  4. Conduite Autonome

Et ces 4 sujets ont étés et sont encore à fort potentiel ! D'autant plus sur Python où la quantité de "libraries" est immense !

img. Python's logo

La sacro sainte trinité des manipulateurs de données:

Pandas , Numpy et Matplotlib

Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics

The Seminal paper of Data Science!!

En résumé

La Science des donnée permet de meilleures décisions stratégiques pour une entreprise. Rendu possible par le fait qu'elle permette de trouver des informations utiles pour les décideurs.


Grâce à la Data Science, on peut générer de la valeur ajoutée de deux façons différentes :

  1. Trouver des patterns (Insights) dans les données

  2. Le développement de Data Product

Enfin, le Data Scientist n'est pas un mathématicien théorique pur, il est avant tout pratique. Dans ses expertises requises figurent celle en informatique et mathématique mais aussi une part tout aussi importante d'expertise "Métier".

Expertise Métier

Pour produire des Data Product ou des modèles prédictifs, un Data Scientist doit comprendre l’enjeu métier de l’entreprise. Ceci lui est primordial pour comprendre dans quelle direction cette dernière cherche à s’orienter.

Comprendre la finalité métier permettra au Data Scientist de se poser les bonnes questions et définir les pistes les plus prometteuses à explorer pour mener à bien sa mission. Par ailleurs, comprendre la finalité métier n’est pas suffisant en soi. En effet un Data Scientist travaille conjointement avec les équipes métiers pour comprendre leurs problématiques. Cette collaboration lui servira pour définir les bons indicateurs, et KPI (Key Performance Indicator) sur lesquels il se basera pour qualifier son travail et l’améliorer. Pour reprendre l’exemple de l’institution bancaire qui souhaite détecter des transactions bancaires frauduleuses, un bon KPI pourra être “le nombre de transactions frauduleuses détectées). Si à l’issue du travail du Data Scientist, le nombre de détection de fraude augmente, l’équipe métier saura quantifier cette amélioration.

Cette compréhension des règles et contraintes métier permettra au Data Scientist de juxtaposer sa compréhension avec ce que révèlent les données. Ainsi, il pourra contextualiser ses découvertes et donner un sens aux observations et aux modèles qu’il produit lors de ses explorations.

Toujours est-il que, grâce à sa compréhension du métier, le Data Scientist saura communiquer dans un discours compréhensible par les gens du métier, les trouvailles et découvertes qu’il obtient lors de ses explorations de données. Par conséquent, il pourra expliquer les modèles prédictifs qu’il produit tout en cachant la complexité technique sous-jacente à leur élaboration.

Finalement, la vraie valeur ajoutée d’un Data Scientist ne réside pas dans ses compétences techniques, mais plutôt dans sa capacité savante de traduire en des mots simples et compréhensibles par les décideurs, ce que cherchent à dire les données.

Expertise Mathématique

L’exploration (Data Mining) des données et la construction de Data Product requiert de manipuler et quantifier les données. Ces dernières, au coeur de la Data Science, viennent dans différentes formes, textures et corrélations. Egalement, elles peuvent être modélisées dans des formulations mathématiques. Ces dernières synthétisent le comportement des données et permettent de faire des extrapolations et des déductions pour construire des modèles prédictifs.

Les modèles prédictifs construits à l’aide des algorithmes de Machine Learning se basent sur des calculs et formules mathématiques. Souvent, la majorité des gens ne retiennent, à tort, que les statistiques comme branche des mathématiques applicables à la Data Science. L’algèbre linéaire, les statistiques (classiques et bayésiennes), les probabilités, et les calculs de dérivés sont tout aussi importants pour avoir un profil complet et à l’aise avec les rouages algorithmiques et mathématiques du Machine Learning.

Toutefois, il ne s’agit pas de devenir un mathématicien or paire pour faire de la Data Science. Il faut surtout être à l’aise avec les mathématiques pour comprendre les fondements théoriques

et les limitations de chaque algorithme de Machine Learning. Ainsi, vous saurez choisir les bons outils en fonction des situations et ce que vous souhaitez accomplir.

Expertise Informatique

A l’inverse de l’expertise métier et mathématique qui relève du théorique, le volet informatique revêt le côté pratique de la Data Science.

Un Data Scientist traite souvent de larges volumes de données, qui peuvent provenir de différentes sources et dans différents formats. Pour cette raison, il doit être capable de coder des prototypes dans un langage de programmation.

Il ne s’agit de maîtriser un langage de programmation de ses moindres détails, mais plutôt d’avoir un bon background technique pour se débrouiller et produire un code opérationnel. Ainsi, les Data Scientist sont généralement familiers avec des langages de programmation comme SQL, Python ou encore R.

Par ailleurs, être familier avec des langages comme Java et des infrastructures Big Data comme Hadoop est un grand plus. En effet, une telle familiarisation permettra au Data Scientist de “chapoter” et superviser le travail des Data Engineers. Ces derniers se chargeront de traduire le prototype fait par le Data Scientist (souvent écrit en R ou Python) dans un langage de programmation et une infrastructure plus robuste (comme Java ou Scala sur une pile Hadoop et Spark).

DashBoards

Dash est l'outil le plus en vogue pour la création de Dashboards, mais il a une documentation lacunaire et une communauté bloquée par le secret de fabrication de l'entreprise.
https://dash-gallery.plotly.host/Portal/


RShiny quant à lui est complètement libre, les forums regorgent d'aident et il serait fou de s'en priver !
https://shiny.rstudio.com

SNT

L'Etat fait des efforts à saluer, visiter ce site bien fait est un gain de temps :p https://eduscol.education.fr/1670/programmes-et-ressources-en-sciences-numeriques-et-technologie-voie-gt

Sciences Numériques et Technologie

Tiddy

Tidy data est un nom alternatif pour la forme statistique commune appelée matrice modèle ou matrice de données. En bon français l'on parle d'une matrice de données

Articles de Presse !

https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century