Le Certificat "BigData" du CNAM

Publié le 10 septembre 2015 dans [ CNAM, BigData, cours ]

Depuis l’an dernier, le CNAM propose un “Certificat de spécialisation Analyste de données massives”, destiné à former des data scientists. Vous pouvez disposer de plus de renseignements sur la page de présentation formelle du certificat, ou dans cet article de présentation.

Le public ciblé, ce sont des informaticiens, mathématiciens, statisticiens de formation. Et l’on souhaite les amener à acquérir les compétences d’un data scientist. L’acception du mot est vaste, mais il s’agit de maîtriser le stockage, l’exploration et l’analyse de données massives (structurées ou non, produites en temps réel par des sources diverses). Les compétences font donc appel aux mathématiques, à la statistique, à l’informatique (programmation, bases de données, visualisation). Le niveau est équivalent à celui d’un M2, avec la particularité d’être pluri-disciplinaire (Stats-Info).

L’an dernier, les profils étaient variés avec, entre autres, des personnes ayant de bonnes bases en statistique et souhaitant acquérir des compétences en programmation pour éventuellement réorienter une carrière, ou des développeurs souhaitant étoffer leur profil pour prendre plus de responsabilités.

Le certificat se compose de trois cours :

Bases de données documentaires et distribuées (NFE204)
Ingénierie de la fouille et de la visualisation de données (RCP216)
Entreposage et fouille de données (STA211)

Il y a également un projet, pour valider l’obtention du Certificat. Les cours sont ouverts pour les deux semestres, avec cependant des variations dans leurs modalités (“en présentiel” ou “à distance”). Le cours STA211 est un cours dispensés par des spécialistes des statistiques, pour donner les fondements théoriques du “Big Data”. J’interviens dans NFE204 et RCP216 dont je peux vous parler plus en détail.

NFE204, Bases de données documentaires et distribuées

Le premier cours porte sur les bases de données, donc les aspects stockage, indexation et recherche de documents. Mon collègue, Philippe Rigaux, a mis en ligne un polycopié complet de cours. On y parle de documents structurés (XML et JSON) et bases de documents structurés (BaseX, MongoDB, CouchDB, etc.). Je détaille l’indexation et recherche : extraction de descripteurs, moteurs de recherche, techniques de classement (PageRank). Enfin, on présente les systèmes NoSQL (Hadoop, HBase, traitements MapReduce, etc). Ce cours est dispensé dans les locaux du CNAM (“en présentiel”) à Paris (Métro Arts et Métiers), ou à distance via des vidéos (Formation à distance, FOD ou FOaD, selon la terminologie CNAM). Dans nos locaux, les auditeurs disposent d’environnements complets pour travailler et expérimenter. Une partie importante du cours consiste d’ailleurs à apprendre par la pratique (6 séances de 3 heures de travaux pratiques, sur MongoDB, Pig Latin, etc.)

RCP216, Ingénierie de la fouille et de la visualisation de données

Le cours de RCP216 se décompose en deux parties principales, la fouille et la visualisation de données, avec respectivement 10 et 5 semaines dévolues à chaque aspect (et des équipes d’enseignants différentes). Pour la fouille, le cours aborde les diverses approches des problèmes des data scientists : la réduction de complexité, distribution, passage à l’échelle. En particulier, on traite, en cours et en travaux pratiques, de recherche par similarité, classification automatique, fouille de données textuelles, fouille de flux de données, apprentissage statistique à large échelle, fouille de graphes et réseaux sociaux. Là aussi, une place importante est donnée à la pratique, avec 10 séances de 2 heures de travaux pratiques, sur Spark (en Scala). Le cours n’est pas encore dispensé à distance, mais seulement à Paris (les 2 semestres).

Portes ouvertes

Pour plus d’informations sur les formations du CNAM, il y a des portes ouvertes la semaine prochaine, vous pourrez y rencontrer les enseignants de ces différents cours.