Parfaire ses connaissances sur l’Univers de la data
Le confinement a changé nombre de nos habitudes. De la mise en place express du télétravail à l’approximation des règles de dé-confinement, vous vous dîtes qu’il pourrait être intéressant pour vous de développer votre savoir-faire, d’aiguiser vos connaissances voire d’ajouter de nouvelles cordes à votre arc.
Depuis plusieurs semaines déjà, les médias n’ont de cesse d’attirer votre attention à coup de cartes et de graphiques relatifs à la pandémie. De nature curieuse, vous décidez d’en apprendre davantage sur le monde des données informatiques : comment celles-ci sont stockées, transformées puis analysées pour répondre à une question précise. Aussi, vous convenez d’embarquer sur un vol pour la planète Data.
Vos recherches sur le sujet, qui s’annonçaient de prime abord longues et fastidieuses, vous mènent finalement à cet article publié sur le blog d’Actinvision.
Que vous soyez expert ou débutant, cet article a pour ambition de rassembler en un même lieu des liens utiles sur trois grandes thématiques propres à la Data :
Le stockage des données
qu’est-ce que le stockage Cloud ?
La préparation des données
comment rendre exploitable mes données ?
L’analyse des données
comment visualiser mes données ?
Dans la mesure du possible, nous vous proposerons des liens pour vous informer, vous former, vous challenger et, si possible, vous certifier.
Mesdames, Messieurs, embarquement immédiat pour la planète Data.
Partie 1
Stockage des données
D’après la définition de la Hewlett Packard Company, « le stockage de données est la conservation d’informations à l’aide d’une technologie spécialement conçue pour conserver ces données et les rendre disponibles à la demande ».
Depuis les années 1890, existant alors sous forme de cartes perforées, les systèmes de stockage ont fortement évolué, passant des disquettes des années 1980 aux disques durs mécaniques à disques rotatifs, puis aux Compact Disc (CD) pour finalement aboutir aux systèmes de stockage à mémoire flash tels que les disques durs SSD et les clés USB désormais largement généralisés.
Aujourd’hui, le stockage s’invite également dans ce que l’on nomme « le Cloud », c’est-à-dire d’énormes entrepôts de disques durs bien physiques, situés à l’autre bout du monde et accessible via une connexion internet. Autrement dit, vous n’accédez plus à vos fichiers et bases de données depuis votre propre disque dur ni à partir de matériel directement relié à votre ordinateur mais à travers une interface connectée au web.
Les principaux fournisseurs de stockage dans le cloud sont actuellement Amazon, Microsoft et Google.
Pour en savoir plus à propos du stockage des données et du cloud, Actinvision vous suggère un article des plus complet mis en ligne par le média numérique futura-sciences : le stockage des données informatiques .
Par ailleurs, les grands fournisseurs précédemment cités proposent divers services de découverte et d’apprentissage de leurs plateformes :
- Amazon Web Services (AWS), plateforme Cloud du géant Amazon, met à disposition un didacticiel de mise en route ainsi qu’une formation et une certification. Ces services sont disponibles au lien suivant :
AWS – Formations et Certifications - De la même manière, Microsoft propose un parcours d’apprentissage ainsi qu’une certification pour sa plateforme cloud, Azure, accessible ici :
Microsoft Azure – Formations et Certifications - Enfin, Google Cloud, suivant le même principe que ses prédécesseurs, propose guides de démarrage rapide, formations et certifications à l’adresse suivante :
Google Cloud – Formations et Certifications
Partie 2
La préparation de données
Parce que toute visualisation réussie s’appuie sur une base de données savamment orchestrée, la préparation des données en vue de leur intégration est l’étape la plus essentielle du processus pour une analyse à forte valeur ajoutée.
Il s’agit d’outils permettant d’effectuer des tâches habituellement fastidieuses et répétitives de manière simplifiée en offrant une ergonomie agréable menant à un réel confort d’utilisation.
Globalement, ces outils permettent de réaliser efficacement des opérations d’import, d’analyses primaires, de sélection, de nettoyage, d’enrichissement, de transformation, de regroupement et de publication.
Parmi ces outils se trouvent notamment Matillion, Tableau Prep ou encore Alteryx.
Pour en savoir plus sur cette étape de préparation des données et pour comprendre en quoi elle est essentielle, nous vous proposons cet article de l’éditeur Tableau Software qui détail notamment quatre problèmes courants de la préparation des données et leurs solutions : les défis de la préparation de données .
- Pour vos premiers pas, une formation, ou une certification sur le logiciel Alteryx, la Alteryx Academy dispose des ressources qu’il vous faut (en anglais) :
Alteryx Academy . - Le site de l’éditeur propose également des défis hebdomadaires pour ceux qui souhaitent pratiquer ou exercer leurs talents :
Alteryx weekly challenge . - Pour une découverte de leur outil de « data prep », l’équipe Tableau a mis au point un tutoriel d’apprentissage disponible à l’adresse ci-dessous. Il est nécessaire de télécharger le logiciel sur votre ordinateur pour suivre ce tutoriel. Il est par ailleurs possible de bénéficier d’un essai gratuit pendant deux semaines.
Prise en main de Tableau Prep . - Pour vous challenger sur cet outil, vous trouverez chaque semaine de petits défis avec leurs solutions à l’adresse suivante :
Preppindata .
Alors que les deux logiciels précédemment cités appartiennent à la famille des outils de « data wrangling », Matillion est, pour sa part, un ETL (Extract Transform Load). La principale différence réside dans les utilisateurs auxquels ces solutions s’adressent. Si les outils de « data wrangling », par leur ergonomie et simplicité d’utilisation, s’adressent à des utilisateurs métiers, les ETL s’adressent d’abord à des experts.
Trifacta, leader dans la préparation des données en 2018, nous explique plus en détail ce qu’est le « data wrangling » :
Qu’est-ce que le data wrangling ?
Partie 3
L’analyse des données
Bien que la préparation des données soit fondamentale et occupe 70% du temps d’un Data Analyst, celle-ci s’avère vide de sens dès lors que l’on ne sait maîtriser la mise en valeur des informations à l’aide de visualisations adaptées.
C’est là qu’intervient la « Data Visualisation », technique qui consiste à communiquer des chiffres ou des informations en les transformant en représentations visuelles parce que, c’est bien connu, « une image vaut mille mots ».
Un objet visuel est en effet le meilleur moyen d’assimiler rapidement une grande quantité d’informations, encore faut-il maîtriser cet art.
Pour vous y aider, voici une sélection d’articles sur le sujet.
- Pour vous guider dans le choix d’un graphique adapté à votre besoin, l’éditeur ToucanToco a dressé une liste des différentes visualisations et de leur utilisation :
Comment choisir le bon graphique pour ses données . - Parce que les couleurs sont intrinsèquement liées au message que vous souhaitez faire passer, il est important de ne pas les négliger. Certaines couleurs sont communément associées à des groupes, des catégories ou des zones géographiques. Par exemple, il est d’usage d’utiliser un vert pour signifier une croissance, et un rouge pour signifier une décroissance.
Pour faciliter le choix de couleurs harmonieuses, il existe des générateurs tels que celui-ci :
Coolors.co .
Enfin, le marché étant en pleine expansion, il existe aujourd’hui nombre de solutions de « dataviz ». Parmi les leaders du domaine, on peut notamment citer Tableau, Power BI et Google Data Studio, chacun pourvu de nombreuses aides et tutoriels en ligne.
Si Tableau Desktop et Power BI propose tous deux une période d’essai gratuite de deux semaines donnant accès à l’ensemble de leurs fonctionnalités, Google Data Studio est, pour sa part, entièrement gratuit pour peu de disposer d’une adresse gmail.
- Pour une découverte et un rapide tutoriel de Data Studio, retrouvez l’article suivant publié sur le blog d’Actinvision :
Tout savoir sur Data Studio . - Pour une formation en ligne sur Power BI, rendez-vous sur le site de l’éditeur :
Formation guidée sur Microsoft Power BI . - Pour découvrir les fonctionnalités de Tableau Desktop, rendez-vous ici :
Prise en main de Tableau Desktop .
Fort d’une communauté particulièrement importante et active, de nombreuses ressources sont accessibles sur la toile pour Tableau Software.
Par exemple, le blog des frères Flerlage (en anglais) foisonne d’astuces et de visualisations démontrant les capacités du logiciel :
Flerlagetwins.com
Partie 4
Pour aller plus loin
Que ce soit sur l’évolution du prix des avocats ou pour tenter de répondre à l’épineuse question de savoir si l’ananas est une garniture acceptable sur une pizza, vous trouverez à l’adresse suivante des jeux de données en accès public. Il ne tient plus qu’à vous de repérer un sujet qui éveil votre intérêt et de vous lancer !
Makeovermonday
.
Vous êtes déjà un esthète de la « dataviz » et vous souhaitez vous challenger ? Workout-wednesday vous met au défi chaque semaine :
Workout-Wednesday.com
.
Vous souhaitez explorer et découvrir les créations de passionnées de la Data et trouver l’inspiration ? La galerie Tableau Public vous attend !
Galerie Tableau Public
.
Enfin, si vous souhaitez apprendre, vous entraîner, vous défier sur un sujet d’actualité, les données des urgences hospitalières et de SOS médecins relatives à l’épidémie de COVID-19 sont disponible sur le site du gouvernement :
Data.gouv.fr
.
Vous aussi, laissez libre court à votre imagination et créez enfin vos propres visualisations !
A propos de l’auteur
Cyril Krieguer / Analytics Consultant Actinvision