Big Data 2020 – Indata we trust
Partie 1 – Un nouvel espoir
Introduction Salon Big Data
Partie 2 – Data marketing show
ManoMano / Sarenza / Carrefour
Partie 3 – In data we trust
Banque de France / Monoprix / Orange
La deuxième journée au salon du big data a eu pour fil conducteur le « et demain ? ». En effet, tous les sujets abordés se rassemblent autour d’une même thématique qui est le futur de la donnée.
L’une des interventions qui m’a le plus marqué au cours de cette deuxième matinée, est celle d’Aurélie JEAN, Docteur en sciences et entrepreneur qui portait sur l’envie de reconstruire la confiance face au Big Data et l’IA.
En effet, elle a posé le décor avec une explication très simple de la notion du Big Data qui me semble assez pertinente et surtout facile à comprendre. Elle définit ce terme en le décomposant, d’une part Data qui est une notion d’information structurée ou non et d’une autre BIG qui est relative au secteur.
Très rapidement elle est entrée dans le vif du sujet en évoquant l’origine de la perte de confiance en s’appuyant sur des exemples concrets, tels que l’affaire Cambridge Analytica – évoquée la veille avec Christopher Wylie – ainsi qu’une multitude de cas où la donnée a fuité, mais aussi les scandales liés aux grandes entreprises telle que Apple avec les applications Health[1] et AppleCard[2] .
Cette perte de confiance s’est finalement traduite par des réactions démesurées, avec notamment des têtes d’articles qui ont démontrés que les gens se sont retrouvés à « déplacer le centre des responsabilités »[3] pour cause l’incompréhension de l’origine de l’élément.
- « Comment les machines apprennent à devenir racistes » – SlateFR
- « Lutte contre le coronavirus : la désillusion de l’intelligence artificielle » – L’Express
- « When Algorithms Are Sexist » – Motherboard
Dans un sens, reconstruire la confiance est donc devenue un besoin nécessaire pour non seulement mener à bien la partie du plan de relance qui touche le numérique – évoqué la veille par Olivier C – mais surtout voir la data comme un levier et non pas comme un outil, donc comprendre son utilité.
Mettre en œuvre des moyens au niveau de l’éducation pour développer l’esprit critique très tôt mais aussi au niveau individuel, de l’entreprise et de l’Etat en travaillant en transparence et en pédagogie sont des premières pistes pour remédier à cette réaction.
Cette notion de transparence est aussi citée lors de la table ronde avec Bernard OURGHANLIAN, Directeur technique et sécurité chez MICROSOFT et Pierre COURVOISIER, VP Data chez QONTO qui insistent sur le fait que la confiance doit s’appuyer sur un maximum de transparence et que s’il n’y a « pas de confiance dans la donnée les analyses seront réalisées uniquement pour rassurer les intuitions »[4] donc pas de réel impact au niveau de l’entreprise.
Pour aller plus loin :
Données personnelles : reconstruire la confiance
Encore une fois les retours d’expériences, que ce soit avec la Banque de France, Monoprix ou encore Orange, se retrouvent autour de problématiques communes de valorisation des données, de mobilisation des équipes mais aussi plus généralement de mise à disposition de la donnée au service des métiers. Les mots clés qui définissent au mieux ces retours d’expériences sont Performance et Gouvernance.
Chez Monoprix plusieurs contraintes se sont imposées avant de pouvoir en faire un commerce de proximité Data-Driven. En effet, le service fournit se doit d’être performant, d’être au service des métiers, de permettre de baisser les coûts et surtout de créer une plateforme unique de données pour répondre à tous les enjeux business.
La solution face à tous ces éléments était donc le passage vers le cloud avec la solution Snowflake et se sont aperçu d’une performance nettement supérieure à l’ancienne infrastructure. Pour continuer sur cette lancée, une équipe a donc été constituée autour d’un responsable du domaine applicatif accompagné par un intégrateur.
Damien PICHOT, Directeur des Opérations et des Flux Marchandises chez MONOPRIX, a expliqué que les éléments qui ont suscité le plus de difficulté dans cette migration étaient l’automatisation des traitements et l’héritage du Service Informatique qui a entrainé des problèmes de connecteurs et donc une prolongation de la durée initialement établie (15 mois au lieu de 12).
Cette migration Snowflake a permis d’une part d’obtenir des requêtes plus rapides, des traitements disponibles en temps voulu et la possibilité d’effectuer des analyses plus profondes (sur 5 ans) et d’une autre part de facilité les interactions entre les différents utilisateurs grâce au DataSharing.
De la même manière, la volumétrie de données traités par Orange – cinq millions de données par jour via le code du site web/mobile – a fait naitre le souhait de passer d’un « mode réactif à un mode proactif »[5] avec une solution technique en mode Google Cloud Platform.
Le réel enjeu était de pouvoir trouver une solution permettant de réduire l’évolution des anomalies qui impactent le business avec la non-qualité de la donnée.
En utilisant plusieurs modules tels que Snapshot Builder pour extraire quotidiennement la donnée et alimenter l’outil, ou encore les Référentiels pour détecter les anomalies dans les flux de données mais aussi, l’intelligence artificielle et les tableaux de bords pour présenter l’évolution des indicateurs et anomalies à l’équipe DataQuality Aleksander DABROWSKI, Senior Manager chez QUANTMETRY et Simon TEXIER, Product Owner Data chez Orange démontrent que l’usage quotidien de la solution a facilité les processus de détection des anomalies, a permis un gain de temps considérable et une automatisation des taches mais toujours un besoin référentiel humain.
Outre la performance, la gouvernance des données au sein des entreprises est aussi devenue un sujet primordial. Le cas présenté par Marc FASQUELLE, Deputy Director for Digital transformation a permit d’illustrer les étapes qui ont mené la Banque de France vers cette transformation culturelle de la donnée – de la réflexion à la gouvernance au plus haut niveau des projets stratégiques en passant par la création d’un DataLake, ou encore la rénovation des outils analytique et l’utilisation des outils de pointes d’anonymisation des données, mais aussi la constitution de communautés de pratique et d’équipes de pointes.
Un élément à retenir de ce passage est l’idée qu’une gouvernance mobilisant des équipes importantes tout en donnant une autonomie aux équipent compétentes mène systématiquement à des résultats concluants. Aussi cette gouvernance de la donnée ne doit pas se limiter à mettre en place l’outil mais « mettre en place l’architecture du patrimoine de données »[6] .
Sur le même sujet :
Quatre conseils pour instaurer une gouvernance de la donnée
Tous ces cas d’usages montrent que les outils de Big Data sont bel et bien au service des métiers et plus généralement de l’humain.
D’un point de vue général, les conférences ont permis aux différents acteurs de faire le point post confinement mais aussi de montrer la digitalisation quasi-totales des entreprises.
En participant à des évènements tel que le Salon du Big Data on se rend compte qu’aujourd’hui les entreprises sont de plus en plus matures d’un point de vue technologique, ce qui pousse la recherche et le développement à se focaliser de manière plus intense sur l’optimisation et l’efficience des processus tout en donnant une grande importance aux concepts de confiance et de sécurité devenus des points clés de réussite dans le domaine du Big Data.
Malgré une édition 2020 difficile à maintenir, compte tenue de la situation sanitaire, pour moi, le pari est relevé du moins sur la partie conférences. Ce qui est non négligeable, c’est que le salon du Big Data est le premier à se tenir malgré les conditions attristantes liées au Covid-19. Les organisateurs ont tout de même réussi à rassembler et surtout faire interagir des grands acteurs de la data que ce soit en présentiel ou à distance.
[1] Health ne permettait pas aux femmes d’enregistrer leurs menstruations
[2] AppleCard n’octroyait pas la même ligne de crédit selon le genre de l’utilisateur
[3] Aurélie JEAN – Big Data & IA : reconstruire la confiance
[4] Pierre COURVOISIER – Enjeux et cas d’usages Big Data au sein des PME/ETI
[5] Simon TEXIER : Comment Orange améliore la qualité de ses données clients web en temps réel
[6] Marc FASQUELLE – Quelle gouvernance des données pour valoriser le patrimoine Data et mobiliser les équipes
A propos de l’auteur
Manel Abdi / Consultante Actinvision