Article
Snowflake Summit 2023
Rédigé par Radoslav Ilchev et Etienne Cizeau, Consultants BI Actinvision
Le Summit annuel de Snowflake (NYSE : SNOW) est en général une avalanche d’annonces. Cette année, c’est une véritable ère glaciaire qui s’est abattue sur le monde de la Data avec un grand nombre d’annonces toutes plus révolutionnaires les unes que les autres.
Faisons ensemble un petit tour de piste des différentes nouveautés !
Les partenariats stratégiques
Dès le premier jour du Summit, Snowflake a annoncé deux partenariats stratégiques concernant principalement l’Intelligence Artificielle (IA) et les modèles LLM (Large Language Models).
NVIDIA
Le premier de ces partenariats étant avec NVIDIA. Une annonce de partenariat amenée avec beaucoup d’enthousiasme par les deux CEOs, Frank Slootman (Snowflake) et Jensen Huang (NVIDIA), démontrant une volonté d’établir un projet commun.
NVIDIA, acteur incontournable dans la production de GPU (Graphics Processing Unit) mais aussi dans le domaine de l’accélération de calcul et de l’IA s’associe donc avec Snowflake pour se rapprocher au plus près des données de la plateforme Data.
Le partenariat devrait permettre aux entreprises d’accélérer le développement de leurs Large Langage Models (LLM) personnalisés, avec leurs propres données stockées sur Snowflake. Par ce partenariat, les deux firmes ont la volonté de « ramener le meilleur moteur de calcul du monde aux données les plus précieuses du monde » des propres mots de Jensen Huang.
Durant la présentation, Frank Slootman confirmait que l’intégration est déjà en cours et que la demande et les déploiements sont assez importants. Un certain nombre de démonstrations et cas d’usage ont également été dévoilés durant la présentation.
Enfin, le framework NVIDIA NeMo TM de la plateforme de NVIDIA permettra aux entreprises de rapidement développer, personnaliser et déployer des applications utilisant l’IA générative mais aussi de les maîtriser avec Guardrails .
Microsoft
Le second partenariat étant avec Microsoft. Encore une fois l’IA est à l’honneur avec un focus de collaboration autour des services Azure OpenAI Service mais aussi Azure ML . Microsoft et Snowflake envisagent une forte collaboration pour aider les clients à développer des applications de ML et IA générative.
Mais ça ne s’arrête pas là. Microsoft envisage de développer des intégrations fortes avec d’autres produits de son environnement comme Power Apps, Power Automate ou encore Azure Data Factory pour adresser les sujets ETL. Ce partenariat étendu inclut également l’outil de gouvernance Microsoft’s Purview pour aider les entreprises à construire une forte connaissance et gouvernance de leurs données. Les deux parties exprimaient fortement la volonté de collaborer dans des initiatives de « go to market » communnes et l’acquisition de nouveaux clients.
Une nouvelle ère ?
Snowflake a encore une fois confirmé ses capacités d’innovation et sa volonté d’être acteur majeur dans la transformation du monde Data de demain, en dépassant le statut de simple de Data Warehouse pour devenir un véritable hub de la donnée, destiné à des usages multiples. La possibilité pour les entreprises et les individus de devenir des créateurs de modèle d’IA et d’application fait rêver, les LLM et l’IA étant au cœur des présentations mais aussi d’applications très concrètes.
Document AI, à la suite d’une acquisition récente de applica.ai Snowflake, démontre par exemple une combinaison parfaite de LLM et traitement de documents non structurés. Il est désormais possible d’explorer les informations de données non-structurées comme des fichiers pdf tout en posant les questions en langage naturel. De plus les modèles sont optimisables et partageables en quelques clics. Les résultats sont également disponibles via requête SQL. Tout simplement bluffant !
Au sein même de l’interface de Snowflake, l’IA s’immisce, puisque l’aide à la génération de code SQL avec simple commentaire dans votre code depuis une worksheet, est aussi en cours de développement. De fait, développer des produits complexes devient de plus en plus accessible et permettra à terme de demander directement à l’IA, via vos données, de générer et d’automatiser des applications et autres produits Data.
Source : Snowflake Summit 2023
Snowflake Native Apps & Snowpark Container Services
Snowflake Native Apps
Snowflake Native Apps est également une révolution. La possibilité de bénéficier du Framework pour développer rapidement, d’avoir une extrême facilité de déploiement et d’avoir la Snowflake Marketplace comme plateforme de distribution est vraiment révolutionnaire dans le mode de distribution d’application Data.
Il est possible de combiner la Data et la connaissance métier qui s’y cache, avec des modèles d’IA avancés tout en implémentant une interface riche et soignée avec Streamlit. La possibilité de commercialiser une application aussi facilement, et en garantissant à la fois la propriété du client final sur les données, et la propriété intellectuelle de l’application, est un facilitateur hors pair de la collaboration. Plus de 25 applications sont déjà disponibles sur la Marketplace . Des acteurs comme Mapbox, Carto Capital One Software, y sont déjà présents mais sont seulement disponibles sur AWS US pour le moment.
Snowpark Container Services
Avec Container Services Snowflake a fait encore un bond en avant dans ce qui est possible de faire avec l’IA et Snowpark. Il est possible par exemple d’exécuter des modèles d’IA très sophistiqués et bénéficier de la performance des GPUs (Graphics Processing Unit) mais aussi de déployer des jobs, des services ou des fonctions pour répondre à des usages particuliers. Ceci ouvre la voie pour bénéficier de pratiquement tous les langages de programmation ou des technologies propriétaires et ouvrir d’avantage le champs des possibles.
Voici quelques partenaires qui sont déjà en collaboration avec Snowflake sur ce sujet : Alteryx , Amplitude , CARTO , et RelationnelAI. Lors des Keynotes nous avons pu apercevoir 10 use cases déjà fonctionnels.
Source : Snowflake Summit 2023
Vous pouvez souscrire pour la preview ici .
Un superbe blog présente également Snowpark Container Services.
Développement du produit
Avec toutes ces annonces, les évolutions sur les produits core n’ont pas été laissées de côté. Comme à son habitude Allison Lee (Senior Director of Engineering and Founding Engineer Snowflake) nous a encore démontré l’ambition de Snowflake de rendre le produit encore plus performant et d’optimiser le rendement pour ses clients. Elle a introduit le Snowflake Performance Index (SPI) monitoré en interne et a démontré des gains de performance atteignant 15% certains usages stables.
La gestion des données géospatiales ; couverture encore plus forte des types de données utilisées pour l’analyse de données géospatiale et la possibilité de changer de repère facilement
ML en SQL ; il est désormais possible de faire des prédictions sur des séries temporelles directement en SQL
Dynamic Table, cette fonctionnalité était longuement attendue par nos clients. La façon la plus simple de déclarer un pipeline de transformation complétement géré par Snowflake de manière extrêmement simple
Intégration de Git
Python API
Logging
Group BY ALL
Source : Snowflake Summit 2023
Snowpark
Snowpark, le framework de développement multi langage (Python, Java, Scala) pour Snowflake, n’est pas en reste puisque de nombreuses annonces ont également été faites à son sujet !
Concernant le framework en lui-même, le support de Python version 3.9 et 3.10 a été annoncé, permettant de profiter des dernières améliorations et optimisations du langage. De nombreuses bibliothèques très utiles ont également rejoint l’environnement Anaconda disponible au sein de Snowflake. Parmi celles-ci, mentionnons Spacy et scikit-optimize, très utilisées par les data scientists pour la confection d’algorithmes de machine learning. La possibilité d’ouvrir des ports et de requêter le web depuis Snowflake permettra quant à elle d’imaginer l’utilisation de services et d’API d’externes directement depuis l’environnement Snowflake.
Enfin, il sera désormais possible de manipuler des données non-structurées (image, son, vidéo) directement en Python via Snowpark. Cette fonctionnalité sera forte utile pour les projets basés sur l’OCR. De nombreuses possibilités ont été ajoutées pour créer des fonctions SQL depuis du code Python. Parmi celles-ci, notons les UDAF, permettant de retourner un résultat issu de l’agrégation de plusieurs lignes, les Vectorized UDTF, qui réalisent des traitements parallélisés pour fournir des résultats depuis une table ou encore les Python Table Stored Procedure, qui retournent un résultat sous forme de table Python.
Confirmant sa volonté d’être une plateforme moderne de développement d’application Data, Snowflake renforce ses possibilités en termes de CI/CD, de devops et d’aide au développement. Une intégration GIT dans Snowflake est prévue pour favoriser le travail collaboratif, quand la conteneurisation d’application dans des environnements Kubernetes est mise en place pour créer des cadres de développement propres, sécurisés et maintenables par des équipes de développeurs. Ces conteneurs permettront par ailleurs de bénéficier des GPUs de Nvidia, le nouveau partenaire clé de Snowflake, pour l’entrainement de modèles de Deep Learning.
Snowflake inclura également une API Python pour gérer les tasks, à la manière de l’outil Apache Airflow, en mettant en place des cycles de type « DAGs » (Directed Acyclic Graph) pour ordonnancer ces tâches. Il sera possible de mettre en place un environnement miroir Snowpark en local pour réaliser différents tests, comme des tests unitaires ou de non-régression, et ainsi décupler les possibilités en termes de CI/CD.
Enfin, une nouvelle interface en ligne de commande, supplantant la classique SnowQL, sera mise en place pour avoir un plus grand contrôle (gestion des tâches, des procédures, des tables, du code Snowpark, etc…) sur un compte Snowflake, le tout en ligne de commande.
Source : Snowflake Summit 2023
ML.modeling et ML.preprocessing
S’incrivant dans cette dynamique de devenir un acteur majeur de l’IA et de la Data, Snowflake proposera dans un future proche une API de modélisation ML permettant de créer facilement des modèles de Machine Learning sur la plateforme, sans rentrer dans le détail du code mais en conservant tout de même une certaine agilité.
Elle se déploie en deux parties :
Le preprocessing : améliore la performance des étapes de préparation et de nettoyage de la donnée avec une grande scalabilité grâce à un traitement multi-nœud. Plusieurs fonctions usuelles de préparation (comme le one hot encoding) seront disponibles.
La modélisation : permet d’entrainer des modèles de Machine Learning classiques, se basant sur les algorithmes des bibliothèques de référence comme Scikit Learn, Keras ou Tensor Flow.
Avec cette API, Snowflake espère attirer des entreprises désirant déployer facilement et à moindre coût des algorithmes avancés utilisant l’IA.
L’avis de nos experts
@Radoslav, Tech Leader Snowflake et Consultant BI Actinvision
De toutes ces annonces j’ai retenu un point en particulier. La Data devient la pièce centrale. Les GPU se rapprochent de la Data, l’IA se développe avec la Data et sur la Data, les applications sont hébergées et distribuées autour de la Data, la collaboration s’établie autour de la Data. Le hardware ou le software deviennent des outils mais l’énergie et la valeur viennent de la Data.
Hâte de discuter avec vous comment ces annonces sont applicables à vos usages Snowflake.
@Etienne, Consultant BI Actinvision et expert Snowflake
Snowflake semble vouloir s’imposer comme la plateforme de référence de traitement de la donnée, et il est intéressant d’imaginer des flux complets, de l’ingestion à la visualisation, en passant par le ML, directement dans Snowflake. Les nouvelles possibilités offertes par ces annonces sont nombreuses et toutes aussi passionnantes les unes que les autres.
Nous sommes bien évidemment ouverts pour en discuter avec vous et pourquoi pas avancer ensemble dans la création de projets innovants sur Snowflake.
Vous souhaitez être accompagnés dans votre projet Snowflake ? Contactez-nous !
Pour visionner les Keynotes de Snowflake Summit 2023, consultez le stream via ce lien .