Article
Snowflake Snowday 2022
Rédigé par Etienne Cizeau et Rudy Krauffel – Consultants BI Actinvision
Ça y est ! C’est bientôt l’hiver, les nuits s’allongent, le mercure redescend… Mais c’est également le temps des flocons puisque Snowflake en a profité pour organiser ce 7 novembre son événement annuel de fin d’année, le Snowflake Snowday 2022.
Au programme, un certain nombre de nouveautés concernant les technologies phares de Snowflake : Snowpark pour Python, Unistore et Snowpipe. C’est parti pour un petit tour des différentes annonces de l’événement !
Snowpark for Python en GA
Le framework de Snowflake, auquel nous avons déjà consacré un article , est désormais disponible en GA. Il s’est vu offrir un certain nombre d’ajouts utiles à tous les data scientistes désireux de déployer leurs projets sur le cloud de l’entreprise. Parmi ceux-ci, on notera principalement l’ajout d’un nouveau type de virtual warehouse, les Snowpark Optimized Warehouse. Ces warehouses permettront de déployer des projets de data science plus ambitieux et d’entrainer des modèles inférentiels bien plus complexes, puisqu’elles disposent de 16 fois plus de mémoire vive, et de 10 fois plus de cache qu’un warehouse standard en taille XS. La tarification est majorée de 50% par rapport aux warehouses de type standard.
Les différentes tailles de Snowpark-Optimized Warehouses (source : Snowflake Snowday 2022)
Enfin, Snowflake confirme sa volonté de proposer un maximum d’outils aux data scientistes en assurant l’ajout de nouvelles bibliothèques Python comme le modèle Prophet, et la mise à jour de bibliothèques déjà disponibles. Le référentiel des bibliothèques est disponible ici .
Unistore
Avec l’annonce de Unistore, Snowflake consolide sa volonté de favoriser le développement d’application entièrement au sein de Snowflake. Pour ce faire, un nouveau type de table, les Tables hybrides. Annoncé en début 2022, Unistore donne naissance à une architecture unique en combinant un stockage en colonne et un stockage en ligne pour répondre aux deux usages analytics et transactionnel, et ceci de manière complètement transparente pour l’utilisateur. Le moteur d’optimisation des requêtes de Snowflake se charge alors de choisir le meilleur format selon le besoin de la requête.
Les applications dans le cloud Snowflake
Le rachat en début d’année de Streamlit offre également la possibilité aux équipes utilisant Snowflake de créer de puissantes applications en quelques lignes de Python sans avoir à manipuler des langages web complexes comme HTML, CSS ou JavaScript. L’accès à Streamlit reste toutefois en phase de test privée.
Snowpipe Streaming
Le besoin croissant pour l’analyse rapide de données fraiches trouve déjà dans Snowflake une solution technique grâce aux Snowpipes. Cet outil permet l’automatisation de l’ingestion de fichier depuis le cloud directement dans Snowflake dans des délais courts : on parle ici d’un temps de l’ordre de 30 secondes.
Lors de l’utilisation d’une plateforme de streaming de données telle que Kafka, on utilisait typiquement jusqu’à maintenant un connecteur “Sink”, qui s’appuyait sur un snowpipe: une fois le buffer ou le délai de flush atteint, les messages sont placés dans un stage, puis un snowpipe les détecte et les intègre. Là aussi, on observe un délai d’intégration qui va parfois jusqu’à la minute.
Snowflake présente désormais une nouvelle façon de faire du streaming sur sa plateforme.
Le snowpipe de streaming est un composant, ou plutôt une interface, permettant une réactivité quasi-instantanée entre l’arrivée des messages sur Kafka ou un autre message broker, et leur intégration dans Snowflake. L’intégration se fait directement via https sans passer par un pipe classique, et supporte des débits atteignant plusieurs Go/s, tout en contrôlant les coûts même dans les scénarios les plus extrêmes. La configuration se résume à un JSON côté Kafka.
Cette nouvelle capacité de Snowflake va sûrement faire beaucoup d’heureux et permettre de nouvelles utilisations de la plateforme.
Tables dynamiques
Autre nouveauté au tableau et pas des moindres, les tables dynamiques font leur apparition. Conceptuellement proches des vues matérialisées, elles permettent toutefois d’être explicite sur la période de rafraichissement souhaitée grâce un paramètre “lag”. Requêter les données d’une table dynamique garantit une fraicheur dans la limite de ce “lag”, qu’il soit d’une heure, ou d’une minute.
La mise à jour de ces tables est purement incrémentale: seules les données qui ont changé sont rafraichies. Cela permet des économies de temps et de ressource.
La maintenance d’une table dynamique est intégralement gérée par Snowflake après sa définition, et son coût sera lié à l’utilisation du virtual warehouse spécifié à sa création.
Autres nouveautés
Snowflake a aussi lors de ce Snowday présenté leur nouveau Task Graph Viewer, un outil de visualisation des tâches et de leur hiérarchie entre elles, dans Snowsight. Ce graphique permet en un coup d’œil de comprendre les dépendances et conditions d’exécutions de pipelines de tâches complexes.
Source : Snowflake Snowday 2022
Au rang des nouveautés, on retrouve aussi la Schema Inference. Pour les données en perpetuelle évolution, cette fonctionnalité de détection de schéma permet aux tables de s’adapter aux données et non l’inverse. La détection du schéma est déjà disponible (GA) pour les données en PARQUET, ORC et AVRO. La détection du JSON et du CSV sont pour l’instant en PrPr, de même que l’évolution automatique des colonnes.
Source : Snowflake Snowday 2022
Avec toutes ces annonces, Snowflake prouve sa volonté de développer un véritable Data Cloud unifiant tous les usages et tous les métiers de la donnée.
Le prochain grand rendez-vous de Snowflake sera le Snowflake Summit 2023. Nous vous donnons donc rendez-vous en juin 2023 pour en savoir plus sur les prochaines innovations du Data Cloud.