Article
Snowflake annonce
ses dernières innovations
Du 13 au 16 juin, Snowflake organisait à Las Vegas l’édition 2022 de sa conférence annuelle : Snowflake Summit. Cet événement est l’occasion, pour le leader du Data Cloud, d’annoncer ses dernières innovations.
Snowflake poursuit son engagement à l’égard de l’amélioration continue en développant sept piliers d‘innovation :
All data (i.e. tous les types : structures, semi-structurés, non structurés, tout origine, toutes les données)
All workloads (i.e. tous les types de traitement number, élimine la concurrence)
Global (i.e. 30 cloud regions, global network, account replication)
Self-managed (i.e. SaaS, optimisations de performance automatisées et self-managées)
Programmable (i.e. Java, Scala, Python, API, Streamlit)
Marketplace (i.e. data sharing)
Governance (i.e. Metadata, tags, resource groups, masking policy)
Voici quelques-unes de ces innovations :
Unistore
Unistore était la surprise du keynote. Unistore est un nouveau workload, qui a pour but d’unifier les données transactionnelles et analytiques dans le cloud. Désormais, il sera donc possible d’exploiter ces deux types de données sur une seule et même plateforme, tout en garantissant la sécurité et la gouvernance des données. Cette innovation, actuellement en aperçu privé, nous amène notamment les tables hybrides.
©Snowflake
Ce nouveau type de tables est conçu pour prendre en charge les performances nécessaires au développement des applications transactionnelles, telles que les opérations rapides sur une seule ligne, les contraintes référentielles renforcées et l’unicité. Ce genre d’applications pourra être développé directement sur Snowflake.
De plus, Unistore donne la possibilité de faire une analyse directement sur les données transactionnelles, et sur les données historiques grâce aux tables hybrides sans aucune recopie.
Framework pour applications natives
Une autre nouveauté est « Native Application Framework », qui permet aux entreprises de créer, monétiser et déployer des applications en mode natif dans le cloud. Le framework est davantage destiné aux développeurs, ce qui leur donne la possibilité de monétiser leurs applications directement sur la Marketplace de Snowflake. Cette fonctionnalité est disponible seulement en aperçu privé pour le moment.
L’annonce du récent rachat de la compagnie Streamlit par Snowflake est également une très bonne nouvelle. Son intégration native dans Snowflake permet dès aujourd’hui la création d’application facilement utilisable par un tiers et partageable via la Marketplace. Streamlit, permet aussi la mise en production et l’utilisation de modèles de machine learning avec des interfaces graphiques via les applications Streamlit, pour le plus grand bonheur de la communauté Data Science de Snowflake.
Snowpark for Python
Une autre grande annonce de cette conférence est la sortie publique de « Snowpark for Python ».
L’enjeu est de rendre accessible tout l’environnement de Python dans le cloud de Snowflake, de la même manière que sont actuellement disponibles les langages Scala et Java. Ceci, afin de faciliter le travail des développeurs et des data scientists, utilisant l’écosystème de module permettant de préparer et d’entraîner des modèles de machine learning (Pandas, Scikit-Learn, Keras …), tout en profitant de l’élasticité et de la robustesse du Cloud de Snowflake.
Dans cette même optique, pour faciliter les tâches d’apprentissage de ce type de modèle, Snowflake a également introduit un nouveau type d’instance, disposant de plus de mémoire vive.
Après une phase d’aperçu privé depuis plusieurs mois, Snowpark for Python est désormais disponible en accès public.
Global Platform
Un grand effort a également été fait sur la partie Global Platform avec l’arrivée sous quelques semaines de la réplication au niveau du compte Snowflake « Account replicaton ». Cette réplication inclue également les rôles, les utilisateurs, les politiques. Cette nouveauté couplée avec la redirection des connexions clients rendrait les scenarios de fail-over extrêmement simple et rapide. Ce n’est pas tout, une réplication des pipes, sans perte de données ni de duplication, est également en cours de développement. Bien évidemment, le tout avec la possibilité de réaliser une réplication « cross region » et « cross cloud providers ».
Gouvernance
Une attention toute particulière a été portée à la sécurité ainsi qu’à la gouvernance des données, cruciale pour un grand nombre d’entreprises. Les fonctionnalités de “Tagging”, ainsi que de “Masking”, ont été améliorées pour rendre possible un masquage basé sur le tagging, permettant de facilement cacher les données sensibles. Une nouvelle interface utilisateur a également été annoncée afin de mieux gérer la gouvernance des données. A ceci s’ajoute également l’ajout de groupe de ressources pour mieux gérer le suivi de la consommation et les budgets de l’entreprise.
Innovation constante et plateforme unique
Alison Lee, Founding Engineer chez Snowflake, expliquait que la technologie Snowflake s’appuie sur un moteur unique. Cette unicité et cohérence permet à Snowflake de réaliser continuellement des évolutions et de les déployer facilement pour faire bénéficier tous leurs clients.
Les améliorations déjà réalisées sur les 12 derniers mois :
Une amélioration de 30% sur la compression des données
Une amélioration de 50% pour la latence d’ingestion
Une amélioration de 55% pour la latence de réplication
Les améliorations à venir :
Améliorations de performance : 10% plus rapide sur AWS, jusqu’à 40% de réduction du temps de traitement sur les très grosses charges de travail
De nouveaux types d’instances : les instances 5 et 6 XL proposent plus de ressources pour les entreprises les nécessitant, mais celles-ci sont seulement disponibles sur AWS pour le moment, et encours de développement sur Azure
« Search optimisation service » a reçu un énorme coup de boost : Pise en charge de nouveaux types de données : la gestion des données géospatiales a été retravaillée et fortement améliorée, les recherches sur les cartes sont désormais 5 fois plus rapides
Et plus encore
Snowflake a également annoncé d’autres innovations, toutes disponibles en aperçu privé :
Snowpipe Streaming: une fonctionnalité d’ingestion sans serveur de données streaming, permettant des requêtes jusqu’à 10 fois plus rapides.
Materialized table: un nouveau type de table entre les “Materialized views” et les Streams/Tasks.
Iceberg Tables: conçu pour pouvoir travailler avec Apache Iceberg, un format de table ouvert pour de larges jeux de données, qui facilite les traitements analytiques. La prise en charge de ce format de façon native par Snowflake permet d’éviter de longues phases de pré-traitement de ces tables Apache, dont l’utilisation est de plus en plus courante.