Artisan de la démocratisation du Machine Learning. Grâce à la programmabilité et à une marketplace, Snowflake entend simplifier la conception et consommation de Data Products. Entretien avec Benoît Dageville, cofondateur et président produits.
Alliancy. Quel regard portez-vous sur l’évolution des sujets Data dans les entreprises ?
Benoît Dageville. En me calquant sur les grandes évolutions de Snowflake, j’identifie trois phases principales. La première, c’était en 2014. Il s’agissait alors de repenser le big data et Hadoop dans le cloud, mais aussi d’inclure les datawarehouses. Nous répondions alors à un besoin majeur des entreprises confrontées à une explosion des volumes de données, du fait notamment du développement de l’IoT et des interactions en ligne. Et Hadoop ne permettait pas de répondre à ces attentes. Il ne faisait que le big data, et il le faisait mal par ailleurs.
A lire aussi : Amadeus fait rimer Data Mesh et migration cloud
La deuxième phase, qui correspondait à une énorme demande, c’était la collaboration, en 2016. La finalité était de pouvoir réaliser avec les données ce qu’on faisait avec les documents. Je l’ai souvent dit. Ce qui était génial avec Google Docs, ce n’était pas l’édition. Non, c’était la possibilité de collaborer et d’éditer des documents à plusieurs, instantanément.
Pour les données, un tel système est magique et encore plus utile pour des questions notamment de gouvernance et de sécurité. La révolution de la collaboration, c’était aussi la révolution du cloud avec Snowflake comme cloud distribué. Nous étions alors sur AWS et Azure. GCP a été ajouté peu après.
Que signifie concrètement la collaboration appliquée à la Data ?
Benoît Dageville. C’est connecter les données. Et pour cela, il est impératif de les connecter avec les utilisateurs, présents sur d’autres systèmes, d’autres cloud et dans d’autres régions. La collaboration, c’est donc la possibilité de partager les données à l’intérieur d’une même région du cloud, mais aussi entre plusieurs de ces régions. Notre ambition était donc de rendre ces partages sans couture.
Précisons que la collaboration s’effectue entre entreprises, mais aussi à l’intérieur des organisations, entre des utilisateurs et entités répartis partout dans le monde. Les multinationales sont souvent très distribuées, fragmentées.
Après avoir rendu la donnée accessible et partageable, dans quelle phase entrent à présent les entreprises ?
Benoît Dageville. L’évolution suivante est sans doute celle du Machine Learning. Cette phase s’inscrit dans un prolongement pour Snowflake. Depuis le début, notre philosophie est celle de la démocratisation de l’accès aux données. Mais démocratiser reste complexe pour les utilisateurs finaux. Ils ne savent pas exécuter des requêtes SQL ou du Python pour accéder aux données.
Les données brutes, c’est une chose. Il faut cependant aussi la logique permettant l’accès. Cette logique est portée par les applications. La tâche à laquelle nous nous attelons consiste donc à augmenter la plateforme Snowflake pour en faire une plateforme applicative pour les applications Data ou Data Products. Et ces applications sont le moyen de démocratiser le Machine Learning.
Cette démocratisation du ML est-elle à portée de main aujourd’hui ?
Benoît Dageville. On imagine souvent à tort que chaque entreprise créera et développera des modèles ML, qu’elles seront en mesure de comprendre ces technologies. Que demain, n’importe qui sera en capacité de concevoir de telles applications. Non, ce n’est pas vrai. La complexité ne fait que s’accroître.
A mon sens, le ML sera de moins en moins accessible, pour des raisons de coûts, de compétences, etc. Pour Snowflake, la seule manière de le démocratiser, c’est que les modèles qui sont créés puissent être distribués par le biais d’applications.
Nous avons beaucoup d’annonces dans ce secteur. Et celles-ci sont alignées sur les demandes du marché.
Comment, en termes de fonctionnalités, allez-vous accompagner cette révolution ML ?
Benoît Dageville. Cela réside d’abord dans la programmabilité de la plateforme. Nos clients peuvent ainsi exécuter directement du Python et tous les frameworks ML associés, comme scikit-learn ou TensorFlow, par exemple. Cette programmabilité inclut Python, mais aussi Java, Scala…
Nous réalisons aussi d’importants investissements pour permettre aux utilisateurs de produire facilement des modèles et de les partager. La distribution de ces applications, prévision de ventes, reconnaissance d’image, etc, sera au cœur de cette révolution ML.
Nous avons d’ailleurs fait un travail considérable pour ajouter à la plateforme le support complet des données non structurées. C’était stratégique pour le machine learning et son développement.
Comment définir votre vision des applications ?
Benoît Dageville. Nous l’appelons Native App. Il s’agit d’applications totalement exécutables dans Snowflake. Nous faisons ici référence à des Data Applications, qui vont donc exploiter des données et des modèles. Nous fournissons également des interfaces.
Notre vision, c’est de faire avec les Data Applications ce que l’iPhone a fait pour les applications mobiles. Pour accéder à ces outils, les consommateurs se connectent uniquement à une marketplace sécurisée. Transposé à Snowflake, le modèle de l’App Store a pour équivalent le Snowflake Marketplace.
Les créateurs de Data Applications pourront héberger leurs solutions sur la place de marché, et potentiellement les monétiser. Les utilisateurs, eux, pourront les installer, non sur leur iPhone, mais sur leur compte Snowflake.
Une application, c’est du code, des données et de l’UI. Nous avons acquis une société en 2022 pour intégrer cette dimension interface, Streamlit.
Les applications telles que vous les décrivez se rapprochent des Data Products et aussi du Data Mesh pour ce qui est de leur consommation. Le Data Mesh, c’est un domaine d’intérêt pour Snowflake ?
Benoît Dageville. Je pourrais dire que nous étions Data Mesh avant qu’il ne soit formalisé. Nous considérons par conséquent être parfaitement adaptée comme plateforme pour cette architecture distribuée.
C’est vrai aussi au niveau de l’organisation. Chez nos clients, les différents départements reproduisent très souvent ces domaines au sein de Snowflake. Autonomes dans la plateforme, ils créent aussi leur data products et les partagent entre eux.
Là où le Data Mesh ne va pas assez loin, c’est en considérant la donnée seule comme un produit. Ce modèle, nous le poussons depuis des années déjà. Mais nous allons au-delà au travers des Data Applications, qui intègrent plus que les données.
Comment cette vision produit va-t-elle se décliner en termes de priorités stratégiques ?
Notre axe stratégique, c’est de devenir l’iPhone des Data Apps. C’est le pouvoir de distribuer ces applications par l’intermédiaire de notre Data Cloud. Notre focus est sur leur distribution, mais aussi sur la facilité de développement de ces apps.
Streamlit, qui permet de créer des petites applications Python, est un outil au service de cette simplification. N’importe quel data scientist ou ML ingénieur peut entraîner et exposer ses modèles à travers ces apps Streamlit, dont le nombre total atteint 1,5 million aujourd’hui.
Ce chiffre est une parfaite traduction de la capacité de démocratisation en permettant de mettre le Machine Learning dans la main des business units et des utilisateurs finaux. Notre ambition, c’est véritablement d’offrir aux clients, depuis un store, l’accès à des millions d’applications Data.