Financé par France 2030, le projet P16 de l’Inria vise à développer des briques logicielles communes pour traiter toute la chaîne de données. Un focus particulier est mis sur la santé en raison de la spécificité de ses données.
“Nous voulons construire des briques logicielles pour couvrir tout le cycle de la donnée”, assure Selma Souihel, directrice du projet P16 lancé par l’Inria (Institut national de recherche en sciences et technologies du numérique). Pour rappel, le projet P16 s’inscrit dans le cadre de la Stratégie nationale pour l’intelligence artificielle (SNIA) de France 2030. Son objectif est de favoriser les communs numériques, ces briques logicielles, autour de cette technologie.
Il existe notamment Corese, chargée de structurer la donnée. Skrub permet de la prétraiter et de la mettre en forme avant que Scikit-Learn, la plus célèbre de bibliothèque libre de l’Inria, qui, grâce à de l’apprentissage automatique, la valorise afin de réaliser des prédictions. “Le projet vise à créer des ponts entre ces différentes bibliothèques”, précise Selma Souihel. Pour cela, l’ambition est d’augmenter à la fois le nombre d’utilisateurs et celui des développeurs chargés de les faire vivre et de les mettre à jour.
Un appel à manifestation d’intérêt (AMI), largement ouvert à la communauté de recherche, sera également lancé. Les chercheurs qui y répondront viendront améliorer les bibliothèques et les mettre aux standards. “Nous souhaitons intégrer la maintenance à long terme au sein de notre stratégie car ce n’est habituellement pas la priorité des laboratoires de recherche”, indique la directrice du projet à l’Inria. “Nous voulons se positionner comme un acteur de valorisation des composantes logicielles développées”, poursuit-elle.
Valoriser les données d’entreprises
Avec l’aide de l’entreprise à mission de souveraineté industrielle et numérique Probabl, qui commercialise ces briques logicielles, l’Inria souhaite répondre aux besoins des grandes entreprises et des industriels, notamment lorsqu’il existe des problématiques autour de l’intelligence artificielle traditionnelle. “Nous pouvons qualifier des besoins, penser des cas d’usage et faire évoluer les briques logicielles pour y répondre”, indique Selma Souihel.
L’utilisation de la suite Corese, Skrub et Scikit-Learn permet d’intervenir sur un grand nombre de données, depuis l’identification jusqu’à leur valorisation, auprès de grandes entreprises de l’énergie ou de l’assurance, mais aussi de PME. Grâce à l’utilisation massive de Scikit-Learn par de nombreux data-scientists, la crédibilité du projet P16 est déjà importante auprès des entreprises qui voient d’un bon œil l’arrivée des nouvelles bibliothèques interfacées avec Scikit-Learn.
La santé en priorité
Malgré de nombreuses cibles, le projet P16 fait du secteur de la santé une priorité. “Si nous arrivons à traiter des données de santé, on arrivera à travailler sur l’ensemble des données”, confie Selma Souihel. En effet, les données de santé ont des spécificités particulières quant à leur sensibilité. Cela contraint à travailler sur des serveurs ou des clouds en interne et à ajouter une couche d’anonymisation si nécessaire. Des échanges existent déjà pour tourner les bibliothèques sur des entrepôts de CHU (Centre hospitalier universitaire) et d’autres organismes notamment liés à la recherche dans le secteur.
“Il existe un sujet d’explicabilité de l’IA auprès des métiers”, indique la directrice du programme lancé en septembre. Aujourd’hui, aucun objectif précis du nombre d’entreprises visées n’est fixé pour les cinq prochaines années, mais l’Inria reste contrainte par le budget de 8 millions d’euros, financé par France 2030, ce qui représente l’équivalent d’une quinzaine de développeurs chargés du développement des briques logicielles.