L’inférence causale est une technique d’analyse de données relevant de l’intelligence artificielle. Elle permet d’explorer des relations de cause à effet entre phénomènes, ce qui en offre une compréhension plus profonde que la simple étude des corrélations à laquelle procède classiquement la science statistique. David Alcaud, Responsable des programmes de Recherche & Développement du Groupe Square, estime que la compréhension de la causalité est un enjeu implicite dans toute prise de décision et elle se pose avec acuité dans la gestion de la crise du Covid-19.
Elle est en effet au cœur de toutes les grandes questions dont découlent les choix politiques, ainsi que leur opposition : combien la Covid a-t-elle fait de morts ? Dans quelle mesure les vaccins, confinement, masque, hydroxychloroquine, antidépresseurs, etc. sont-ils efficaces ? Quels sont les effets secondaires des vaccins ?
A lire aussi : Thierry Rivat (Hôpitaux Civils de Colmar) : «La révolution numérique est en marche »
Développons par exemple cette dernière question. Le fait qu’un événement négatif se produise peu après une injection n’implique pas que celle-ci en soit cause : cet effet pourrait très bien n’être dû qu’à une autre condition médicale préexistante qui se manifesterait à ce moment-là. Corrélation ne signifie pas causalité. Comment faire la différence ?
Une première approche serait de faire la démonstration chez l’individu concerné des mécanismes biologiques ayant conduit à l’effet observé depuis l’injection. Cette approche ne peut pas être systématisée du fait de l’ampleur des campagnes de vaccination. Une deuxième approche (dite des ‘potential outcomes’) consiste à comparer ce qu’il se passe quand une personne reçoit le vaccin à ce qu’il se passe quand elle ne le reçoit pas : toute différence pourra être attribuée sans ambiguïté au vaccin. Cette approche, rigoureuse en théorie, est en fait impossible en pratique : en effet, lorsqu’on vaccine quelqu’un, on se prive à jamais de connaître la contraposée, c’est à dire ce qui se serait passé si on ne l’avait pas fait.
Cependant, ce même grand nombre d’individus concernés qui décourageait la première approche est ce qui va permettre aux méthodes d’inférence causale de pallier les problèmes de la seconde. En effet, accumuler un grand nombre d’observations va permettre de raisonnablement deviner la contraposée en comparant le vacciné à des individus aux profils similaires qui n’ont pas reçu le vaccin.
Etablir une contraposée est une tâche complexe et experte, tant dans l’obtention des données que dans leur analyse. Côté obtention se pose toujours le problème du groupe de contrôle : l’hôpital va naturellement suivre ses patients ayant un problème déclaré (groupe de test) et bien enregistrer leur profil médical complet, mais comment obtenir des données aussi complètes pour les personnes à qui on voudrait les comparer, c’est à dire qui n’ont pas eu de problème et qui ne fréquentent donc pas l’hôpital ? De plus, des choix experts sont indispensables quant à la bonne manière de définir, catégoriser et quantifier les particularités de chaque cas (profil des patients, nuances entre protocoles, temporalité des effets…) afin d’obtenir une représentation pertinente et homogène de la réalité.
A lire aussi : Stéphanie Combes (Health Data Hub) : « La crise sanitaire rend le recours aux données de santé plus évident. »
Côté analyse, chaque individu étant unique, il faut faire nécessairement appel à des modèles mathématiques pour extrapoler la contraposée d’un individu à partir d’observations faites chez d’autres aux profils voisins et justifier le succès de cette opération. Il y a une difficulté intrinsèque à manipuler ces modèles, les plus complexes (deep learning) étant en général les plus performants. De plus, chacun d’entre eux implique des hypothèses supplémentaires qui doivent être bien comprises et intégrées dans l’interprétation des résultats. Ainsi, de fortes compétences pluridisciplinaires sont nécessaires au succès d’un programme d’inférence causale.
Certaines méthodologies d’inférence causale sont bien établies en épidémiologie depuis longtemps : ce sont celles qui concernent des questions globales comme « quels sont les facteurs de risque du Covid ? » ou « tel traitement est-il positif à l’échelle d’une population ? ». Ce sont par exemple elles qui ont permis à une collaboration française de conclure à l’inefficacité globale de l’hydroxychloroquine, par la compilation de centaines de milliers de données côté médical et l’utilisation de méthodes avancées (forêts aléatoires causales) par les experts IA, quand bien même les simples statistiques descriptives initiales pouvaient laisser penser le contraire.
Cependant, ces vingt dernières années, la communauté d’intelligence artificielle a continué à progresser et a développé de nouveaux outils sophistiqués pour aussi mieux étudier les questions touchant à l’individu comme « Quel est le risque qu’Untel développe un effet secondaire négatif » ? Ce sont de nouveaux outils qui permettraient de voir des phénomènes plus subtils et de progresser dans la personnalisation de la réponse médicale. Nous espérons que l’urgence du Covid continuera à rapprochera les communautés médicale et machine learning et accélérera l’adoption de cette nouvelle génération d’outils dans l’intérêt de tous.