L’intelligence artificielle peut-elle résoudre les maux de la cybersécurité ? De plus en plus d’offres de produits et de services le prétendent. Laurent Heslault, directeur des stratégies de sécurité de Symantec France, fait le point et partage certaines clés pour que les entreprises puissent arbitrer.
Alliancy. Rares sont les offres technologiques à ne pas dire qu’elles intègrent de l’intelligence artificielle… Est-ce un effet marketing ou une véritable rupture ?
Laurent Heslault. Il y a effectivement beaucoup de fantasmes et de confusions autour d’un mot-valise dont certains se servent à des fins promotionnelles. Gartner s’est d’ailleurs mis à parler de « AI washing », en référence au « green washing ». L’un des problèmes vient du décalage entre la vision et les attentes très avancées que beaucoup de personnes ont de l’intelligence artificielle – qui est aujourd’hui un objectif encore lointain – et la réalité de ce que l’on est d’ores et déjà capable de faire avec de l’IA. Sur ce dernier point, cela fait longtemps que l’industrie s’appuie sur des usages qui font certes beaucoup moins rêver mais qui ont largement contribué à renforcer la sécurité de nos organisations.
Pourquoi faire appel à ces technologies en matière de cybersécurité ?
Laurent Heslault. Chez Symantec, nous utilisons des technologies de machine learning depuis 2004. Evidemment, à l’époque l’engouement autour du terme n’avait rien à voir. Ce sont des technologies qui sont actuellement transparentes au sein de l’antispam, de l’antiphishing, du DLP (data loss prevention)… Le marché a commencé à s’emparer du sujet quand les systèmes classiques ont menacé d’être complètement dépassés par l’augmentation des volumes de données à traiter. Pour illustrer : en l’an 2000, on détectait en moyenne 5 nouveaux programmes malveillants par jour. Aujourd’hui, nous en sommes à 2 millions par jour. Cela fait donc longtemps que les approches traditionnelles ont dû être abandonnées pour pouvoir mieux traiter la masse grâce à du machine learning.
Quels sont les cas d’usage les plus récents ?
Laurent Heslault. L’intelligence artificielle est une aide précieuse pour permettre aux spécialistes de mieux travailler, notamment dans les Security Operating Center (SOC). En sécurité, la pertinence vient du nombre. Il faut obtenir le maximum d’information sur les menaces et ceux qui en sont à l’origine pour pouvoir protéger. C’est pourquoi par exemple les acteurs du secteur multiplient les partages et les sources de nouvelles informations. Et innovent pour les obtenir. Les nouvelles menaces se basent de plus en plus sur l’Internet des Objets ? Symantec a par exemple mis en place un honeypot* IoT en 2015 qui récupère énormément d’informations. Plus généralement cela fait des années que nous avons 5 millions de boites mails factices qui participent à la cartographie que nous établissons des menaces, au côté de nombreuses autres sources.
La difficulté au final est que nous nous retrouvons à avoir plus de 100 Téraoctets de logs à traiter chaque jour. Même avec 500 personnes qui s’y consacrent, c’est un énorme problème.
L’intelligence artificielle permet de « booster » les analystes ?
Laurent Heslault. Oui. A partir de l’automatisation apportée par l’IA, nous avons créé un Virtual SOC qui permet l’industrialisation des taches élémentaires et chronophages des analystes qui travaillent dans ce cadre particulier des SOC. Un an après sa mise en service, nous avons doublé la productivité de nos experts ; ce n’est pas anodin. Ce sera donc clairement l’un des moyens pour faire face aux énormes difficultés de recrutement auxquelles les entreprises font face pour les SOC.
Quels conseils donner aux CISO et RSSI qui se retrouvent face à cette profusion « d’argument IA » parmi les technologies qui leur sont présentées jour après jour ?
Laurent Heslault. Pour éviter les mauvaises surprises sur l’IA en cybersécurité, les CISO et RSSI peuvent adopter trois réflexes simples pour choisir plus sereinement. Le premier est de s’assurer que les algorithmes qui sont utilisés sont « prouvés et auditables », même par un tiers. Face à la confusion sur laquelle jouent de nombreux acteurs, il est nécessaire de refuser tout effet « boite noire ». Ensuite, il faut toujours garder en tête que la qualité des résultats repose sur la qualité du jeu de données disponible. Proportionnellement, il est donc moins important de vouloir à tout prix comprendre comment fonctionnent les algorithmes eux-mêmes, que de passer du temps à s’assurer que la matière que l’on a disposition sera suffisamment riche, fiable et exploitable. Le dernier point à surveiller : l’intelligence artificielle doit permettre de gagner du temps de façon notable. Nous en avons eu la preuve avec la mise en place de notre Virtual SOC en interne : il faut donc pouvoir mesurer clairement le gain de productivité engendré.
Que nous réserve la suite ?
Laurent Heslault. Ne doutons pas que les criminels vont utiliser les mêmes outils. Ils ont bien entendu suivi le même parcours que nos industries et automatisent depuis des années les tâches les plus contraignantes… En 2012 déjà, nous avions découvert un système qui utilisait une dizaine de machines virtuelles pour tester les malwares sur l’ensemble des antivirus du marché et les modifier, afin de les rendre moins détectables. En 2016, un tiers des logiciels malveillants détectaient si on essayait de les tester dans une machine virtuelle. C’est une course à l’armement : le machine learning permettra aux criminels de mimer toujours mieux les usages normaux des utilisateurs pour leur nuire ensuite…
Et du côté des défenseurs ?
Il y a énormément de chantiers en cours ! Parmi eux, il y en a un directement lié au caractère massif des données que nous devons traiter efficacement pour bien faire notre travail. Il va falloir résoudre un paradoxe fondamental entre d’un côté cette massification des data, de l’autre la nécessité de temps réel qui est mis à mal par la saturation des bandes passantes, et enfin la sensibilité des informations concernées. Avec l’entrée en vigueur de réglementations comme le RGPD, il devient beaucoup moins évident de se dire qu’un système central va accueillir toutes les données pour les analyser. C’est pourquoi nous travaillons, avec un premier proof of concept en cours, sur du machine learning distribué, qui va permettre de pousser ces capacités intelligentes en local. Cela sera particulièrement utile pour améliorer le partage d’information entre les SOC, tout en gérant beaucoup mieux les enjeux de confidentialité.
*un « pot de miel » permet d’attirer grâce à un leurre de potentielles menaces pour les identifier.