Article partenaire

Southwest Airlines résout les problèmes informatiques de ses équipes en mode « pilote automatique »

La compagnie aérienne américaine, cinquième plus importante au monde, avec plus de 800 avions en exploitation, a mis en place une approche proactive pour gérer les incidents IT avant que les collaborateurs n'en souffrent.

Publié à 5h12

Lecture 8 min.

Southwest Airlines

À mesure que les outils numériques deviennent toujours plus centraux dans ses opérations, Southwest Airlines mise de plus en plus sur l’IA et l’automatisation pour prévenir les incidents au niveau des endpoints et en limiter l’impact sur l’activité de la compagnie. Ces nouveaux outils permettent à l’équipe IT d’adopter une posture plus stratégique et moins réactive, explique Derek Whisenhunt, responsable de l’End User Computing chez Southwest Airlines.  « En résumé, nous concentrons désormais les efforts de nos équipes sur des actions proactives et préventives, ainsi que sur l’amélioration de l’expérience numérique des collaborateurs, plutôt que d’attendre que les problèmes surviennent pour intervenir », déclare M. Whisenhunt.

Une digitalisation à grande échelle, et ses contreparties

Cette ambition s’ancre dans une trajectoire engagée depuis une dizaine d’années. Southwest a progressivement digitalisé les workflows de ses équipes de première ligne, remplaçant ses processus papier par des terminaux mobiles et des applications cloud pour ses équipes de maintenance, d’opérations de vol, de services en porte, et même d’équipages cabine.

Basée à Dallas, la compagnie a déjà largement accompli cette transition pour ses 72 000 collaborateurs — dont près des deux tiers évoluent en première ligne — en substituant notamment les manuels imprimés des pilotes et des équipes au sol par des appareils mobiles.

 Mais cette modernisation a une contrepartie directe pour l’IT : l’équipe End User Computing de Southwest gère maintenant environ 50 000 smartphones et tablettes, 20 000 ordinateurs portables et 15 000 PC. Une charge considérable, d’autant que les incidents liés à ces équipements peuvent avoir des conséquences opérationnelles concrètes : avec des temps de rotation très courts pour sa flotte de 800 Boeing 737, la moindre défaillance matérielle ou logicielle sur les appareils des collaborateurs peut rapidement se répercuter sur l’expérience client des passagers.

« Vous l’avez sans doute déjà observé — ou vécu, illustre M. Whisenhunt. Lorsqu’on se présente à un comptoir et que la file s’allonge, ou que les clients s’impatientent pendant qu’un agent est au téléphone, il s’agit généralement soit d’un problème de billet, soit d’un incident système. Pour moi, c’est très concret : cela impacte à la fois l’expérience des collaborateurs et celle des clients et, dans ce type de situation, notre capacité à assurer la rotation des appareils en est directement affectée. »

Des actions à distance pour prévenir les incidents IT

Pour superviser et gérer son parc de terminaux utilisateurs, Southwest a déployé il y a plusieurs années la plateforme de pilotage de l’expérience numérique des collaborateurs (DEX, Digital Employee Experience) de Nexthink. Les outils DEX permettent de monitorer et d’améliorer l’expérience numérique des employés, notamment en analysant la performance des terminaux, la fiabilité des applications et la qualité des interactions avec le support IT.

Ces dernières années, Southwest a considérablement renforcé son utilisation de la plateforme Nexthink, poursuit Derek Whisenhunt. Au sein de son équipe de gestion des endpoints (14 personnes), l’entreprise s’appuie désormais sur une véritable équipe dédiée aux opérations DEX, ainsi que sur une équipe d’ingénierie DEX — composée de 12 collaborateurs supplémentaires — orientée vers l’innovation, en charge du déploiement de nouveaux produits et du pilotage des automatisations.

Au-delà de la collecte d’insights sur la performance des terminaux, Southwest utilise désormais la DEX pour corriger activement les incidents. L’automatisation est au cœur du dispositif via des « actions à distance » qui permettent de déployer automatiquement des correctifs simples, comme le nettoyage des fichiers cache à l’origine de plantages de Microsoft Teams chez certains utilisateurs. Le volume d’actions à distance déployées dans l’entreprise a fortement augmenté ces dernières années. En 2024, Southwest en a exécuté 1,1 milliard, ce qui représente environ 13 000 heures économisées pour les collaborateurs confrontés à des incidents IT. En 2025, ce chiffre a atteint 2,1 milliards, pour un total de 23 000 heures récupérées. « Cela illustre bien l’importance des actions à distance… Nous évoluons désormais dans un modèle préventif, où les problèmes sont résolus avant même que les utilisateurs ne s’en aperçoivent. »

Workflows automatisés

Les actions à distance automatisées ont également permis à Southwest d’éviter certaines mises à niveau matérielles, souligne M. Whisenhunt. La compagnie exploite environ 8 000 PC back-office, pouvant accueillir jusqu’à 20 utilisateurs par machine. Or, à chaque connexion, des profils Microsoft 365 complets sont téléchargés, saturant progressivement les disques et dégradant les performances. Pour y remédier, des actions à distance ont été configurées afin de supprimer les profils inactifs d’employés ne s’étant pas connectés depuis plus d’une semaine — évitant ainsi l’achat prévu de disques durs d’un téraoctet pour absorber cette charge.

Les actions à distance peuvent également être orchestrées au sein de workflows automatisés, intégrant des conditions « si/alors » et « et », afin de traiter des cas plus complexes. Au cours du dernier mois, Southwest en a automatisé près de 5,8 millions, couvrant « un large éventail de workflows liés à la santé, à la sécurité et au cycle de vie des endpoints », précise M. Whisenhunt. La majorité portait sur la gestion de l’espace disque : 13 actions à distance ont été exécutées près de 3 millions de fois afin de « restaurer proactivement de la capacité de stockage ».

L’équipe a également résolu un taux d’échec de 20 % du client Microsoft SCCM — utilisé pour le déploiement des mises à jour logicielles et de sécurité sur les postes des collaborateurs — en orchestrant plusieurs actions à distance visant à vérifier l’état du client, redémarrer le service et, si nécessaire, réparer ou réinstaller le client. La plateforme DEX s’intègre également à ServiceNow afin de générer automatiquement des tickets en cas d’incident – y compris pour les collaborateurs qui, faute de temps, auraient simplement toléré la situation. « Par exemple, si nous constatons que votre système a subi trois écrans bleus (BSOD) en 24 heures, un ticket est automatiquement créé », explique Derek Whisenhunt. Une façon de contourner le réflexe bien connu : « Beaucoup de collaborateurs ne contactent même pas le support : ils se disent “peu importe, je redémarre et je me débrouille. Je n’ai pas le temps pour ça.” »

L’IA pour booster la productivité et autonomiser les collaborateurs 

En parallèle de l’automatisation des workflows, les outils d’IA contribuent également à renforcer la productivité. Nexthink Workspace — un assistant conversationnel basé sur un LLM — permet aux équipes d’identifier rapidement les incidents affectant leurs terminaux et de prioriser les actions à mener.

L’outil a permis à l’équipe End User Computing d’accéder plus rapidement aux données pertinentes, souligne M. Whisenhunt, « tout en permettant à nos analystes et à nos ingénieurs de se concentrer sur les priorités essentielles ». Au quotidien, l’équipe utilise Workspace pour superviser la santé des terminaux, les performances applicatives, la posture de sécurité et les signaux liés au cycle de vie. Il permet également de déclencher des actions à distance correctives, « souvent avant même que l’employé ne se rende compte qu’il y a un problème ».

« Cette transformation a fait évoluer l’équipe d’un modèle de support réactif centré sur les tickets à un modèle d’opérations proactif, dans lequel nous pouvons détecter les dégradations, valider l’efficacité des remédiations et améliorer en continu la stabilité à grande échelle », résume-t-il. Le résultat : une réduction du volume d’appels au service d’assistance, « des temps de résolution raccourcis, une meilleure fiabilité des terminaux, ainsi qu’une récupération significative des capacités d’ingénierie auparavant mobilisées sur des correctifs répétitifs. »

Préparer l'avenir

La prochaine étape est déjà en préparation. Southwest prévoit de déployer Nexthink Spark, un outil d’IA conçu pour permettre aux utilisateurs de diagnostiquer et résoudre eux-mêmes leurs incidents — avant même de solliciter l’IT. Un projet pilote est en cours de mise en œuvre, avec un premier déploiement prévu au sein de l’équipe IT elle-même. « En combinant le contexte en temps réel issu du terminal avec des automatisations validées par l’IT et des mécanismes de remédiation guidée, Spark permet aux utilisateurs de résoudre eux-mêmes de nombreux incidents par eux-mêmes, en temps réel, sans ouvrir de ticket ni attendre une intervention humaine. »

Au-delà des gains de productivité attendus, M. Whisenhunt veille à encadrer le déploiement de l’IA avec méthode. « Comme pour toute capacité basée sur l’IA dans un environnement IT d’entreprise, nous avons des préoccupations légitimes en matière de fiabilité, de supervision et d’équilibre entre automatisation et contrôle », explique-t-il. Pas question, donc, de présumer de la confiance : « Nous la considérons comme quelque chose qui se construit dans la durée, grâce à une gouvernance robuste, des garde-fous clairement définis et une validation continue des résultats, plutôt que comme une donnée acquise dès le départ. »

Adapté d'un article publié en anglais par Matthew Finnegan sur Computerworld