Le aziende possono ridurre in modo significativo le interruzioni dei sistemi tecnologici e altri costosi problemi tecnici migliorando la risposta agli incidenti e il modo in cui gestiscono il cambiamento, come conferma McKinsey in un recente studio. Le aziende ora più che mai corrono per la digitalizzazione e le organizzazioni tecnologiche devono fornire servizi innovativi ad alta velocità mantenendo un alto livello di stabilità operativa.
Questa pressione per agire agilmente ha un impatto negativo significativo sui problemi di resilienza del servizio e la crisi del COVID-19 ha aggiunto ulteriormente una nuova dinamica: il lavoro a distanza, picchi nell’uso della rete e la necessità di adattarsi rapidamente alle preferenze digitali dei clienti creando nuove tensioni.
4 modi per avere servizi tecnologici più resilienti
Le aziende devono affrontare centinaia, migliaia di questi incidenti di resilienza ogni anno e i costi aumentano rapidamente, spesso senza che l’IT capisca l’intera portata del problema. A pagarne le conseguenze non sono solo le finanze ma anche la soddisfazione del cliente e la produttività dei dipendenti.
Quando i sistemi si guastano, la prima priorità di un’organizzazione è il ripristino del servizio. Per farlo rapidamente, la maggior parte dei team tecnologici cerca di rimediare nel più breve tempo possibile ma spesso la volta successiva il problema sarà un altro e sarà ancora una volta da risolvere. Il ciclo continua di volta in volta.
Per fermarlo dunque le aziende devono smettere solo di reagire alle emergenze e seguire una serie di 4 pratiche per migliorare la resilienza tecnologica, ridurre il rischio di incidenti e mitigare il loro impatto commerciale e sui clienti.
- Andare oltre i trigger per cercare le cause e i modelli alla radice
Le aziende con resilienza tecnologica dovrebbero prendere nota dei fattori scatenanti e individuare i modelli dietro di essi. Una volta identificato il modello, che sia nello sviluppo, nella configurazione, nella gestione delle modifiche o in un’altra area, le aziende possono seguire il percorso, indagando più a fondo all’interno di quell’area per vedere cosa sta causando i guasti persistenti. La chiara comprensione della causa principale permette di apportare miglioramenti sistemici.
- Integrazione e automazione per prevenire e rilevare i problemi in anticipo
Spesso le aziende hanno gli ambienti di sviluppo, test e produzione separati e anche i processi di monitoraggio possono essere frammentati e manuali. Gli strumenti possono tenere traccia di parti del percorso di sviluppo, ma non di tutto, e i team per gli incidenti potrebbero non ricevere avvisi in modo tempestivo. Per risolvere questo problema, si dovrebbero identificare i percorsi dei clienti più critici e di modernizzare e automatizzare i processi sottostanti end-to-end.
L’investimenti in sistemi di autoriparazione in cui vengono eseguiti script automatizzati quando si verifica un’anomalia è un’altra azione che le aziende stanno mettendo in campo: gli script possono eseguire l’aggiornamento dei server, il provisioning di spazio di archiviazione aggiuntivo o persino l’applicazione della patch più recente.
Un’altra questione spinosa da risolvere riguarda la gestione delle richieste di modifica di emergenza che spesso vengono raggruppate insieme a quelle di routine. In questo modo è difficile dare priorità al rischio relativo e all’urgenza e si finisce per ricorrere a soluzioni rapide che portano a tassi di errore di modifica elevati. Per interrompere questa pratica, si dovrebbe migliorare la categorizzazione dei rischi, ma anche creare un sistema di punteggio che valuta i team di sviluppo in base ai volumi di modifiche e alla qualità delle applicazioni.
- Sviluppare strumenti e reti di esperti per accelerare la risposta agli incidenti
Ridurre la frequenza e la gravità degli incidenti e minimizzarne l’impatto è uno degli obiettivi che le aziende perseguono e che possono farlo, facilitando ai team l’accesso alle competenze necessarie e fornendo una comunicazione chiara a clienti e stakeholder.
Un altro punto importante è quello di facilitare la collaborazione e l’accesso agli esperti pertinenti. La catalogazione di esperti in materia, all’interno e all’esterno della funzione IT, e il raggruppamento di gruppi per discussioni occasionali ed esercitazioni da tavolo hanno aiutato i leader a creare reti di esperti più solide.
Le aziende devono prestare uguale attenzione a mantenere adeguatamente informati gli stakeholder chiave. I clienti capiscono che si verificano interruzioni, ma è meno probabile che perdonino lunghi tempi di attesa, rapporti di stato obsoleti e interfacce goffe. Stabilire un piano completo di risposta agli incidenti che anticipi le domande di clienti, investitori e altri stakeholder può fare molto per aiutare le aziende a mantenere solide relazioni.
- Assicurarsi che la gestione dei problemi sia strutturata
Per ridurre il rischio di incidenti ripetuti, i team di gestione dei problemi conducono le procedure post-mortem e forniscono raccomandazioni ma questi team generalmente mancano del potere istituzionale per vedere attuate le loro raccomandazioni. Un forte impegno dei CIO può fornire il meccanismo di applicazione necessario.
I CIO dovrebbero muoversi rapidamente. Man mano che le aziende accelerano il ritmo di sviluppo e adozione di strumenti, canali e modelli di business, la resilienza dei servizi tecnologici giocherà un ruolo crescente nella resilienza aziendale complessiva.