Come progettare applicazioni industriali resilienti a temporanee interruzioni della rete, al riavvio dei dispositivi e alla perdita di connessione?

Sintesi tecnica

Punti chiave:

Il testo mostra come progettare la logica di un’applicazione industriale affinché una momentanea indisponibilità della rete, il riavvio dei dispositivi e l’interruzione della sessione non provochino perdita di coerenza dello stato, duplicazione dei comandi o una ripresa incontrollata del funzionamento. Il lettore vedrà perché le decisioni in materia di buffering, conferma dei comandi, ripristino della sessione e modello degli stati debbano essere prese fin dalle prime fasi del progetto, poiché in seguito si riflettono direttamente sulla continuità del processo, sulla sicurezza e sulla tracciabilità del sistema.

Si tratta di sicurezza fisica, non solo di praticità informatica: la perdita della rete e il ritrasferimento automatico dei comandi “non confermati” al suo ripristino (ad es. “avvia il ciclo”) possono far sì che la macchina esegua l’operazione due volte o nel momento sbagliato. È un rischio reale per le persone e per il processo nel reparto produttivo.
Regola d’oro della ripresa: se, dopo il ripristino della connessione, il sistema non è in grado di determinare in modo univoco al 100% in quale stato si trovi l’attuatore, non deve in alcun caso riprendere automaticamente il funzionamento. Una situazione di questo tipo richiede sempre una conferma esplicita e consapevole da parte dell’operatore.
Decisioni da prendere all’inizio, altrimenti i costi aumentano: le regole di comportamento dell’applicazione in caso di perdita della comunicazione devono essere previste nell’architettura fin dall’avvio del progetto. Rimandare la questione “a un accordo in fase di implementazione” porta a costose modifiche correttive, a rattoppi manuali degli errori da parte del personale e a pericolose elusioni dei blocchi da parte di operatori frustrati.

La capacità di un’applicazione industriale di resistere a una temporanea assenza di rete, al riavvio dei dispositivi e alla perdita di connessione non è più un elemento accessorio che migliora il comfort d’uso, ma una condizione necessaria per il corretto funzionamento del processo e per mantenere la responsabilità in capo al produttore, all’integratore o all’utilizzatore finale. In ambiente industriale la perdita di connettività non è un evento eccezionale: si verifica durante interventi di assistenza, commutazioni dell’infrastruttura, riavvii dopo un’interruzione di alimentazione, aggiornamenti, sovraccarichi di rete o semplici guasti di un dispositivo periferico. Se in queste condizioni l’applicazione perde la coerenza dello stato, duplica i comandi oppure, al ripristino della connessione, esegue operazioni arretrate senza controllo del contesto, il problema smette di essere esclusivamente informatico. Diventa una questione di continuità del processo, di sicurezza funzionale, di qualità dei dati di produzione e di tracciabilità delle decisioni progettuali.

Per questo il tema va affrontato all’inizio del progetto, non dopo la prima messa in servizio. Un’architettura resistente alle interruzioni di connettività incide sul modo in cui si modellano gli stati della macchina, sulle regole di buffering dei dati, sulla sequenza di conferma dei comandi, sulle condizioni di ristabilimento della sessione e sulla logica di ripresa del lavoro dopo il riavvio. Se il team rimanda queste decisioni, di solito finisce per ricorrere a soluzioni tampone costose: aggiunta locale di eccezioni, pulizia manuale delle code, blocchi operatore supplementari oppure ampliamento del livello di supervisione solo per compensare l’assenza di un comportamento prevedibile dei dispositivi. Il criterio pratico di valutazione è semplice: per ogni funzione rilevante bisogna saper rispondere in modo univoco a che cosa accade in caso di perdita di connessione, che cosa accade dopo un riavvio e chi conferma la ripresa del lavoro. Se la risposta è “dipende dall’implementazione” oppure “l’operatore vedrà che qualcosa non va”, allora non si tratta ancora di una decisione progettuale, ma di un trasferimento del rischio all’esercizio.

Questo emerge con la massima evidenza nel punto di contatto tra l’applicazione e il movimento della macchina o del processo. Immaginiamo un sistema in cui il pannello operatore invia il comando di avvio del ciclo e il controllore lo esegue con ritardo a causa di una temporanea perdita di connessione. Se, una volta ripristinata la comunicazione, l’applicazione ripete il comando perché non ha ricevuto conferma, si può arrivare a una doppia esecuzione dell’operazione oppure a un avvio in condizioni diverse da quelle che l’operatore vedeva al momento dell’invio del comando. A questo punto il tema della robustezza della comunicazione entra nell’ambito della protezione contro l’avviamento inatteso: non ogni riavvio costituisce un problema di sicurezza, ma ogni riavvio che può modificare le condizioni di avviamento senza una conferma consapevole e senza una verifica dello stato del dispositivo richiede già un’analisi a questo livello. Lo stesso vale per i dispositivi di interblocco e il bloccaggio: se la logica dell’applicazione induce il personale ad aggirare blocchi gravosi dopo un guasto di rete, il problema non riguarda soltanto il comportamento dell’utente, ma la decisione progettuale.

Dal punto di vista gestionale e della conformità, quindi, l’aspetto decisivo non è se le interruzioni di connettività “capitano”, ma se il progetto è in grado di dimostrare un comportamento sicuro e prevedibile in questi stati limite. È anche il momento giusto in cui il tema si traduce in una valutazione pratica del rischio: occorre distinguere le funzioni per cui sono ammissibili un ritardo o la perdita di una parte dei dati storici dalle funzioni per cui la perdita di contesto può portare a una decisione errata dell’operatore, al danneggiamento del prodotto oppure a un pericolo al riavvio. Conviene misurare non una astratta “stabilità del sistema”, ma indicatori che mostrino gli effetti delle scelte progettuali: il numero di riprese ambigue dopo il riavvio, il numero di comandi che richiedono una riconciliazione manuale dello stato, il tempo necessario per un ritorno sicuro al lavoro e i casi in cui il sistema non è in grado di dimostrare se il comando sia stato eseguito. Solo su questa base acquistano senso i requisiti normativi e le decisioni relative ai mezzi tecnici: analisi delle condizioni di avviamento dopo un’interruzione di alimentazione, valutazione del rischio per gli scenari di perdita di connessione e scelta di soluzioni di interblocco e supervisione laddove il solo meccanismo informatico non fornisca un livello di certezza sufficiente.

Dove più spesso aumentano i costi o il rischio

Nei progetti di applicazioni industriali resistenti a una temporanea assenza di rete, al riavvio dei dispositivi e alla perdita di connessione, il costo di norma non cresce per i soli meccanismi tecnici, ma per ipotesi errate sullo stato del processo dopo il disturbo. Se il team presume che, una volta ristabilita la connessione, il sistema “tornerà al funzionamento normale”, prima o poi pagherà il prezzo di riconciliazioni manuali degli stati, correzioni della logica di controllo, prove di accettazione aggiuntive oppure limitazioni operative imposte già dopo la messa in servizio. Le situazioni più costose sono quelle in cui l’applicazione non è in grado di stabilire con certezza se un comando sia stato eseguito, interrotto, duplicato oppure soltanto registrato lato interfaccia. Non è un problema di comodità per l’utente, ma di responsabilità rispetto all’effetto fisico: movimento dell’azionamento, modifica del setpoint, apertura di una valvola, conferma di un allarme o ripresa del ciclo.

Un’altra causa dei ritardi di progetto è una ripartizione errata delle responsabilità tra il livello operatore, l’applicazione intermedia e il controllo della macchina. Se la decisione su ciò che deve accadere dopo un riavvio viene rimandata “alla fase di implementazione”, il team finisce di solito con regole incoerenti: il pannello mostra l’ultimo stato noto, il controllore avvia la procedura di inizializzazione e il sistema di livello superiore ripristina i comandi in sospeso senza sapere se siano ancora pertinenti. In pratica, questo va definito prima e in modo esplicito: quali operazioni possono essere ripetute senza effetti collaterali, quali richiedono la conferma delle condizioni attuali dell’impianto e quali, in caso di perdita della comunicazione, devono decadere e passare in stato sicuro. Un buon criterio decisionale è semplice: se una ripresa errata dell’operazione può modificare lo stato energetico, la posizione di un attuatore, la qualità del prodotto oppure le condizioni di sicurezza delle persone, non ci si può basare esclusivamente sulla memoria dell’ultimo stato dell’applicazione.

Lo si vede bene nell’esempio di una sequenza che, prima dell’interruzione della comunicazione, ha inviato il comando di chiusura del riparo e di avvio del ciclo e che, dopo il riavvio della stazione operatore, ripropone la schermata “pronto al lavoro”. Se l’applicazione non distingue tra gli stati: comando accettato, esecuzione confermata, esecuzione interrotta, stato indeterminato, l’operatore riceve un quadro apparentemente coerente, ma in realtà incompleto. Le conseguenze possono essere fermi inutili, perché il personale teme di riprendere il processo, oppure, al contrario, un avvio non autorizzato, perché l’interfaccia non segnala la necessità di una nuova verifica. Per il responsabile di progetto questo significa, in seguito, un’indagine costosa sulle cause, la modifica degli scenari di prova e la necessità di aggiungere procedure di aggiramento. Per il proprietario del prodotto significa rischio di reclami e controversie sulla ripartizione delle responsabilità, soprattutto quando la documentazione dei requisiti non indica in modo univoco il comportamento del sistema dopo una perdita di alimentazione o di comunicazione. Per questo vale la pena misurare non solo la disponibilità, ma anche il numero di stati indeterminati dopo il riavvio, il numero di operazioni che richiedono un allineamento manuale e il tempo necessario per raggiungere una condizione di pronta sicurezza.

Un’altra categoria di costo è la confusione tra robustezza della comunicazione e sicurezza funzionale. Il solo fatto che l’applicazione sia in grado di bufferizzare i dati, ritentare la trasmissione o ripristinare la sessione non significa ancora che la macchina si comporterà in modo sicuro dopo la perdita della connessione. Quando l’effetto del disturbo riguarda funzioni legate al movimento, all’energia accumulata, agli interblocchi o alle condizioni di riavvio, il tema rientra naturalmente in una valutazione pratica del rischio. In quel momento occorre analizzare non solo la probabilità di un guasto di rete, ma soprattutto le possibili conseguenze di un’informazione di stato errata e di una ripresa errata. Se il sistema comprende l’idraulica, si aggiungono i requisiti relativi al comportamento degli attuatori in caso di mancanza di alimentazione e calo di pressione; in questi casi le decisioni applicative non possono essere in contrasto con i principi di progettazione propri dei sistemi idraulici. Analogamente, laddove il recupero della condizione di pronto dipende dalla chiusura di un riparo o dallo sblocco di un dispositivo di ritenuta, il problema può estendersi anche all’ambito dei dispositivi di interblocco e della resistenza all’elusione delle protezioni, perché la pressione a “ripartire rapidamente” genera molto spesso, in seguito, pratiche operative pericolose.

Il riferimento normativo ha senso solo a questo punto, quando è già chiaro quale scenario comporti un effetto tecnico e organizzativo. Se la perdita della connessione o il riavvio possono modificare le condizioni di avviamento sicuro, questo va descritto nell’analisi del rischio e non lasciato come comportamento predefinito del produttore del software o del fornitore del controllore. Se il sistema attuatore, dopo una mancanza di alimentazione, può assumere uno stato sfavorevole per il processo o pericoloso, occorre verificare se i requisiti previsti per quel tipo di azionamento e di fluido non impongano misure costruttive aggiuntive, indipendenti dalla logica applicativa. Il criterio pratico di confine è il seguente: quando l’errore dopo il ripristino dello stato può essere eliminato esclusivamente mediante una procedura operatore, il tema non è più soltanto informatico, ma anche progettuale e di conformità. È proprio in questo punto che la decisione sull’architettura dell’applicazione smette di essere una questione di comodità di implementazione e diventa un elemento di responsabilità per il comportamento sicuro e prevedibile dell’intero sistema.

Come affrontare il tema nella pratica

In pratica, la capacità di un’applicazione industriale di resistere a una temporanea assenza di rete, al riavvio dei dispositivi e alla perdita della connessione non inizia dalla scelta della tecnologia, ma dalla decisione su quali effetti del guasto siano ammissibili e quali no. All’inizio il team dovrebbe separare tre aspetti: lo stato del processo, lo stato del controllo e lo stato presentato all’operatore. È questa distinzione a determinare se, dopo l’interruzione della comunicazione, l’applicazione debba soltanto ripristinare la visualizzazione oppure se possa anche riprendere il controllo, la coda dei comandi o la sequenza tecnologica. Se questi livelli vengono fusi in uno solo, il progetto finisce di solito con costose eccezioni aggiunte in corsa, procedure manuali di aggiramento oppure con una controversia sulle responsabilità dopo la messa in servizio. Per il manager qui conta una cosa sola: l’assenza di una decisione architetturale esplicita non riduce il rischio, ma lo sposta alla fase di collaudo, assistenza e conformità.

Dal punto di vista operativo, questo significa dover definire, per ogni caso critico, che cosa il sistema deve mantenere dopo un’anomalia e che cosa invece non deve mantenere. Non basta una formula generica come “deve continuare a funzionare dopo la riconnessione”, ma servono regole precise: quali dati vengono ripristinati dalla memoria persistente, quali devono essere confermati dal dispositivo, quali comandi perdono validità allo scadere del tempo previsto e quali richiedono una nuova autorizzazione o una conferma dell’operatore. Un buon criterio decisionale è semplice: se dopo il riavvio non è possibile stabilire in modo univoco se un comando precedente sia stato eseguito, il sistema non dovrebbe rieseguirlo automaticamente. Lo stesso vale per allarmi, contatori di lotto, modalità operative e interblocchi di processo. Una definizione di questo tipo può sembrare un dettaglio progettuale, ma senza di essa aumenta il costo dei test di integrazione, perché ogni ambiguità si ripresenta come un errore difficile da riprodurre. Aumenta anche la responsabilità del proprietario della soluzione, perché in seguito occorre dimostrare che il comportamento dopo la perdita di comunicazione era prevedibile e intenzionale.

Un esempio tipico riguarda un’applicazione che invia al controllore il comando di avvio di un ciclo e poi perde la connessione prima di ricevere la conferma. Se, una volta ristabilito il collegamento, l’applicazione invia di nuovo il comando “per sicurezza”, può avviare il ciclo una seconda volta. Se invece presume che il comando sia stato certamente eseguito, può ricostruire in modo errato lo stato del processo e consentire operazioni successive in una sequenza sbagliata. L’approccio corretto consiste nel progettare comandi e risposte in modo che siano distinguibili nel tempo e identificabili, così che dopo il riavvio sia possibile verificare lo stato reale del dispositivo prima di riprendere la logica applicativa. In questo contesto vale la pena misurare non solo la disponibilità del sistema, ma anche il numero di ripristini di stato ambigui, il numero di interventi manuali dopo il riavvio e il tempo necessario per ripristinare il funzionamento in sicurezza. Sono indicatori che mostrano il costo reale dell’architettura, e non soltanto la comodità per chi sviluppa.

Il confine con l’analisi del rischio emerge quando un ripristino errato dello stato può modificare il comportamento della macchina, della sequenza o dell’attuatore. In questo caso il tema smette di essere esclusivamente informatico ed entra nell’ambito della valutazione pratica del rischio, anche nel senso della metodologia applicata in ISO/TR 14121-2. Se, dopo un’interruzione di alimentazione o il riavvio del dispositivo, esiste la possibilità di una ripresa automatica del movimento, dell’erogazione del fluido, del rilascio di un attuatore oppure del passaggio a una modalità operativa senza il consenso consapevole dell’operatore, il tema riguarda anche la protezione contro l’avviamento inatteso e richiede quindi una valutazione più ampia della sola logica applicativa. Dove sono presenti azionamenti idraulici o pneumatici, si aggiungono inoltre i requisiti costruttivi e il comportamento del sistema in caso di perdita di energia, per cui la decisione progettuale di una ripresa “morbida” del funzionamento non può prescindere dalle condizioni tecniche dell’intero impianto. Dal punto di vista della conformità, l’approccio più sicuro non è dedurre l’intenzione del processo dopo un’anomalia, ma definire in anticipo le condizioni di ritorno al funzionamento e attribuirle a responsabilità precise: applicazione, controllore, sistema di attuazione e operatore.

A cosa prestare attenzione in fase di implementazione

La maggior parte degli errori nell’implementazione di applicazioni industriali resistenti a brevi assenze di rete, riavvii dei dispositivi e perdita di connessione non deriva dalla tecnologia in sé, ma da un’errata attribuzione delle responsabilità. Il team presume che la “robustezza” venga garantita dal livello di comunicazione, dal fornitore cloud o dal controllore, mentre il problema sta nel rapporto tra stato del processo, stato del dispositivo e stato dei dati. Se questi tre livelli non vengono separati già in fase di collaudo, il progetto finisce per produrre un’affidabilità solo apparente: l’applicazione riparte dopo il riavvio, ma nessuno è in grado di dimostrare se abbia ricostruito uno stato corretto, sicuro e coerente con la realtà fisica. Questo incide direttamente sui costi, perché le correzioni successive richiedono di solito modifiche contemporanee alla logica di controllo, all’interfaccia operatore, alla registrazione degli eventi e alle procedure di avviamento. Incide anche sulle responsabilità, perché in caso di incidente è difficile difendere una soluzione nella quale non sia stato definito con chiarezza chi conferma la prontezza alla ripresa del funzionamento e su quale base.

In pratica, la trappola più pericolosa è trattare la perdita di connessione come un normale guasto tecnico, invece che come uno stato operativo distinto del sistema. Se l’applicazione, dopo la perdita della rete, mette in buffer le operazioni e le ripristina una volta recuperata la connessione senza verificare il contesto attuale, può eseguire azioni tardive, non più autorizzate oppure in contrasto con lo stato reale della linea. Un problema analogo si presenta dopo il riavvio del dispositivo: lo stato logico salvato in precedenza può essere formalmente completo, ma fisicamente non più attuale, perché nel frattempo sono cambiati la posizione dell’attuatore, la pressione del fluido, la configurazione della modalità operativa oppure l’intervento del personale. Anche qui un buon criterio decisionale è semplice: se, dopo il ripristino dello stato, il sistema deve eseguire qualsiasi azione che influisca sul processo, occorre prima poter verificarne l’ammissibilità sulla base dei segnali correnti, e non soltanto della cronologia registrata prima dell’anomalia. Se questa verifica non può essere dimostrata, la soluzione più sicura è passare a uno stato che richieda una conferma esplicita o una nuova sincronizzazione.

Un buon esempio è una stazione che, dopo una breve interruzione della comunicazione, perde il collegamento con il sistema di supervisione ma continua comunque a rilevare localmente una parte dei segnali di ingresso. Dal punto di vista del software, può sembrare allettante “completare la sequenza” quando la connessione viene ripristinata, per non perdere tempo ciclo. Il problema emerge quando, durante l’interruzione, l’operatore ha rimosso il pezzo, si è attivata una valvola di scarico, il pannello è stato riavviato oppure l’azionamento è passato a un’altra modalità. Nella logica dell’applicazione tutto può apparire coerente e, nonostante ciò, la ripresa della fase può trasformarsi in un errore tecnologico o in una situazione di pericolo. Per questo, in fase di implementazione, conviene valutare non solo il numero di messaggi persi o il tempo necessario per ristabilire la sessione, ma anche indicatori che mostrano la qualità del comportamento dopo un’anomalia: quante volte il sistema ha richiesto una risincronizzazione manuale, quante operazioni sono state scartate perché non più valide, quanti riavvii si sono conclusi con il passaggio allo stato sicuro invece che con una ripresa automatica. Sono indicatori più affidabili della maturità della soluzione rispetto alla sola disponibilità del servizio, perché mostrano se la robustezza non sia stata ottenuta a scapito del controllo del processo.

Il punto in cui questo tema smette di essere soltanto una questione di architettura applicativa arriva prima di quanto i team di progetto di solito prevedano. Se la perdita di connessione, il riavvio del controllore o il ripristino della coda dei compiti possono influire sul movimento della macchina, sull’alimentazione di energia o sul cambiamento di stato degli attuatori, il tema rientra in una valutazione pratica del rischio. A questo livello non basta più sostenere che la soluzione “di solito funziona correttamente”; serve un’analisi degli scenari di deviazione, anche con una logica vicina all’approccio adottato nella ISO/TR 14121-2. Se inoltre, dopo il ripristino dell’alimentazione o della connettività, esiste la possibilità di una ripresa automatica delle funzioni, il tema riguarda anche la protezione contro l’avviamento inatteso e deve essere esaminato più ampiamente, in relazione alle condizioni di avvio e allo stato di isolamento dell’energia. Dove il sistema comprende circuiti idraulici o pneumatici, non è possibile separare la decisione progettuale dal comportamento dell’impianto dopo la perdita di energia; in questi casi occorre verificare anche i requisiti costruttivi pertinenti all’intero sistema, e non soltanto la correttezza del codice applicativo.

Come progettare applicazioni industriali resilienti a interruzioni temporanee della rete, riavvii dei dispositivi e perdita della connessione?

Perché incide sul modello degli stati della macchina, sulle regole di conferma dei comandi, sulla memorizzazione temporanea dei dati e sulle condizioni di ripresa del funzionamento dopo il riavvio. Rinviare queste decisioni di solito porta a soluzioni tampone costose e al trasferimento del rischio sull’esercizio.

Occorre definire in modo univoco cosa accade in caso di perdita della comunicazione, cosa succede dopo un riavvio e chi autorizza la ripresa del lavoro. Se la risposta dipende solo dall’implementazione o dalla reazione dell’operatore, significa che il rischio non è stato adeguatamente eliminato in fase di progettazione.

Nei casi in cui il sistema non è in grado di dimostrare se un comando sia stato eseguito, interrotto, duplicato o semplicemente registrato nell’interfaccia. Ciò riguarda in particolare le operazioni con effetto fisico, come il movimento dell’azionamento, la modifica di una regolazione, l’apertura di una valvola o la ripresa del ciclo.

Non sempre, perché al ripristino della comunicazione le condizioni del processo possono già essere diverse rispetto al momento in cui è stato impartito il comando. Nell’articolo si sottolinea che alcune operazioni possono essere ripetute senza effetti collaterali, mentre altre richiedono la conferma dello stato attuale dell’impianto oppure la sua messa in sicurezza.

Conviene misurare il numero di riavvii ambigui dopo il restart, il numero di comandi che richiedono una verifica manuale dello stato, il tempo necessario per riprendere il lavoro in sicurezza e i casi in cui il sistema non è in grado di dimostrare se il comando sia stato eseguito. Indicatori di questo tipo rappresentano il rischio reale meglio di una generica valutazione della “stabilità del sistema”.

Condividi: LinkedIn Facebook

Punti chiave:

Dove più spesso aumentano i costi o il rischio

Come affrontare il tema nella pratica

A cosa prestare attenzione in fase di implementazione

Come progettare applicazioni industriali resilienti a interruzioni temporanee della rete, riavvii dei dispositivi e perdita della connessione?

Perché la resilienza alla perdita di connettività va prevista fin dall’inizio?

Quali domande di progettazione sono fondamentali per ogni funzione importante?

Dove si concentra più spesso il rischio maggiore?

Dopo il ripristino della connessione, è possibile ripetere automaticamente i comandi?

Come valutare gli effetti progettuali di tali interferenze?

Related articles (Per ingegnere)

Bollettino tecnico Engineering Shield