Μπλακ άουτ στο FIR: Ηχηρές κριτικές παρατηρήσεις για το πόρισμα από την Ένωση Πληροφορικών Ελλάδας
✨Το τελικό πόρισμα της επιτροπής για την αναστολή λειτουργίας του FIR Αθηνών δεν έλαβε την προσοχή που ίσως του άξιζε.
✨Η Ένωση Πληροφορικών Ελλάδας ανέλυσε το πόρισμα και εξέφρασε επιφυλάξεις για την ουσία και τις διατυπώσεις του.
✨Η έλλειψη αρχείων καταγραφής και ιχνηλάτησης σφαλμάτων καθιστά αδύνατη την ακριβή ανάλυση των αιτίων του συμβάντος.
✨Η Ένωση προειδοποιεί για τη μεγάλη ευαλωτότητα του συστήματος και ζητά προληπτικές ενέργειες για την αποφυγή σοβαρών προβλημάτων στο μέλλον.
To τελικό πόρισμα της επιτροπής που συστάθηκε για τη διερεύνηση του περιστατικού της αναστολής λειτουργίας του FIR Aθηνών στις 4 Ιανουαρίου δεν πήρε στον Τύπο τη θέση που ίσως θα του άξιζε. Η Ενωση Πληροφορικών Ελλάδας όμως όχι μόνο το ανέλυσε ενδελεχώς αλλά κατέληξε σε συμπεράσματα τα οποία υπογραμμίζουν τα προβλήματα στο ηλεκτρονικό σύστημα του ελέγχου της εναέριας κυκλοφορίας και εκφράζουν, πάντα με διακριτικότητα, επιφυλάξεις όχι μόνο για τις διατυπώσεις αλλά και για την ουσία του πορίσματος.
Ας επικεντρωθούμε στις πιο σημαντικές παρατηρήσεις της Ενωσης που αν και αρκετά τεχνικές κάποιες φορές, παρουσιάζουν ξεχωριστό ενδιαφέρον.
Στο 4ο συμπέρασμά της η Ενωση παρατηρεί (παραθέτοντας αποσπάσματα του πορίσματος): “Περιλαμβάνεται η υλοποίηση εναλλακτικών δρομολογήσεων με σκοπό την εξασφάλιση υψηλής διαθεσιμότητας στις παρεχόμενες υπηρεσίες (…) Ο εξοπλισμός της ΥΠΑ, καθώς και αυτός του ΟΤΕ που χρησιμοποιείται από την ΥΠΑ, δεν υποστηρίζονται πλέον από τους κατασκευαστές τους, οπότε και είναι αδύνατη η παροχή οποιονδήποτε εγγυήσεων για τη λειτουργία τους.”
– Η συγκεκριμένη περιγραφή είναι αντιφατική. Κανένα πληροφοριακό ή τηλεπικοινωνιακό σύστημα δεν μπορεί να έχει ταυτόχρονα “υψηλή διαθεσιμότητα” και “αδυναμία οποιονδήποτε εγγυήσεων για τη λειτουργία του”. Επίσης, οι συγκεκριμένες διαπιστώσεις επάρκειας ή μη δεν αφορούν συγκεκριμένα περιστατικά βλαβών, πρέπει να βασίζονται σε τακτικούς ελέγχους, τεχνικές εκθέσεις και πλάνα εκτίμησης-διαχείρισης ρίσκου σε βάθος χρόνου κατά την κανονική λειτουργία τους.
Στο 6ο συμπέρασμα αναφέρονται τα εξής: “Να σημειωθεί ότι ο αποσυγχρονισμός διατάξεων/διεπαφών όπως αυτές που χρησιμοποιεί η ΥΠΑ μπορεί να προκληθεί από πληθώρα λόγων (αστάθεια υλικού, δυσλειτουργία ρολογιού χρονισμού, θερμικές παρενέργειες, βυθίσεις τροφοδοσίας κ.α.). Η έλλειψη αρχείων καταγραφής λειτουργίας και ιχνηλάτησης σφαλμάτων κάνει αδύνατο τον εκ των υστέρων ακριβή προσδιορισμό”.
– Παρότι όπως φαίνεται είναι γνωστό ότι το σύστημα πάσχει από αστάθειες που μπορούν να προκαλέσουν σημαντικά προβλήματα σε κρίσιμες λειτουργίες του, η επιτροπή διαπιστώνει την έλλειψη αρχείων καταγραφής και κατά συνέπεια αδυναμία πλήρους ανάλυσης των αιτίων του συμβάντος σε λεπτομερέστερο τεχνικό επίπεδο.
Στο 7ο: “Κατά την διάρκεια της αντιμετώπισης του περιστατικού, διαπιστώνεται ότι υπήρξε καθυστέρηση της ανίχνευσης της δυσλειτουργίας των τηλεπικοινωνιακών διεπαφών/διατάξεων. Αυτό οφείλεται αφενός στην έλλειψη από άκρη σε άκρη (end to end) τηλεμετρίας και ιχνηλάτησης σφαλμάτων των κυκλωμάτων και του γεγονότος ότι το κέντρο λειτουργίας δικτύου του ΟΤΕ έβλεπε τα κυκλώματα αυτά ως λειτουργικά και αφετέρου στη μακράν του βέλτιστου συνεργασία μεταξύ των τεχνικών της ΥΠΑ και αυτών του ΟΤΕ”
– Η πρώτη διαπίστωση, αυτή της καθυστέρησης της ανίχνευσης του προβλήματος λόγω έλλειψης τηλεμετρίας, είναι κάτι που σαφέστατα δεν είναι αποδεκτό σε κανένα σύγχρονο σύστημα παρόμοιας κατηγορίας.
– Η δεύτερη διαπίστωση καταδεικνύει ότι, επιπλέον, η ανίχνευση και η επιδιόρθωση σφαλμάτων λειτουργίας επαφίεται στην καλή συνεργασία φορέων και διαφορετικών τεχνικών ομάδων μεταξύ τους, κάτι που επίσης δεν είναι αποδεκτό στα σύγχρονα safety-critical συστήματα. Σε καμία περίπτωση η ορθή λειτουργία δεν πρέπει να εξαρτάται από την καλή θέληση ή πρόθεση κανενός τεχνικού ή διοικητικού προσώπου.
- Σε αυτό το συμπέρασμα η Ενωση κάνει ίσως την πιο “ευθεία” κριτική τόσο στην “ποιότητα” του πορίσματος όσο και στην κατάσταση εν γένει η οποία, εμμέσως, πλην σαφώς, χαρακτηρίζεται απαράδεκτη.
Και στο 9ο: “Να εξεταστεί αν η σημερινή αρχιτεκτονική του συστήματος επιδέχεται βελτιώσεις με καλύτερη κατανομή των πομπών και δεκτών στους υπάρχοντες τηλεπικοινωνιακούς πόρους και να εξεταστεί αν μπορεί να αυξηθεί η διαθεσιμότητα του συστήματος με επιπλέον τηλεπικοινωνιακούς πόρους.” – Κρίνοντας εκ του αποτελέσματος, η αρχιτεκτονική και η συνολική λειτουργία του τηλεπικοινωνιακού πληροφοριακού συστήματος χαρακτηρίζεται από εξαιρετικά μεγάλο ρίσκο “μεμονωμένου σημείου κατάρρευσης” (Single Point of Failure – SOF).
Σύμφωνα με τις βασικές αρχές σχεδίασης συστημάτων υψηλής ανθεκτικότητας, θα έπρεπε να υπάρχουν μέσα και διαδικασίες κατανομής σε εναλλακτικά κέντρα και υποσυστήματα, τόσο σε τεχνικό όσο και σε διοικητικό επίπεδο, καθώς και αυτόματη μετάπτωση σε αυτά όταν χρειαστεί (automatic failover).
Ανεξάρτητα από τα διαπιστωμένα προβλήματα λόγω παρωχημένης τεχνολογικής υποδομής, το σύστημα συνολικά αποδεικνύεται εξαιρετικά ευάλωτο σε τυχόν αστοχίες υλικού ή πρωτοκόλλων τηλεπικοινωνίας σε κάποια κρίσιμη μονάδα. Πρακτικά, δεν πρέπει σε καμία περίπτωση να επιτρέπεται παρόμοια ολική κατάρρευση του συστήματος λόγω αστοχίας οποιουδήποτε μεμονωμένου υποσυστήματος.
Παρωχημένη τεχνολογική υποδομή… Το σύστημα αποδεικνύεται εξαιρετικά ευάλωτο σε τυχόν αστοχίες υλικού…
Τι άλλο να προσθέσεις κανείς για να καταδείξει το μέγεθος του προβλήματος…
Και όπως λέει στο τέλος η Ενωση Πληροφορικών: “Καταλαβαίνουμε άλλωστε όλοι ότι θα πρέπει οι απαραίτητες ενέργειες να προλαμβάνουν και όχι απλά να διαπιστώνουν παρόμοια σοβαρά προβλήματα”.
Καλές οι διαπιστώσεις, καλύτερες οι λύσεις των προβλημάτων…