Το GitHub αποκαλύπτει τον λόγο πίσω από τη σειρά διακοπών της περασμένης εβδομάδας
Ο Chief Security Officer του GitHub και ο SVP of Engineering μοιράστηκαν περισσότερες λεπτομέρειες σήμερα για μια σειρά διακοπών που έπληξαν την πλατφόρμα φιλοξενίας κώδικα την περασμένη εβδομάδα.
Αν και αυτά τα περιστατικά είχαν άσχετα βασικά αίτια, επηρέασαν τις περισσότερες από τις κύριες υπηρεσίες του GitHub από τις 9 Μαΐου έως τις 11 Μαΐου, προκαλώντας εκτεταμένες αποτυχίες σύνδεσης στη βάση δεδομένων και ελέγχου ταυτότητας για έως και δέκα ώρες.
“Την περασμένη εβδομάδα, το GitHub αντιμετώπισε πολλά περιστατικά διαθεσιμότητας, τόσο μεγάλης διάρκειας όσο και μικρότερης διάρκειας. Έκτοτε έχουμε μετριάσει αυτά τα περιστατικά και όλα τα συστήματα λειτουργούν πλέον κανονικά”, δήλωσε ο Hanley.
“Οι βαθύτερες αιτίες για αυτά τα περιστατικά ήταν άσχετες, αλλά συνολικά, επηρέασαν αρνητικά τις υπηρεσίες που εμπιστεύονται οι οργανισμοί και οι προγραμματιστές να παρέχει το GitHub. Αυτό δεν είναι αποδεκτό ούτε το πρότυπο που τηρούμε.”
Στις 9 Μαΐου, οκτώ κύριες υπηρεσίες επλήγησαν από μια μεγάλη διακοπή λειτουργίας που προκλήθηκε από μια αλλαγή διαμόρφωσης στην εσωτερική υπηρεσία του GitHub που εξυπηρετεί δεδομένα Git.
Η δεύτερη διακοπή, που έλαβε χώρα στις 10 Μαΐου, επηρέασε την έκδοση των διακριτικών ελέγχου ταυτότητας για τις Εφαρμογές GitHub και προέκυψε από τον υψηλό φόρτο και την αναποτελεσματική εφαρμογή ενός API που είναι υπεύθυνο για τη διαχείριση των αδειών εφαρμογής GitHub.
“Στις 10 Μαΐου, το σύμπλεγμα βάσεων δεδομένων που εξυπηρετούσε διακριτικά ελέγχου ταυτότητας GitHub App σημείωσε αύξηση 7 φορές στον λανθάνοντα χρόνο εγγραφής για τα δικαιώματα εφαρμογής GitHub (κίτρινη κατάσταση)”
εξήγησε ο Χάνλεϊ
.
“Το ποσοστό αποτυχίας αυτών των αιτημάτων διακριτικού ελέγχου ταυτότητας ήταν 8-15% για το μεγαλύτερο μέρος αυτού του περιστατικού, αλλά κορυφώθηκε στο 76% τοις εκατό για σύντομο χρονικό διάστημα.”
Η τρίτη διακοπή του GitHub που αντιμετώπισαν οι χρήστες την περασμένη εβδομάδα, στις 11 Μαΐου, οφειλόταν σε απώλεια αναγνωσμένων αντιγράφων μετά από πτώση ενός συμπλέγματος βάσης δεδομένων που εξυπηρετούσε δεδομένα Git και ενεργοποίησε έναν αυτοματοποιημένο μηχανισμό ανακατεύθυνσης.

Ιστορικό περιστατικών (GitHub)
”Αντιμετωπίζουμε τη συντριβή της βάσης δεδομένων Git που έχει προκαλέσει περισσότερα από ένα περιστατικά σε αυτό το σημείο. Αυτή η εργασία ήταν ήδη σε εξέλιξη και θα συνεχίσουμε να την ιεραρχούμε”, είπε ο Hanley.
“Αντιμετωπίζουμε ζητήματα ανακατεύθυνσης της βάσης δεδομένων για να διασφαλίσουμε ότι τα failover ανακτώνται πάντα πλήρως χωρίς παρέμβαση.”
Το GitHub θα μοιραστεί πιο λεπτομερείς πληροφορίες σχετικά με αυτές τις διακοπές λειτουργίας και τι κάνει για να αντιμετωπίσει τα προβλήματα που τις προκάλεσαν τον Μάιο του
Αναφορά διαθεσιμότητας
.
«Η αναφορά του Μαΐου θα περιλαμβάνει αυτά τα περιστατικά και κάθε περαιτέρω λεπτομέρεια που έχουμε για αυτά, μαζί με μια γενική ενημέρωση σχετικά με την πρόοδο προς την αύξηση της διαθεσιμότητας του GitHub», είπε ο Hanley.
Το GitHub επηρεάστηκε επίσης από πολλαπλές διακοπές λειτουργίας μέσα σε μια εβδομάδα τον Μάρτιο του 2022, όταν η εταιρεία αποκάλυψε ότι τα περιστατικά προκλήθηκαν από ζητήματα διαμάχης πόρων στο πρωτεύον σύμπλεγμα βάσεων δεδομένων της πλατφόρμας.
Μια άλλη σημαντική διακοπή λειτουργίας επηρέασε το GitHub τον Φεβρουάριο του 2022, όταν η πλατφόρμα ήταν εκτός λειτουργίας παγκοσμίως, εμποδίζοντας την πρόσβαση στον ιστότοπο και μπλοκάροντας δεσμεύσεις, κλωνοποιήσεις ή προσπάθειες έλξης.


