Niedostępność serwera s10
[Update 09:00] 09.02
Serwer działa poprawnie, cały czas monitorujemy jego pracę. W razie zauważenia jakichkolwiek nieprawidłowości prosimy o kontakt z BOK.
[Update 00:00]
Wszelkie aktualnie dostępne dane zostały odzyskane z godzin popołudniowych dnia odnotowania awarii. Obecnie trwa jeszcze uruchomiony równolegle proces odzyskiwanie danych z uszkodzonej macierzy RAID – proces ten powienien zakończyć się najpóźniej do piątku. Po jego zakończeniu dysponować będziemy wszelkimi danymi z czasu wystąpienia problemu z klastrem s10 – w razie potrzeby możliwe będzie uzupełnienie brakujących plików lub przywrócenie baz danych.
[Update 23:53]
Aktualnie zostało zakończone przywracanie baz danych, weryfikujemy działanie klastra. Prosimy również o weryfikacje z Państwa strony.
[Update 18:15]
Uprzejmie informujemy, że kopiowanie plików z kopii zapasowych na klastrze s10 dobiegło końca. W chwili obecnej przywracane są kopie bazy danych – proces ten zostanie ukończony w ciągu około 4 godzin.
[Update 10:11]
Na chwilę obecną czas przywrócenia kopii to okolice godziny 18:00.
Rekompensaty: w odpowiedzi na zapytania informujemy, że już wystawione faktury zostały anulowane, a wszystkie konta przedłużone o 3 miesiące.
[Update 21:52]
Oba procesy obecnie zwolniły znacząco na tyle, że czas szybszego to dodatkowe 18 godzin. Staramy się skopiować część danych aby wycisnąć tyle ile się da z tej sytuacji gdzie jedyne rozwiązanie to oczekiwanie na zakończenie obecnych zadań.
[Update 13:46]
W chwili obecnej prowadzimy równolegle proces odbudowy RAID oraz przywracania danych na nowy serwer. Niestety ze względu na ogromną ilość danych, oba procesy mogą potrwać jeszcze do kilkunastu godzin.
Pomimo kontaktu z producentem sprzętu, w związku z wrażliwością danych nie mamy możliwości znaczących ingerencji w procesy.
Główna przyczyna wystąpienia problemu została zidentyfikowana, co pozwoliło przygotować plan poprawek w infrastrukturze tak, aby podobna sytuacja nigdy już nie nastapiła.
[Update 02:04]
Przyczyną zaistniałych problemów jest awaria kontrolera RAID jednego z serwerów, który odpowiada za dane przechowywane w klastrze s10. Jako, że jest to poważna awaria sprzętowa, nasz zespół administratorów musi przywrócić dane z zewnętrznych serwerów backupowych – operacja ta jest niestety dosyć czasochłonna i może potrwać nawet kilkanaście godzin. Zapewniamy jednak, że wszystkie dane klientów są bezpieczne. Za wszelkie niedogodności serdecznie przepraszamy.
Dzisiaj po godzinie 20:00 klaster s10 zaczął zwracać szereg losowych błędów.
Wymagana była natychmiastowa diagnostyka i wyłączenie połączeń sieciowych.
Przyczyną okazały się błędy w macierzy dyskowej, które wcześniej nie były raportowane. Obecnie kończą się prace mające w 100% przywrócić usługi do sprawności.
Przepraszamy za utrudnienia i prosimy o jeszcze chwilę cierpliwości