STATUS
6 lutego 2017 21:50

Niedostępność serwera s10

[Update 09:00] 09.02

Serwer działa poprawnie, cały czas monitorujemy jego pracę. W razie zauważenia jakichkolwiek nieprawidłowości prosimy o kontakt z BOK. 

[Update 00:00]

Wszelkie aktualnie dostępne dane zostały odzyskane z godzin popołudniowych dnia odnotowania awarii. Obecnie trwa jeszcze uruchomiony równolegle proces odzyskiwanie danych z uszkodzonej macierzy RAID – proces ten powienien zakończyć się najpóźniej do piątku. Po jego zakończeniu dysponować będziemy wszelkimi danymi z czasu wystąpienia problemu z klastrem s10 – w razie potrzeby możliwe będzie uzupełnienie brakujących plików lub przywrócenie baz danych.

[Update 23:53]

Aktualnie zostało zakończone przywracanie baz danych, weryfikujemy działanie klastra. Prosimy również o weryfikacje z Państwa strony.

[Update 18:15]

Uprzejmie informujemy, że kopiowanie plików z kopii zapasowych na klastrze s10 dobiegło końca. W chwili obecnej przywracane są kopie bazy danych – proces ten zostanie ukończony w ciągu około 4 godzin.

[Update 10:11]

Na chwilę obecną czas przywrócenia kopii to okolice godziny 18:00.

Rekompensaty: w odpowiedzi na zapytania informujemy, że już wystawione faktury zostały anulowane, a wszystkie konta przedłużone o 3 miesiące. 

[Update 21:52]

Oba procesy obecnie zwolniły znacząco na tyle, że czas szybszego to dodatkowe 18 godzin. Staramy się skopiować część danych aby wycisnąć tyle ile się da z tej sytuacji gdzie jedyne rozwiązanie to oczekiwanie na zakończenie obecnych zadań.

[Update 13:46]

W chwili obecnej prowadzimy równolegle proces odbudowy RAID oraz przywracania danych na nowy serwer. Niestety ze względu na ogromną ilość danych, oba procesy mogą potrwać jeszcze do kilkunastu godzin.
Pomimo kontaktu z producentem sprzętu, w związku z wrażliwością danych nie mamy możliwości znaczących ingerencji w procesy.

Główna przyczyna wystąpienia problemu została zidentyfikowana, co pozwoliło przygotować plan poprawek w infrastrukturze tak, aby podobna sytuacja nigdy już nie nastapiła.


[Update 02:04]

Przyczyną zaistniałych problemów jest awaria kontrolera RAID jednego z serwerów, który odpowiada za dane przechowywane w klastrze s10. Jako, że jest to poważna awaria sprzętowa, nasz zespół administratorów musi przywrócić dane z zewnętrznych serwerów backupowych – operacja ta jest niestety dosyć czasochłonna i może potrwać nawet kilkanaście godzin. Zapewniamy jednak, że wszystkie dane klientów są bezpieczne. Za wszelkie niedogodności serdecznie przepraszamy.


Dzisiaj po godzinie 20:00 klaster s10 zaczął zwracać szereg losowych błędów.

Wymagana była natychmiastowa diagnostyka i wyłączenie połączeń sieciowych.

Przyczyną okazały się błędy w macierzy dyskowej, które wcześniej nie były raportowane. Obecnie kończą się prace mające w 100% przywrócić usługi do sprawności.

Przepraszamy za utrudnienia i prosimy o jeszcze chwilę cierpliwości