Plan odzyskiwania po awarii [DRP]

Plan odzyskiwania po awarii [Disaster Recovery Plan] jest to udokumentowany proces lub zestaw procedur, które należy wykonać w celu przywrócenia do działania wszystkich usług, które przestały działać poprawnie z powodu awarii sprzętu lub w wyniku działań człowieka.

Wstęp

Opisany poniżej DRP jest dedykowany dla organizacji, które mają wykupioną usługę hostingu lub serwera VPS w chmurze producenta YetiForce. Plan odzyskiwania po awarii jest uniwersalny i może mieć również zastosowanie dla innych środowisk o zbliżonej architekturze rozwiązania. Niniejszy DRP został podzielony na etapy, w celu łatwiejszego poruszania się po dokumencie i uporządkowania działań zgodnie z harmonogramem planu.

Etap I - Uzyskaj autoryzację i zaangażowanie

Pierwszym, a jednocześnie najważniejszym krokiem, jest zaangażowanie wszystkich obszarów biznesowych oraz koniecznych poziomów zarządzania, co pozwoli na sprawne przeprowadzenie planu odzyskiwania po awarii. Kluczowe decyzje mogą być wtedy podejmowane dynamiczne, aby maksymalnie skrócić czas potrzebny na przywrócenie wszystkich usług do poprawnego działania. Wszystkie osoby zaangażowane w DRP powinny dysponować czasem, wiedzą i zasobami koniecznymi do realizacji zadań, które zostaną im wyznaczone.

Powołanie zespołów

Dla sprawnego przeprowadzenia planu odzyskiwania po awarii zalecamy utworzenie przynajmniej dwóch zespołów, przy czym zespoły te mogą być dynamiczne tzn. osoby mogą być dodawane, bądź wyłączane z zespołu jeżeli nie ma konieczności ich stałego zaangażowania:

  • Komitet sterujący - zespół osób, które podejmują kluczowe decyzje, zarządzają czasem, przydzielają zasoby a co najważniejsze sprawują nadzór na realizacją planu. W sytuacji gdy sprawa dotyczy usług świadczonych w chmurze YetiForce polecamy zaangażowanie osób pełniących następujące funkcje:
    • Osoba koordynująca RDP w zespole komitetu sterującego
    • Kierownik IT ze strony Biznesu
    • Kierownik IT ze strony YetiForce [o ile YetiForce świadczy usługę SLA]
    • Kierownik IT ze strony Dostawcy [o ile awaria dotyczy problemu na warstwie sprzętu lub sieci]
  • Grupa robocza - zespół osób o kompetencjach, odpowiadających realizacji zadań na każdym etapie DRP. Poniżej przedstawiamy najważniejsze osoby/role, które mogą być niezbędne do prawidłowego wykonania planu [poszczególne role mogą być łączone, o ile osoba ta posiada odpowiednie kompetencje]:
    • Osoba koordynująca RDP w zespole grupy roboczej
    • Administrator sieci - o ile problem dotyczy warstwy sieciowej
    • Administrator wirtualizacji - o ile problem dotyczy warstwy wirtualizacji
    • Administrator systemu operacyjnego - o ile problem dotyczy warstwy systemu operacyjnego
    • Administrator bazy danych - o ile problem dotyczy warstwy bazy danych
    • Administrator aplikacji - o ile problem dotyczy konfiguracji aplikacji YetiForce
    • Programista aplikacji - o ile problem dotyczy błędów aplikacji YetiForce
    • Programista baz danych - o ile problem dotyczy błędów aplikacji na warstwie bazy danych
    • Tester aplikacji - konieczny do testowania działania usług

Zebranie podstawowych informacji dotyczących dokumentacji

Zebranie podstawowych informacji dotyczących awarii, jest kluczowe do podejmowania pierwszych decyzji i określenie priorytetów, dlatego przed przejściem do etapu drugiego, należy odpowiedzieć sobie na następujące pytania:

  • Czy komitet sterujący zapoznał się z niniejszym dokumetem DRP oraz dokumentami powiązanymi? Jeżeli nie, wówczas należy przekazać wszystkim osobom w komitecie sterującym plan odzyskiwania po awarii oraz inne istotne dokumenty [np. raporty końcowe z poprzednich awarii].
  • Czy przekazany dokument DRP jest w najnowszej wersji i przeznaczony dla usług, które uległy awarii?
  • Czy w przeszłości wystąpiła podobna awaria, jeżeli tak, to czy można zaangażować osoby z poprzedniego komitetu sterującego lub czy można uzyskać stałe wsparcie merytoryczne od osób biorących udział w poprzednim planie odzyskiwania po awarii? 

Zebranie podstawowych informacji dotyczących awarii

Aby sprawnie przejść przez plan odzyskiwania po awarii należy w pierwszej kolejności odpowiedzieć sobie na następujące pytania:

  • Które usługi uległy awarii?
  • Na jakiej warstwie nastąpiła awaria?
  • Czy w grupie roboczej mamy osoby odpowiedzialne za świadczenie wsparcia dla usług mających awarię?
  • Czy osoby świadczące wsparcie dla usług które uległy awarii mają odpowiednie dostępy? Jeżeli nie, to kto może takich dostępów udzielić? 
  • Czy w przeszłości zdarzały się podobne awarie, jeżeli tak, to czy istnieje raport z tych awarii?

Etap 2 - określ zadania i nadaj im priorytety

Etap ten jest najtrudniejszy, ponieważ wymaga specjalistycznej wiedzy i najczęściej wymusza współpracę różnych osób w zespole roboczym. Jest to również etap w którym wszystkie zespoły muszą ze sobą intensywnie współpracować, ponieważ decyzje podejmowane w zespole Komitetu sterującego w dużej mierze zależą od informacji dostarczanych przez zespół Grupy roboczej. Poniżej przedstawiliśmy listę najważniejszych zadań, które najczęściej są realizowane w przypadku DRP dla aplikacji YetiForce:

  1. Zidentyfikuj wszystkie usługi, które nie działają w sposób prawidłowy.
    1. Określ które usługi mają wyższy priorytet i na tej podstawie zaplanuj kolejność odzyskiwania usług.
    2. Określ wpływ niedziałającej usługi na biznes i poinformuj klienta o skutkach i konsekwencjach związanych z awarią.
    3. Określ czy, któraś z usług utraciła dane, które należy odzyskać w ramach procedury przywracania z archiwum danych.
    4. Przydziel osoby z grupy roboczej, które będą odpowiedzialne za odzyskanie/przywrócenie poszczególnych usług.
    5. Oszacuj czas konieczny do przywrócenia każdej usługi. 
    6. Zapewnij niezbędne dostępy oraz zasoby konieczne do odzyskania/przywrócenia usług.
  2. Zaplanuj konieczne zadania, które należy wykonać aby odzyskać usługi.
    1. Przydziel zadania dla wszystkich osób w grupie roboczej.
    2. Określ metodologię techniczną dla każdego zadania:
      • Czy zadanie obejmuje tylko odzyskanie czy również zapobiegnięcie ryzyku?
      • Czy odzyskanie wymaga innego sprzętu, lokalizacji, infrastruktury?
      • Czy dla zadania należy opracować kosztorys i harmonogram?
    3. Wyznacz osoby odpowiedzialne za weryfikację i odbiór zadań.
    4. Zapewnij niezbędną komunikację pomiędzy osobami w poszczególnych zespołach.
    5. Dopilnuj aby każda osoba realizująca zadanie przygotowała raport, w którym jest opisana przyczyna awarii oraz sposób obejścia/rozwiązania, który został zastosowany a także zalecenia na przyszłość. 

Etap 3 - Wyciąganie wniosków i planowanie zmian

To bardzo ważny etap, w którym nie tylko możemy przeanalizować dokładnie co było problemem, co lub kto zawinił czy też jaka usługa nie jest świadczona na wystarczająco wysokim poziomie, ale przede wszystkim możemy zaplanować kolejne działania, które pozwolą w przyszłości eliminować podobne awarie lub minimalizować ryzyko ich wystąpienia.

  1. Zaplanuj konieczne zadania, które należy wdrożyć po odzyskaniu wszystkich usług
    • Stwórz raport końcowy, który jest sumą wszystkich raportów cząstkowych dostarczanych podczas realizacji zadań. 
    • Zadecyduj, czy należy dokonać modyfikacji istniejących procedur lub zoptymalizować działanie usług, tak aby wyeliminować lub zmniejszyć ryzyko wystąpienia podobnej awarii.
    • Zastanów się, czy ta usługa wymaga wdrożenia wyższego poziomu HA (High Availability) lub wyeliminowania SPOF (Single Point of Failure).
    • Wykonaj niezbędne szkolenia, które pozwolą podnieść konieczne kompetencje w innych zespołach.

Podsumowanie

Każdy klient, który ma podpisaną umowę wsparcia z producentem [YetiForce Sp. z o.o.], może zgłaszać awarię bezpośrednio na adres mailowy Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript. co spowoduje uruchomienie wewnętrznych działań koniecznych do odzyskania usług. W przypadku posiadania hostingu lub VPS w infrastrukturze producenta, wszystkie zadania są realizowane przez zespoły YetiForce a klient może przystąpić bezpośrednio do zespołu Komitetu sterującego jako przedstawiciel biznesu i może podejmować kluczowe decyzje w planie odzyskiwania po awarii.

  • środa, 08 lipiec 2020