Site Recovery w NAKIVO Backup&Replication. Część 1: Planowanie

W ramach korzystania z infrastruktury wirtualnej odzyskiwanie po awarii jest procesem odzyskiwania maszyn wirtualnych i usług na nich uruchomionych w lokacji dodatkowej (zwanej witryną „DR” lub witryną odzyskiwania po awarii), gdy witryna produkcyjna jest niedostępna.

NAKIVO Backup & Replication v8.0 zawiera zaawansowaną funkcję Site Recovery, która umożliwia tworzenie zaawansowanych przepływów pracy odzyskiwania i usuwania awarii całej witryny za pomocą zaledwie kilku kliknięć. Przed utworzeniem przepływu pracy należy jednak ocenić konkretne potrzeby związane z odzyskiwaniem w firmie. Ten artykuł, jako pierwszy z serii, omawia wymagane czynności przy planowaniu odzyskiwania i najlepsze praktyki, zanim wnikniemy głębiej w wykorzystanie nowej funkcji Site Recovery NAKIVO.

Najlepsze praktyki odzyskiwania po awarii

Najważniejsze sprawdzone metody odzyskiwania po awarii obejmują przeprowadzanie analizy wpływu na biznes, ocenę ryzyka i tworzenie dokumentacji odzyskiwania po awarii.

Przeprowadzenie analizy wpływu na biznes

Business Impact Analysis (lub BIA) obejmuje określenie potencjalnego negatywnego wpływu klęsk żywiołowych lub katastrof spowodowanych przez człowieka na działalność gospodarczą. Maszyny wirtualne wykorzystywane w procesach biznesowych mogą zależeć od siebie i mają różny stopień ważności. W związku z tym awaria jednej maszyny wirtualnej może spowodować pewne opóźnienia i niedogodności, natomiast awaria innej maszyny wirtualnej spowoduje całkowite przerwanie operacji o znaczeniu krytycznym.

Na przykład, jeśli maszyna wirtualna, w której działa moduł do śledzenia błędów, nie działa, firma może działać pomimo pewnych niedogodności dla swoich pracowników. Jeśli jednak maszyna wirtualna z produkcyjnym serwerem baz danych zawiedzie, firma nie mogłaby działać i poniosłaby straty finansowe. Przeprowadzenie BIA pomaga określić priorytet, z jakim maszyny wirtualne muszą być odzyskane i jak długo powinien trwać proces odzyskiwania.

Ocena zaistniałych zagrożeń

Przed przystąpieniem do jakichkolwiek działań związanych z planowaniem odzyskiwania, należy zebrać odpowiednie dane i statystyki, aby określić, jakie ryzyko jest największe dla firmy. W niektórych regionach prawdopodobieństwo wystąpienia długoterminowej awarii zasilania lub ataku wirusa jest większe niż w przypadku tornada, ale w innych regionach sytuacja jest odwrotna. Dzięki wynikom oceny ryzyka można określić odpowiedni poziom ochrony przed określonymi zagrożeniami i wymyślić środki minimalizujące ryzyko lub łagodzące konsekwencje. Ryzyka nie można całkowicie wyeliminować, ale firma może być lepiej przygotowana na scenariusze katastrof, które są bardziej prawdopodobne.

Opracowanie dokumentacji odzyskiwania po awarii

Po zidentyfikowaniu zagrożeń i ich potencjalnego wpływu na działalność firmy można lepiej zrozumieć, na czym należy skoncentrować wysiłki w przypadku wystąpienia awarii. Ważne jest, aby dokumentować procedury odzyskiwania, szczegółowo opisując wszystkie niezbędne kroki i środki DR. Przypisywać role i obowiązki członkom zespołu w przypadku katastrofy. Plan odzyskiwania po awarii powinien również obejmować elementy sprzętu i oprogramowania potrzebne do pomyślnego odzyskania. Dokumentacja powinna być regularnie aktualizowana, aby odzwierciedlić wszystkie zmiany dokonane w środowisku.

Proces odzyskiwania jest złożony, obejmuje wiele różnych działań i składników, które można łatwo pominąć, jeśli nie są udokumentowane. Organizacje, które nie opracowały szczegółowych planów odzyskiwania po awarii, częściej doświadczają przestojów i utraty danych. Aby uzyskać szybką reakcję na zdarzenia zakłócające, firma potrzebuje jasnego zrozumienia, od czego zacząć oraz świadomości wszystkich najważniejszych aspektów. W związku z tym odpowiednio opracowana dokumentacja zwiększa szanse na pomyślne odzyskanie danych.

Określanie zakresu odzyskiwania po awarii

Określenie najważniejszych składników, które muszą zostać odzyskane jako pierwsze, może znacznie skrócić czas odzyskiwania. Nie wszystkie maszyny wirtualne w firmowej infrastrukturze są równie ważne. Maszyny wirtualne, w których mieszczą się krytyczne informacje biznesowe, systemy informatyczne i aplikacje, których działanie jest niezbędne do zapewnienia nieprzerwanego świadczenia usług, powinny być priorytetowe. Należy je jak najszybciej odzyskać. Należy ocenić znaczenie każdego komponentu sprzętowego i oprogramowania w swojej infrastrukturze i uwzględnić najbardziej krytyczne elementy w planie odzyskiwania po awarii.

Określanie RTO i RPO

Recovery Time Objective (RTO) i Recovery Point Objective (RPO) to dwie ważne metryki, które należy również opisać w planie odzyskiwania po awarii. Pierwsza określa, ile czasu firma może poświęcić na odzyskanie środków bez ponoszenia niedopuszczalnych strat finansowych. Ten ostatni określa, ile danych firma może utracić, jeśli nastąpi awaria. Innymi słowy, wartość RPO określa, jak często musi być wykonywana kopia zapasowa lub replikacja.

Różne maszyny wirtualne mogą mieć przypisane różne wartości RTO i RPO. Na przykład rozważmy maszyny wirtualne z systemami finansowymi: długie czasy przywracania są niedopuszczalne, a utrata danych jest wyjątkowo szkodliwa. Tym maszynom wirtualnym należy zatem przypisać możliwie najkrótsze RTO i RPO. Maszyny wirtualne używane do przechowywania zarchiwizowanych dokumentów mogą mieć znacznie dłuższe RTO i RPO.

Określanie zależności odzyskiwania po awarii

Zależności i powiązania istnieją między pracownikami, a komponentami IT infrastruktury wirtualnej. Zależności te powinny być starannie ocenione, ponieważ nawet jedno brakujące ogniwo w łańcuchu zależności może prowadzić do druzgocących konsekwencji.

Porządek odzyskiwania VM

W dowolnej infrastrukturze poszczególne maszyny wirtualne mogą być zależne od oprogramowania lub informacji przechowywanych przez inną maszynę wirtualną, co oznacza, że nie mogą działać oddzielnie lub mogą być uruchamiane losowo. Na przykład maszyna wirtualna z kontrolerem domeny Active Directory musi być uruchomiona, zanim będzie można uruchomić maszynę wirtualną przy użyciu serwera plików korzystającego z uwierzytelniania Active Directory.

Usługi internetowe często polegają na oprogramowaniu zainstalowanym na kilku różnych maszynach wirtualnych. Na przykład może zaistnieć potrzeba wykonania nastęującej sekwencji:

Maszyna wirtualna z serwerem bazy danych powinna być uruchomiona jako pierwsza.
Następnie można uruchomić maszynę wirtualną z serwerem aplikacji.
Dopiero wtedy można uruchomić maszynę wirtualną z serwerem WWW.

Dzięki ustalonemu wcześniej porządkowi odzyskiwania można skrócić jego czas, zapewnić sprawny proces odzyskiwania i wyeliminować ryzyko konfliktów oprogramowania w infrastrukturze w witrynie DR.

Wymagania oraz zależności związane z personelem

Podczas określania łańcucha zależności należy również wziąć pod uwagę personel. Na przykład maszyna wirtualna używana przez dział księgowości może wymagać odzyskania najpierw, jeśli pracownicy innych działów będą zależni od tych operacji finansowych.

Jeżeli chcemy, aby nasi pracownicy pracowali nad planem DR, należy się upewnić, że są tam zainstalowane stanowiska pracy z pełnym wyposażeniem, meblami biurowymi i sprzętem komputerowym, tak aby pracownicy mogli kontynuować swoją pracę w celu wspierania działań biznesowych przy minimalnych przerwach w pracy. Jeśli pracownicy mogą pracować zdalnie z domu lub innego miejsca, należy skonfigurować dostęp do sieci VPN i z wyprzedzeniem udostępnić im konta VPN.

Aby zidentyfikować wszystkie te zależności należy pracować ze swoim personelem i uwzględnić je w opracowywaniu planu odzyskiwania po awarii. W przeciwnym razie cała procedura odzyskiwania może być podatna na niepowodzenie.

Określanie wymagań sprzętowych

Sukces planu DR zależy w dużej mierze od wydajności i możliwości sprzętu znajdującego się w witrynie DR. Należy wziąć pod uwagę kilka czynników. Serwery muszą mieć wystarczającą pojemność procesora, pamięci i dysku, aby utrzymać przeniesione obciążenia. Niska wydajność procesora i niewystarczająca ilość pamięci mogą wpływać na szybkość maszyn wirtualnych, a niewystarczająca szybkość dysku powoduje niską wydajność maszyny wirtualnej. Sieci muszą zapewniać wystarczającą przepustowość dla odzyskanych maszyn wirtualnych do współdziałania ze sobą ze współużytkowaną pamięcią masową oraz z użytkownikami, jeśli to konieczne.

Wniosek

Planowanie jest niezbędnym krokiem do skutecznego odzyskiwania po awarii. Każda firma chce być dobrze przygotowana na katastrofy i może złagodzić jej konsekwencje. Aby to osiągnąć, należy ocenić swoje potrzeby związane z odzyskiwaniem, rozwijając pełne zrozumienie, jakie składniki, kroki i procedury powinny być zawarte w naszym planie odzyskiwania. W tym artykule zostały omówione podstawy takiej oceny, a także najlepsze praktyki dotyczące planowania odzyskiwania po awarii. Kolejny artykuł z tej serii obejmie przygotowanie infrastruktury do odzyskiwania za pomocą narzędzia Site Recovery w NAKIVO Backup & Replication.

[simple-author-box]