Poprzedni artykuł z naszej serii o odzyskiwaniu lokalizacji wyjaśnił utworzenie logicznego procesu odzyskiwania danych po awarii i podał instrukcję konfiguracji zadania przywracania lokalizacji. Po utworzeniu planu przywracania odzyskiwania danych po awarii i skonfigurowaniu odpowiednich zadań przywracania lokalizacji nie możemy zapomnieć o ich przetestowaniu. Testowanie pomaga upewnić się, że jesteśmy gotowi do odzyskania po wystąpieniu awarii i że wszystkie wybrane komponenty można odzyskać pomyślnie w odpowiednim czasie. NAKIVO Backup & Replication zapewnia opcję testowania dla zadań Site Recovery, tj. można uruchomić dowolne zadanie Site Recovery w trybie testowym.
Testowanie zadania Site Recovery jest ważną częścią przygotowywania do odzyskiwania po awarii. Zwiększa prawdopodobieństwo szybkiego i pomyślnego powrotu w przypadku katastrofy.
Testy są potrzebne następujących powodów:
- Aby upewnić się, że wszystko można odzyskać pomyślnie. Załóżmy, że opracowaliśmy plan odzyskiwania danych po awarii, a następnie odpowiednio skonfigurowaliśmy zadanie przywracania lokalizacji, ale go nie przetestowaliśmy. Może to spowodować następujący scenariusz: gdy nastąpi awaria i nadejdzie czas na uruchomienie zadania odzyskiwania lokalizacji, zadanie się nie powiedzie i nie będzie można odzyskać niektórych maszyn wirtualnych. Wymagałoby to znacznie więcej czasu na przywrócenie funkcjonalności infrastruktury wirtualnej (np. konieczne może być przywrócenie kopii zapasowych i ręczne wdrożenie wprowadzonych zmian). Kiedy testujemy swój plan Site Recovery i odkryjemy, że coś idzie nie tak, możemy rozwiązać problemy, zanim spowodują one poważne problemy w prawdziwym scenariuszu kryzysu.
Aby upewnić się, że wartości RTO mogą zostać spełnione. Zadanie Site Recovery może zakończyć się pomyślnie, ale w czasie przekraczającym wartość docelową RTO (czas odzyskiwania). Może to mieć negatywny wpływ na procesy biznesowe. Testowanie zadania Site Recovery pozwala sprawdzić, czy obciążenia mogą zostać odzyskane w odpowiednich RTO. Test odzyskiwania lokalizacji można uruchomić ręcznie na żądanie lub automatycznie, zgodnie z harmonogramem, co sprawia, że proces jest bezbolesny i oszczędza czas.
Działanie przełączania awaryjnego ma kluczowe znaczenie dla większości przepływów pracy odzyskiwania lokalizacji. Mechanizm wykonywania pracy awaryjnej różni się w zależności od tego, czy zadanie Site Recovery jest uruchamiane w trybie testowym czy produkcyjnym. Podział kroków dla każdego trybu pokazano w poniższej tabeli.

Jak widać, drugi i trzeci punkt różnią się między produkcyjnymi i testowymi przepływami pracy. Wynika to z faktu, że można uruchomić replikację ze źródłowej maszyny wirtualnej w trybie testowym podczas pracy maszyny źródłowej. W większości przypadków, gdy nastąpi awaria, źródłowa maszyna wirtualna przestaje działać, a zatem nie można wykonać replikacji. Sieci połączeń VM można zdefiniować osobno w opcjach mapowania sieciowego dla trybu produkcji i trybu testowego podczas konfigurowania zadania przywracania lokalizacji (patrz poprzedni artykuł na blogu).
Testowanie pracy awaryjnej odbywa się po wykonaniu zadania Site Recovery w trybie testowym. Replika maszyny wirtualnej jest wyłączana i przywracana do stanu sprzed przejścia awaryjnego za pośrednictwem migawki (migawka repliki maszyny wirtualnej jest wykonywana przed wykonaniem czynności przełączania awaryjnego). Replika jest następnie przełączana ze stanu przełączania awaryjnego do stanu normalnego, a replikacja z obiektu źródłowego do repliki jest ponownie włączana.
W celu przeprowadzenia skutecznego testowania zadania Site Recovery należy emulować różne punkty awarii i regularnie sprawdzać plan odzyskiwania danych po awarii.
Emulacja różnych punktów awarii do testowania
Należy symulować sytuacje, w których zawodzą różne komponenty naszego środowiska. Można emulować na przykład awarię sieci, awarię różnych maszyn wirtualnych, awarię wszystkich hostów ESXi, awarię serwera vCenter lub awarię jednego lub więcej urządzeń pamięci masowej. Sprawdzamy, czy nasz plan przywracania po awarii jest możliwy do zrealizowania dla różnych sytuacji, które mogą powstać w racjonalny sposób. Jeśli nie, tworzymy kolejny plan przywracania po awarii, aby pasował do konkretnego scenariusza, który nie jest uwzględniany. W ten sposób możemy mieć plany przywracania po awarii dostosowane do określonych sytuacji.
Regularne testowanie planu odzyskiwania lokalizacji
Infrastruktura może się zmieniać w czasie – niektóre maszyny wirtualne można dodać, niektóre role można migrować z jednej maszyny wirtualnej na drugą, a konfiguracja sieci może zostać zmieniona. Powinnismy regularnie testować plan przywracania lokalizacji, aby sprawdzić, czy działa w twoim obecnym stanie i czy spełnia określone przez nas wartości RTO. Jeśli coś pójdzie nie tak należy go odpowiednio zmodyfikować.
Jak przetestować zadanie Site Recovery w NAKIVO Backup&Replication
Po zapoznaniu się z teorią testowania odzyskiwania lokalizacji można przystąpić do testowania zadania Site Recovery w oprogramowaniu NAKIVO Backup & Replication. Pokrótce omówimy kluczowe punkty funkcjonalności testowania wbudowanej w produkt.
Sprawdzanie działań zawartych w testowaniu
Przejrzyjmy logikę naszych działań dodanych do zadania przywracania witryny. Sprawdzamy, czy działania są uporządkowane w odpowiedniej kolejności i upewniamy się, że nie mogą utworzyć nieskończonej pętli. Możemy edytować opcje zadania przywracania lokalizacji, gdy zadanie nie jest uruchomione: zmieniać kolejność działań, dodawać akcje, usuwać działania lub edytować opcje akcji, jeśli to konieczne.
Sprawdzanie sieci
Sprawdzamy, czy nasza sieć działa poprawnie. Połączenie VPN może być używane między witryną produkcyjną, a witryną odzyskiwania po awarii (DR), ale tego połączenia nie można okresowo rozłączać w stanie normalnym. Sieć na stronie DR musi również działać bez zakłóceń. Sprawdzamy ustawienia Network Mapping i Re-IP, które zostały użyte do skonfigurowania przełączania awaryjnego i powrotu po awarii. Jeśli maszyna wirtualna jest skonfigurowana dla niepoprawnej sieci, połączenie sieciowe może nie zostać ustanowione. To samo dotyczy ustawień IP.
Ustawianie harmonogramu testów
Testowanie zadania Site Recovery można zaplanować w opcjach planowania zadania Site Recovery. Otwieramy interfejs WWW instancji NAKIVO Backup & Replication. W lewym panelu strony głównej klikamy prawym przyciskiem myszy nazwę swojego zadania i klikamy „Edytuj” w menu kontekstowym. W tym menu możemy także zmienić nazwę, wyłączyć, usunąć lub uruchomić zadanie.

Klikamy „Testuj harmonogram” i określamy ustawienia harmonogramu. W przykładzie wykorzystanym dotego artykułu, test pracy Site Recovery będzie uruchamiany w każdy dzień roboczy o 2:00.

Zadanie Site Recovery można uruchomić w trybie testowym ręcznie. Wystarczy przejść do strony głównej produktu, wybrać zadanie odzyskiwania lokalizacji według nazwy, kliknąć „Uruchom zadanie”, a następnie kliknąć „Przetestuj zadanie Site Recovery”.

Ustawiamy RTO i klikamy „Testuj”.

Test zadania Site Recovery jest już uruchomiony. Możemy zobaczyć całkowity pasek postępu i pasek postępu dla każdej działającej akcji. Czekamy na zakończenie testu.

Po zakończeniu testu możemy sprawdzić wyniki. Klikamy nazwę testowanego zadania, dla którego chcemy sprawdzić wyniki. W tym przypadku nasze zadanie przywracania lokalizacji zostało pomyślnie zakończone. Możemy zobaczyć szczegóły w sekcji „Wydarzenia”.

Na poniższym zrzucie ekranu widać również, że inny test zadania Site Recovery nie powiódł się. Czerwona ikona wykrzyknika wskazuje na niepowodzenie. Możemy zapoznać się z sekcją „Zdarzenia”, aby uzyskać szczegółowe informacje o źródle awarii. W tym przypadku czerwony kolor wskazuje, że nie można wysłać e-maila. Sprawdzamy zatem ustawienia sieci, konfigurację działania „Wyślij wiadomość e-mail” i sprawdzamy, czy adres grupy e-mail jest poprawny. Naprawiamy problemy po ich zidentyfikowaniu, a następnie próbujemy ponownie uruchomić test.

Testowanie zadania Site Recovery jest ważnym procesem, który pomaga zapewnić, że plan odzyskiwania lokalizacji działa. Testowanie pozwala również określić, czy maszyny wirtualne można odzyskać wystarczająco szybko, aby spełnić wartości RTO. Zaleca się regularne testowanie odzyskiwania danych po awarii aby upewnić się, że nie wystąpią żadne niespodzianki, gdy nastąpi katastrofa i że nasze środowisko wirtualne może zostać odzyskane zgodnie z planem.
[simple-author-box]