Site Recovery w NAKIVO Backup & Replication Część 6: Failback

Site Recovery to nowa zaawansowana funkcja, która została wydana wraz z NAKIVO Backup & Replication 8.0. Dzięki funkcji Site Recovery można łatwo utworzyć plan przywracania po awarii dla danego środowiska i przywrócić maszyny wirtualne przy użyciu odpowiednich obciążeń. W poprzednim artykule dotyczącym Site Recovery analizowaliśmy awaryjne przełączanie VM, które może być użyte jako działanie dla zadania Site Recovery i może przełączyć się ze źródłowej maszyny wirtualnej na replikę maszyny wirtualnej. Dzisiejszy artykuł obejmuje akcję powrotu po awarii (która jest odwróceniem do pracy awaryjnej), rolę powrotu po awarii dla odzyskiwania lokalizacji i sposób wykorzystania działania powrotu po awarii.

Informacje na temat powrotu po awarii

Przełączanie awaryjne oznacza przeniesienie obciążeń maszyny źródłowej VM na replikę maszyny wirtualnej, która jest identyczną kopią źródłowej maszyny wirtualnej w odpowiednim momencie. Można to zrobić, ponieważ miejsce produkcji (gdzie zlokalizowana jest źródłowa maszyna wirtualna) zostało naruszone przez jakąś katastrofę lub z wyprzedzeniem, jeśli przewiduje się katastrofę. Replika maszyny wirtualnej zazwyczaj znajduje się w tymczasowej, geograficznie oddzielnej lokalizacji zwanej witryną odzyskiwania po awarii (DR). Kiedy źródłowa maszyna wirtualna przestaje działać, a proces przełączania awaryjnego jest używany, wszystkie zmiany po przełączeniu awaryjnym są zapisywane w replice maszyny wirtualnej, ale nie w źródłowej maszynie wirtualnej. Po utworzeniu kopii zapasowej witryny produkcyjnej i ponownym uruchomieniu źródłowej maszyny wirtualnej zmiany wprowadzone do repliki maszyny wirtualnej od momentu przełączenia awaryjnego muszą zostać przesłane do źródłowej maszyny wirtualnej. W związku z tym dane są ponownie synchronizowane z replikacją wsteczną.

Powrót awaryjny jest procesem przywracania maszyn wirtualnych w ich rzeczywistych stanach do miejsca produkcji z witryny DR i zwracania obciążeń do miejsca produkcji, które pierwotnie sobie z nimi radziło. Ewentualnie można przenieść obciążenia do nowej witryny produkcyjnej z funkcją powrotu po awarii. Zastanówmy się, w jaki sposób dane są przesyłane za pomocą przykładu.

Istnieją dwie witryny: strona produkcyjna i strona odzyskiwania po awarii (DR). Maszyna wirtualna jest replikowana z witryny produkcyjnej do witryny DR. Źródłowa maszyna wirtualna znajduje się w miejscu produkcji, podczas gdy jej replika VM znajduje się na stronie odtwarzania po awarii. Dane na dyskach wirtualnych źródłowej maszyny wirtualnej i repliki maszyny wirtualnej są identyczne po replikacji. Po wystąpieniu awarii następuje przełączenie awaryjne na replikę maszyny wirtualnej.

Po przeprowadzeniu przełączenia awaryjnego na replikę maszyny wirtualnej zadania zostały przeniesione do witryny odzyskiwania po awarii. Wszelkie dalsze zmiany maszyny wirtualnej (np. transakcje dodane do bazy danych, gdy klienci dokonują zakupów online) są zapisywane na wirtualnym dysku repliki maszyny wirtualnej podczas działania. Niektóre bloki są zapisywane, a niektóre bloki są kasowane. Dysk wirtualny źródłowej maszyny wirtualnej nie uwzględnia tych transakcji.Wszystkie zmiany są zapisywane w replice maszyny wirtualnej po przywróceniu systemu po awarii i przełączeniu awaryjnym.

Szkody spowodowane przez katastrofę zostały rozwiązane (lub zagrożenie minęło). Zakład produkcyjny jest znowu funkcjonalny i, odpowiednio, obciążenia muszą zostać zwrócone do miejsca produkcji ze strony DR. Zaktualizowane dane z repliki VM muszą zostać przesłane z powrotem do źródłowej maszyny wirtualnej. Maszyny wirtualne muszą zostać ponownie zsynchronizowane z replikacją wsteczną w ramach procesu powrotu po awarii.

Zalety powrotu awaryjnego

Korzystanie z funkcji powrotu po awarii wbudowanej w NAKIVO Backup & Replication zapewnia następujące korzyści:

Dane maszyny wirtualnej pozostają aktualne po przełączeniu z witryny DR do miejsca produkcji.
Możemy zautomatyzować proces migracji danych i obciążeń z powrotem do miejsca produkcji. Nie ma konieczności usuwania starych maszyn wirtualnych z miejsca produkcji i ręcznego kopiowania danych z każdej repliki maszyny wirtualnej z witryny DR do zakładu produkcyjnego.
Automatyzacja minimalizuje przestoje podczas migracji obciążeń z witryny DR do miejsca produkcji.

W jaki sposób działa funkcja powrotu po awarii w kopii zapasowej i replikacji NAKIVO?

W celu umożliwienia powrotu po awarii, muszą być spełnione następujące warunki:

Replika maszyny wirtualnej istnieje i znajduje się w stanie pracy awaryjnej (tzn. replika przejęła obciążenie z oryginalnej maszyny wirtualnej).
Oryginalna wirtualna maszyna źródłowa istnieje lub określono nową lokalizację.

Powrót awaryjny można wykonać w trybie produkcyjnym lub w trybie testowym. Zastanówmy się, jak każdy przypadek działa w szczegółach.

Realizacja zwrotu produkcji

Wykonanie powrotu po awarii wiąże się z następującymi punktami:

Wyłączanie źródłowej maszyny wirtualnej (jeśli istnieje i jest włączona).
Tworzenie ochronnej migawki źródłowej maszyny wirtualnej (jeśli źródłowa maszyna wirtualna jest funkcjonalna). Utworzenie tej migawki pozwala przywrócić stan przed awarią źródłowej maszyny wirtualnej w przypadku, gdy niepowodzenie powrotu nie może być wykonane prawidłowo.
Uruchamianie replikacji przyrostowej (jeśli pierwotna źródłowa maszyna wirtualna jest w trybie online w miejscu produkcji) lub pełnej replikacji (jeśli maszyna wirtualna jest odzyskiwana do nowej witryny produkcyjnej) z repliki maszyny wirtualnej do źródłowej maszyny wirtualnej jednokrotnie.
Wyłączanie repliki VM (opcjonalnie).
Ponowne uruchomienie przyrostowej replikacji z repliki VM do źródłowej maszyny wirtualnej. Po tym kroku delta (różnica w danych) między repliką maszyny wirtualnej a źródłową maszyną wirtualną powinna być znacznie mniejsza.
Łączenie oryginalnej wirtualnej maszyny wirtualnej z nową siecią za pomocą mapowania sieciowego (opcjonalnie).
Modyfikowanie statycznego adresu IP oryginalnej źródłowej maszyny wirtualnej za pomocą Re-IP (opcjonalnie).
Włączanie oryginalnej wirtualnej maszyny wirtualnej.

Po zakończeniu powrotu po awarii następuje czyszczenie. Algorytm czyszczenia różni się w zależności od wyniku operacji powrotu po awarii.

Oczyszczanie po pomyślnym przełączeniu awaryjnym

Aby wykonać czyszczenie po pomyślnym uruchomieniu, należy wykonać trzy kroki:

Ochronna migawka jest usuwana z oryginalnej źródłowej maszyny wirtualnej.
Zadanie replikacji jest rekonfigurowane, aby użyć nowo utworzonej maszyny wirtualnej podstawowej (źródłowej) zamiast starej (opcjonalnie, dotyczy sytuacji, w której nie powiodło się przejście na nową maszynę wirtualną).
Przełączanie repliki maszyny wirtualnej ze stanu przełączenia awaryjnego (operacyjnego) na stan normalny.

Po pomyślnej operacji powrotu po awarii zarówno źródłowa maszyna wirtualna, jak i replika maszyny wirtualnej istnieją w normalnych stanach.

Czyszczenie po nieudanym powrocie po awarii

Jeśli operacja powrotu po awarii nie zostanie pomyślnie wykonana, z dowolnego powodu, wykonywane są trzy inne kroki w celu przywrócenia stanu środowiska do stanu sprzed powrotu po awarii:

Przywracanie źródłowej maszyny wirtualnej do utworzonej migawki ochronnej.
Usuwanie ochronnej migawki ze źródłowej maszyny wirtualnej.

Ponowne włączanie repliki VM.

Testowy powrót po awarii

Testowanie po awarii jest wykonywane po uruchomieniu zadania Site Recovery, które obejmuje działanie powrotu po awarii w trybie testowym ręcznie lub gdy zadanie odzyskiwania lokacji działa zgodnie z harmonogramem. Procedura testowego powrotu awaryjnego różni się od procedury powrotu po awarii. Po ponownym uruchomieniu testu wszystkie zmiany w środowisku wirtualnym wykonane przez działanie powrotu po awarii są przywracane do stanu sprzed powrotu po awarii.

Procedura testowego powrotu awaryjnego wygląda następująco:

Wyłączanie oryginalnej wirtualnej maszyny wirtualnej (jeśli jest funkcjonalna i włączona).
Tworzenie ochronnej migawki oryginalnej wirtualnej maszyny wirtualnej (jeśli jest funkcjonalna).
Uruchamianie replikacji przyrostowej (jeśli oryginalna wirtualna maszyna źródłowa istnieje) lub pełna replikacja z repliki maszyny wirtualnej do nowej wirtualnej maszyny źródłowej.
Podłączanie źródłowej maszyny wirtualnej do odizolowanej sieci (opcjonalnie).
Modyfikowanie statycznego adresu IP źródłowej maszyny wirtualnej (opcjonalnie).
Włączanie źródłowej maszyny wirtualnej.

Jak widać, podczas testowego powrotu po awarii replika maszyny wirtualnej służy do obsługi obciążeń roboczych i nie jest wyłączona, co kontrastuje z procedurą powrotu po awarii produkcji. Replikacja z repliki VM do oryginalnej maszyny wirtualnej VM (lub nowej wirtualnej maszyny produkcyjnej) jest wykonywana raz, a nie dwa razy, ponieważ jest to wystarczające do celów testowych. W takim przypadku źródłowa maszyna wirtualna może zostać podłączona do odizolowanej sieci, tak aby nie było żadnych zakłóceń w środowisku produkcyjnym.

Testowe czyszczenie po powrocie po awarii

Testowe czyszczenie po powrocie po awarii nieznacznie różni się od czyszczenia po powrocie po awarii.

Jeśli źródłowa maszyna wirtualna nie istniała przed uruchomieniem testowego powrotu po awarii:

Usuwanie źródłowej maszyny wirtualnej.

Jeśli źródłowa maszyna wirtualna istniała już przed uruchomieniem testowego powrotu po awarii:

Przywracanie źródłowej maszyny wirtualnej do jej stanu po zrobieniu ochronnej migawki.
Włączanie źródłowej maszyny wirtualnej (jeśli była wyłączona).

Usuwanie ochronnej migawki ze źródłowej maszyny wirtualnej.

Przygotowanie do powrotu po awarii

Najpierw należy utworzyć zadanie przywracania lokalizacji obejmujące działania przełączania awaryjnego. Proces ten został szczegółowo opisany w poprzednim artykule z serii Site Recovery. Zadanie replikacji i replika maszyny wirtualnej są wymagane do wykonania przełączania awaryjnego. Zadanie przywracania lokalizacji musi zawierać działanie przełączania awaryjnego w celu wykonania powrotu po awarii. Repliki VM muszą znajdować się w stanie przełączania awaryjnego; w związku z tym można wykonać procedurę powrotu po zakończeniu przełączania awaryjnego. Kiedy wszystkie problemy spowodowane przez katastrofę zostaną rozwiązane w miejscu produkcji, możemy przygotować się na powrót do źródłowych maszyn wirtualnych.

Uruchomienie powrotu po awarii

Wykorzystajmy przykład instruktażowy, jak wykonać powrót po awarii przy pomocy NAKIVO Backup & Replication. Najpierw upewniamy sięę, że przełączanie awaryjne zostało uruchomione jako część zadania Site Recovery (powinno to już zostać utworzone).

Następnie tworzymy nowe zadanie Site Recovery; akcje powrotu awaryjnego mogą zostać włączone do tego zadania. Na stronie głównej interfejsu sieciowego NAKIVO Backup & Replication klikamy „Utwórz> Site recovery job”

Uruchomiony zostanie Kreator nowego zadania Site Recovery.

1. Działania. W lewym panelu interfejsu „Actions” klikamy opcję „Failback VMware VMs „(platforma VMware jest rozważana w tym przykładzie, ale można również obsługiwać funkcję powrotu po awarii tak samo łatwo w innych środowiskach – Hyper-V lub instancji EC2).

Wybieramy repliki VM, do których ma zostać zastosowana operacja przełączania awaryjnego. Klikamy „Następny”.

Wybieramy lokalizację powrotu po awarii – może to być oryginalna witryna produkcyjna lub nowa lokalizacja. Klikamy „Następny”.

Wybieramy opcje pracy. Zaznaczamy pole wyboru „Wyłączaj repliki VM”, jeśli to konieczne. Klikamy „Zapisz”, gdy będziemy gotowi do kontynuowania.

Po dodaniu akcji powrotu po awarii zadanie przywracania lokalizacji wygląda następująco (zrzut ekranu poniżej). Klikamy „Następny”.

Sieci. Zaznaczamy pole wyboru, jeśli chcemy włączyć mapowanie sieciowe dla tego zadania. Klikamy „Następny”.

Re-IP. Zaznaczamy pole wyboru, jeśli chcemy włączyć Re-IP dla tego zadania. Klikamy „Następny”.

Harmonogram testów. Konfigurujemy opcje planowania, a następnie klikamy przycisk „Dalej”.

Opcje. Określamy opcje zadania odzyskiwania lokalizacji i wprowadzamy nazwę zadania. Klikamy przycisk „Zakończ”, aby sfinalizować tworzenie nowego zadania przywracania lokalizacji z funkcją powrotu po awarii.

Teraz możemy uruchomić zadanie Site Recovery, aby wykonać awarię maszyny wirtualnej: po prostu klikamy prawym przyciskiem myszy nazwę zadania Site Recovery, wybieramy „Uruchom zadanie” i wybieramy „Przetestuj zadanie przywracania lokalizacji” lub „Uruchom zadanie odzyskiwania lokalizacji” zgodnie z potrzebami.

Wniosek

Powrót po awarii jest krytycznie ważną czynnością dla większości przepływów pracy odzyskiwania lokalizacji. Wykonuje się go w celu przywrócenia obciążeń do miejsca produkcji, przenosząc zaktualizowane dane z replik VM, które zostały użyte do odzyskiwania po awarii z powrotem do oryginalnych maszyn wirtualnych (lub do nowej maszyny wirtualnej w bardziej stałej lokalizacji). Funkcja powrotu po awarii pozwala zachować bieżące dane maszyny wirtualnej, zautomatyzować proces przesyłania danych i zminimalizować przestoje podczas migracji z witryny DR do miejsca produkcji.

Ten artykuł kończy naszą serię dotyczącą funkcji Site Recovery w NAKIVO Backup & Replication. Jest to Złożona, ale przyjaznna dla użytkownika funkcja, dzięki której można elastycznie wdrożyć plan odzyskiwania po awarii i chronić środowisko wirtualne przed katastrofami.

[simple-author-box]