Site Recovery w NAKIVO Backup & Replication Część 5: Przełączanie awaryjne

W poprzednich artykułach z serii o Site Recovery analizowaliśmy planowanie przepływów pracy odzyskiwania lokalizacji, tworzenie zadań Site Recovery z operacjami przełączania awaryjnego oraz testowanie tych zadań. Działania przełączania awaryjnego są integralną częścią większości zadań związanych z odzyskiwaniem lokalizacji. Dzisiejszy artykuł zawiera opis działania przełączania awaryjnego, w tym sposób pracy awaryjnej, rodzaje przełączania awaryjnego i wymagania dotyczące przełączania awaryjnego. Zawiera się w nim również instrukcja konfiguracji i uruchamiania pracy awaryjnej w ramach zadania Site Recovery w NAKIVO Backup & Replication.

Co to jest przełączanie awaryjne?

W kontekście środowisk zwirtualizowanych przełączanie awaryjne jest procesem przełączania się z wirtualnej maszyny źródłowej (produkcyjnej) na replikę maszyny wirtualnej w celu przenoszenia obciążeń. Replika maszyny wirtualnej to identyczna kopia źródłowej maszyny wirtualnej w odpowiednim momencie. Przełączanie awaryjne pozwala uzyskać wysoką dostępność, co jest cechą opisującą czas pracy maszyn wirtualnych jako procent.

Źródłowa maszyna wirtualna znajduje się w miejscu produkcji, podczas gdy replika maszyny wirtualnej jest często umieszczona w geograficznie oddzielnej lokalizacji odzyskiwania po awarii (DR). Przełączanie awaryjne jest trybem pracy, który sprawia, że systemy o znaczeniu krytycznym są wysoce dostępne dzięki redundancji zapewnianej przez repliki VM.

Rodzaje pracy awaryjnej

Istnieją trzy typy przełączania awaryjnego: zaplanowane przełączanie awaryjne, testowe przełączanie awaryjne i awaryjne przełączanie awaryjne. Przyjrzyjmy się każdemu bardziej szczegółowo.

Zaplanowane przełączanie awaryjne – służy do przełączania obciążeń roboczych na replikę maszyny wirtualnej z zerową utratą danych. Tego typu przełączanie awaryjne może być używane proaktywnie, gdy potencjalna katastrofa jest przewidywana lub podejrzewana – na przykład firma elektryczna powiadomiła nas o planowanej awarii zasilania w biurze głównym w poniedziałek lub prognoza pogody ostrzega przed zagrożeniem powodziowym. Replikacja źródłowej maszyny wirtualnej jest wykonywana bezpośrednio przed planowanym przełączeniem awaryjnym w celu utworzenia nowego punktu przywracania.

Testowe przełączanie awaryjne jest używane w celu zapewnienia, że maszyny wirtualne mogą się zepsuć i migracja zadań zakończyła się pomyślnie. Testowe przełączanie awaryjne działa podobnie do planowanego przełączania awaryjnego. Przeprowadzając testowe przełączanie awaryjne, możemy wyszkolić swoich pracowników do wykonywania operacji odzyskiwania po awarii, sprawdzić, czy plan odzyskiwania lokalizacji jest możliwy do wykonania i sprawdzić, ile czasu potrzeba na przeprowadzenie przełączenia awaryjnego.

Awaryjne przełączanie awaryjne jest używane do szybkiego przełączania obciążeń ze źródłowej maszyny wirtualnej na replikę maszyny wirtualnej, jeśli źródłowa maszyna wirtualna przestanie działać. Brak transferu danych. Replikacja nie jest wykonywana w celu dodania nowego punktu przywracania podczas inicjowania awaryjnego przełączania awaryjnego, ponieważ dane na źródłowej maszynie wirtualnej mogą być niespójne w tym momencie (lub maszyna wirtualna może być całkowicie nieosiągalna).

Uruchomienie pracy awaryjnej

Zastanówmy się, jak wykonać przełączanie awaryjne w ramach zadania Site Recovery. Aby utworzyć działanie przełączania awaryjnego, należy najpierw utworzyć zadanie przywracania lokalizacji. Ze strony głównej NAKIVO Backup & Replication klikamy „Create> Site recovery job”.

Działania.W lewym panelu pierwszego ekranu Kreatora Site Recovery można wyświetlić listę czynności, które można uwzględnić w przepływie pracy. Klikamy „Failover VMware VMs”. (W obecnym przykładzie używana jest platforma wirtualizacji VMware, podobnie można wybrać awaryjne maszyny wirtualne Hyper-V lub AWS EC2, jeśli używane jest jedno z tych wirtualnych środowisk.)

Zostanie wyświetlony ekran konfiguracji dla działania przełączania awaryjnego. Z lewego panelu wybieramy replikę maszyny wirtualnej z odpowiedniego zadania replikacji. Ta replika ma być używana do przełączania awaryjnego. Na tym etapie możemy wybrać wiele replik VM. W prawym panelu wybieramy punkt przywracania. Ostatni punkt odzyskiwania jest używany domyślnie. Naciskamy „Next” by kontynuować.

Wybieramy opcje akcji. W razie potrzeby możemy zaznaczyć pole wyboru „Wyłącz zasilanie maszyn wirtualnych” i klikamy przycisk „Zapisz”.

Możemy wykonywać akcje więcej niż raz podczas tworzenia przepływów pracy odzyskiwania lokalizacji. W ten sposób można dodać kolejne działanie przełączania awaryjnego w tym zadaniu funkcji Site Recovery w celu wykonania przełączenia awaryjnego innej maszyny wirtualnej (lub zestawu maszyn wirtualnych) po tych, które zdefiniowano w pierwszym działaniu awaryjnym. Klikamy ponownie „Failover VMware VMs”.

Wybieramy replikę maszyny wirtualnej do przełączania awaryjnego, tak jak w przypadku pierwszego działania awaryjnego. Klikamy „Następny”.

Podobnie jak w przypadku pierwszej akcji, wybieramy opcję przełączania awaryjnego i klikamy przycisk „Dalej”.

To zadanie Site Recovery zawiera teraz dwie akcje. Klikamy „Dalej”, aby kontynuować.

Zaznaczamy pole wyboru „Włącz mapowanie sieciowe”, jeśli mamy różne sieci VM w miejscu produkcji i lokalizacji odzyskiwania po awarii (DR). Klikamy „Dalej”, aby kontynuować.
Re-IP. Zaznaczamy pole wyboru „Włącz Re-IP”, jeśli różne adresy są używane w sieciach IP w naszej lokalizacji produkcyjnej i DR. Klikamy „Następny”.
Harmonogram testów. Konfigurujemy opcję planowania, jeśli chcemy automatycznie przeprowadzać okresowe testy zadań przywracania lokalizacji. Klikamy „Następny”.
Opcje. Ustawiamy opcje zadań. Wprowadzamy nazwę dla nowego zadania (w tym przykładzie – zadanie przywracania w miejscu pracy – przełączanie awaryjne). Definiujemy cel czasu przywracania do celów testowych. Klikamy przycisk „Zakończ”, aby sfinalizować konfigurację zadania Site Recovery.

Teraz możemy użyć zadania Site Recovery, jeśli wystąpi awaria i wykonać przełączenie awaryjne na repliki maszyny wirtualnej.

Dodatkowe zabezpieczenie środowiska

Kiedy maszyny wirtualne ulegają awarii, a obciążenia są migrowane do witryny DR, należy chronić maszyny wirtualne działające w witrynie DR. Dzieje się tak, ponieważ jeśli replika VM uruchomiona po przełączeniu awaryjnym zawiedzie, nie będzie można szybko przywrócić tych danych i obciążeń. Funkcja Site Recovery pozwala na ponowne zabezpieczenie środowiska wirtualnego natychmiast po przywróceniu systemu po awarii.

Aby ponownie zabezpieczyć maszyny wirtualne działające w witrynie DR, należy najpierw zreplikować te maszyny wirtualne w inne bezpieczne miejsce. W ten sposób, jeśli maszyna wirtualna uruchomiona w witrynie DR zawiedzie, możesz szybko przejść do nowej repliki VM. Funkcja Site Recovery umożliwia dodanie działania zadania ”Run job” w istniejącym zadaniu Site Recovery za pomocą którego można dodać istniejące zadanie replikacji. W ten sposób można skonfigurować zadanie przywracania lokalizacji, tak że po zakończeniu przełączania maszyny wirtualnej replikacja maszyn wirtualnych uruchomionych po przełączeniu awaryjnym jest wykonywana automatycznie, zapewniając odpowiedni poziom ochrony.

Oto przykładowy sposób ponownego zabezpieczenia maszyn wirtualnych za pomocą zadania Site Recovery.

Tworzenie zadania replikacji

Na stronie głównej interfejsu WWW NAKIVO Backup & Replication klikamy opcję „Utwórz> Zadanie replikacji VMware vSphere”.

Wybieramy repliki VM, które są używane jako cele przełączania awaryjnego w witrynie DR, zaznaczając pola obok ich nazw. W bieżącym przykładzie wybraliśmy dwie VM, które zostały użyte do obsługi obciążenia po przełączeniu awaryjnym w zadaniu Site Recovery opisanym powyżej. Klikamy „Następny”.

Miejsce docelowe. Wybieramy kontener docelowy (host lub klaster), na którym ma zostać uruchomiona maszyna wirtualna, oraz magazyn danych, w którym można umieścić pliki maszyny wirtualnej. Na potrzeby tego przykładu używamy hosta ESXi 10.10.10.51 i datastore1 (który jest dołączony do tego hosta ESXi). Klikamy „Następny”.

Zaznaczamy pole wyboru „Włącz mapowanie sieciowe” – jeśli mamy różne sieci VM w witrynie źródłowej (witryna DR, w której działają maszyny wirtualne, które przeszły przez awarię) i nowa witryna docelowa. Klikamy „Następny”.
Re-IP. Zaznaczamy pole wyboru „Włącz Re-IP”, jeśli adresy używane w sieciach różnią się między witryną źródłową (naszą witryną DR) a nową lokalizacją docelową. Klikamy „Następny”.
Konfigurujemy harmonogram, jeśli chcemy okresowo uruchamiać zadanie replikacji. Klikamy „Następny”.
Definiujemy ustawienia przechowywania. Klikamy „Następny”.
Konfigurujemy opcje zadania replikacji, w tym wprowadzenie nazwy zadania. W tym przykładzie zadanie replikacji nosi nazwę „Vmware replication job Re-protection”. Klikamy przycisk „Zakończ”, aby sfinalizować tworzenie zadania replikacji.

Edytowanie zadania Site Recovery

Po utworzeniu nowego zadania replikacji można dodać działanie „Uruchom zadanie” do zadania Site Recovery. W ten sposób można automatycznie replikować maszyny wirtualne działające w witrynie DR. Ponieważ pierwotne produkcyjne maszyny wirtualne są teraz w trybie offline, nasze repliki w witrynie DR są teraz jedynymi funkcjonalnymi kopiami, więc jest to ważne dla niezawodnej ochrony danych.

Na stronie głównej interfejsu WWW klikamy prawym przyciskiem myszy nazwę ostatnio utworzonego zadania przywracania lokalizacji. Klikamy „Edytuj” w menu kontekstowym.

Możemy zobaczyć teraz dwie akcje przełączania awaryjnego dodane do zadania Site Recovery opisane wcześniej. Szukamy i klikamy opcję „Uruchom zadania” z listy działań znajdującej się w lewym panelu ekranu „Działania” Site Recovery.

Wybieramy odpowiednie zadanie replikacji z listy zadań (tej, którą właśnie utworzyliśmy). Wybieramy opcje akcji jak zwykle i klikamy „Zapisz”.

Dodajemy akcję „Czekaj” między operacją przełączania awaryjnego i zadaniem replikacji. To daje replice maszyny wirtualnej trochę czasu na uruchomienie i załadowanie systemu operacyjnego (nie można zreplikować wyłączonej maszyny wirtualnej). Z listy „Czynności” na lewym panelu klikamy „Czekaj”.

Wybieramy czas oczekiwania – do tych celów wystarcza 5 minut. Wybieramy opcje akcji i klikamy „Zapisz”.

Po dodaniu akcji jest ona dołączana na końcu listy akcji. Klikamy „Przenieś w górę” i przenosimy akcję „Czekaj” z czwartej pozycji na trzecią – musi to nastąpić przed replikacją.

Teraz działania są uporządkowane w odpowiedniej kolejności.

Na koniec zadanie Site Recovery jest gotowe do użycia w celu wykonania przełączania awaryjnego maszyny wirtualnej i automatycznego ponownego zabezpieczenia replik VM używanych do przełączania awaryjnego. Klikamy prawym przyciskiem myszy nazwę zadania Site Recovery na stronie głównej i klikamy polecenie „Uruchom zadanie” w menu kontekstowym.

Wniosek

Będąc ważną częścią odzyskiwania lokalizacji, przejście awaryjne maszyny wirtualnej do repliki to proces przełączania z uszkodzonej źródłowej maszyny wirtualnej na replikę maszyny wirtualnej, która jest dokładną kopią źródłowej maszyny wirtualnej w odpowiednim punkcie czasowym.

Zaawansowana funkcja Site Recovery dodana do NAKIVO Backup & Replication w wersji 8.0 zawiera czynność przełączania awaryjnego. Ta elastyczna funkcja umożliwia tworzenie niestandardowych zadań Site Recovery z różnymi kombinacjami działań w celu ochrony środowiska produkcyjnego. Można również skonfigurować te same zadania do automatycznego ponownego zabezpieczenia środowiska DR po awarii maszyn wirtualnych w miejscu produkcji.

[simple-author-box]