Site Recovery w NAKIVO Backup & Replication Część 3: Tworzenie zautomatyzowanych procesów biznesowych

W poprzednich artykułach z tej serii wprowadziliśmy nową funkcję Site Recovery w NAKIVO Backup & Replication v8. Omówione zostało znaczenie planu odzyskiwania danych po awarii, a także przedstawiona została procedura tworzenia zadania replikacji.

Ten artykuł wyjaśnia przepływ prac związanych z odzyskiwaniem danych po awarii. Omówione zostaną różne działania, które można uwzględnić w przepływach pracy związanych z odzyskiwaniem danych po awarii, a także potencjalne sekwencje, w których można je wykorzystać w celu spełnienia wymagań określonych w planie odzyskiwania po awarii.

Co to jest przepływ pracy związany z odzyskiwaniem danych po awarii?

Przepływ pracy odzyskiwania danych po awarii, to sekwencja czynności wykonywanych w celu zakończenia procesu odzyskiwania po awarii (DR). Zadania odzyskiwania lokalizacji w oprogramowaniu NAKIVO Backup&Replication umożliwiają automatyzację wykonywania obiegu pracy tego zadania. Testowanie zadania przywracania lokalizacji obejmuje wykonanie przepływu pracy w niezakłócającym „trybie testowym” w celu sprawdzenia, czy działa on płynnie i czy cele RTO są spełnione. Zadanie odzyskiwania lokazliacji może być uruchomione w trybie produkcyjnym, gdy jest potrzebny odzysk po awarii.

Akcja zadania odzyskiwania serwisu jest pojedynczym zadaniem zawartym w zadaniu odzyskiwania lokalizacji. W jednym zadaniu można uwzględnić dowolną liczbę działań. Niektóre czynności mogą być wykonywane wiele razy w zależności od logiki użytej do połączenia tych kroków. Każda akcja dodawana do zadania odzyskiwania lokalizacji w NAKIVO Backup&Recovery może być wykonywana tylko w trybie testowym, tylko w trybie produkcyjnym lub w obu trybach (jest to domyślnie używane).

Określanie sekwencji przywracania lokalizacji

Niektóre działania mogą zależeć od wyniku wykonania innych działań. Oczywiście nie można uruchomić skryptu na maszynie wirtualnej, która jeszcze nie została uruchomiona. Z tego powodu należy określić, w jakiej kolejności będą wykonywane akcje. Podczas tworzenia zadania Site Recovery można dodawać akcje, a następnie przenosić je w górę lub w dół w ramach przepływu pracy, aby zmienić kolejność wykonywania. Można również ustawić zachowanie oczekujące dla większości działań: albo „Czekaj na wykonanie tej akcji”, albo „Natychmiast rozpocznij następną akcję”. Jeśli wybierzemy tę drugą opcję, wiele akcji może być wykonywanych jednocześnie. Na przykład, jeśli nie ma zależności między odpowiednimi maszynami wirtualnymi, można uruchomić jedną akcję przełączania awaryjnego natychmiast po uruchomieniu innej, aby wykonać ją równolegle.

Tworzenie przepływu pracy odzyskiwania lokalizacji

Nowa funkcja Site Recovery pozwala tworzyć złożone zadania odzyskiwania lokalizacji, łącząc akcje i warunki. W przepływie pracy odzyskiwania lokalizaji można uwzględnić dowolne z następujących działań:

Przełączanie awaryjne – inicjuje przełączanie awaryjne do replik VMware VM, Hyper-V VM lub EC2.
Powrót awaryjny – zwraca obciążenia z repliki maszyny wirtualnej do źródłowej maszyny wirtualnej. Zmiany wprowadzone w replice maszyny wirtualnej od momentu przełączenia awaryjnego są zapisywane w źródłowej maszynie wirtualnej po wykonaniu operacji powrotu po awarii. Maszyny wirtualne są zsynchronizowane, a źródłowa maszyna wirtualna jest ponownie w rzeczywistym stanie produkcyjnym.
Start – uruchamia maszyny wirtualne VMware, Hyper-V lub EC2.
Zatrzymaj – zatrzymuje maszyny wirtualne VMware, maszyny wirtualne Hyper-V, uruchomione instancje EC2.
Uruchom zadanie – uruchamia zadanie kopii zapasowej, zadanie replikacji, zadanie odzyskiwania lokalizacji, zadanie kopii zapasowej lub zadanie rozruchu Flash VM.
Zatrzymaj zadania – zatrzymuje zadanie (każde z zadań wymienionych w poprzednim punkcie).
Uruchom skrypt – uruchamia skrypt na jednym z następujących celów: serwerze z programem Director, zdalnym serwerem systemu Windows, zdalnym serwerem Linux, maszynie VMware VM, maszynie wirtualnej Hyper-V lub instancji EC2.
Dołącz repozytorium – dołącza repozytorium kopii zapasowych używane przez NAKIVO Backup & Replication do przechowywania kopii zapasowych.
Odłącz repozytorium – odłącza repozytorium kopii zapasowych.
Wyślij wiadomość e-mail – wysyła wiadomość e-mail z wiadomością, którą komponujesz do jednego lub więcej zdefiniowanych adresatów.
Zaczekaj – czeka na wyznaczony okres czasu przed przejściem do następnej akcji.
Sprawdź warunek – na podstawie danych wejściowych (całość lub część nazwy zasobu) sprawdza jeden z następujących warunków:
– Zasób istnieje
– Zasób działa
– Adres IP / nazwa hosta jest osiągalny

Można tworzyć elastyczne przepływy pracy odzyskiwania danych po awarii przy użyciu różnych kombinacji tych działań. Zastanówmy się, jak zbudować zadanie odzyskiwania lokalizacji na przykładzie.

Załóżmy, że mamy witrynę główną (produkcyjną) i witrynę DR. Mamy kilka maszyn wirtualnych VMware w miejscu produkcji, w tym:

DC-VM jest maszyną wirtualną opartą na systemie Windows z kontrolerem domeny Active Directory.
FS-VM jest maszyną wirtualną opartą na systemie Windows z uruchomionym serwerem plików (protokół SMB służy do udostępniania plików). Usługa Active Directory służy do uwierzytelniania użytkownika. Zrzuty bazy danych Oracle są przechowywane na serwerze plików.
Ora-DB jest maszyną wirtualną, na której działa baza danych Oracle.

Witryna odzyskiwania po awarii zawiera następujące maszyny wirtualne:

Repliki DC-VM i repliki FS-VM są replikami maszyn wirtualnych znajdujących się w miejscu produkcji. Mogą być używane jako cele do przełączania awaryjnego.
DB-VM jest maszyną wirtualną opartą na systemie Linux z zainstalowanym oprogramowaniem Oracle Database, ale nie ma baz danych na tej maszynie wirtualnej.

Baza danych jest zapisywana na poziomie bazy danych do FS-VM w miejscu produkcji (ta kopia zapasowa bazy danych Oracle jest zgodna z aplikacją). FS-VM i DC-VM są replikowane na poziomie hosta do witryny DR za pomocą NAKIVO Backup & Replication.

Po wystąpieniu awarii i opuszczeniu zakładu produkcyjnego komponenty muszą zostać odzyskane w witrynie DR w następujący sposób:

Po pierwsze, przełączanie awryjne DC-VM.

Po uruchomieniu DC-VM, przełączanie awaryjne FS-VM. Trzeba było działać w tej kolejności, ponieważ FS-VM opiera się na DC-VM w celu uwierzytelnienia użytkownika na serwerze plików.

Gdy te dwie maszyny wirtualne są uruchomione, DB-VM może uzyskać dostęp do katalogu współdzielonego na serwerze plików, na którym przechowywany jest zrzut. Teraz można uruchomić DB-VM.

Po uruchomieniu DB-VM uruchamiamy skrypt, który może przywrócić bazę danych z bloku znajdującego się na serwerze plików. Niebieskie strzałki na rysunkach powyżej wskazują zależności. Pamiętaj, że być może będziesz musiał poczekać kilka chwil, zanim usługi zostaną uruchomione na maszynie wirtualnej.

W takiej sytuacji w NAKIVO Backup & Replication tworzone są miejsca pracy związane z odzyskiwaniem danych z zachowaniem następującej logiki:

Działanie 1. Przełączanie awaryjne DC-VM. Przed przejściem do następnego kroku należy poczekać, aż czynność ta zostanie zakończona. Jeśli ta czynność zakończy się niepowodzeniem, zadanie należy zatrzymać.

Działanie 2. Odczekujemy 3 minuty.

Działanie 3. Sprawdzamy stan DC-VM. Sprawdzamy, czy zasób działa. Jeśli tak, kontynuujemy to zadanie. Jeśli nie, zatrzymujemy i nie wykonujemy zadnia przywracania lokalizacji.

Działanie 4. Awaria FS-VM. Przed przejściem do następnej czynności czekamy, aż czynność ta zostanie zakończona. Jeśli zakończy się niepowodzeniem, zadanie należy zatrzymać.

Działanie 5. Odczekujemy3 minuty.

Działanie 6. Sprawdzamy stan FS-VM. Sprawdzamy, czy zasób działa. Jeśli tak, przechodzimy do następnego etapu zadania odzyskiwania danych. Jeśli nie, zatrzymujemy i nie wykonujemy zadania przywracania lokalizacji.

Działanie 7. Uruchamiamy DB-VM. Przed przejściem do następnej czynności czekamy, aż ta czynność zostanie zakończona. Jeśli zakończy się niepowodzeniem, zadanie należy zatrzymać.

Działanie 8. Odczekujemy 5 minut.

Działanie 9. Uruchamiamy skrypt. Rodzaj zadania: VMware VM. VM docelowa: DB-VM. Ścieżka skryptu: /home/oracle/restore_db. sh (podczas dodawania tego kroku należy podać nazwę użytkownika i hasło konta z uprawnieniami wystarczającymi do uruchomienia skryptu).

Przewodnik po Site Recovery

Zakładamy nowe zadanie odzyskiwania lokalizacji korzystając z planu opisanego powyżej. Na stronie głównej NAKIVO Backup&Recovery klikamy Utwórz > zadanie Site Recovery.

1. Działania

Uruchomiony zostanie Kreator nowego zadania odzyskiwania lokalizacji. W lewym panelu widać działania, które można dodać do zadania odzyskiwania lokalizacji. Wystarczy na nie kliknąć, aby skomponować przepływ pracy.

Uwaga: Maszyny wirtualne VMware są brane pod uwagę w tym przykładzie. Jedno zadanie Site Recovery może obejmować działania dla jednej platformy wirtualizacji (VMware, Hyper-V lub AWS EC2).

Działanie 1.

W lewym panelu kliknij Failover VMware VM.

W lewym panelu wybierz replikę maszyny wirtualnej z już utworzonego zadania replikacji (przeczytaj nasz poprzedni artykuł, aby zapoznać się z informacjami na temat tworzenia zadań replikacji w ramach przygotowań do odzyskania lokalizacji). W naszym procesie pracy pierwszym działaniem jest przełączanie awaryjne na replikę DC-VM. W prawym panelu można wybrać punkt odzyskiwania. Domyślnie używany jest najnowszy punkt odzyskiwania. Kliknamy „Next” (Dalej), aby kontynuować.

Wybieramy opcję przełączania awaryjnego. Możemy też zaznaczyć pole wyboru „Wyłącz zasilanie źródłowych maszyn wirtualnych”; opcja ta może być używana do zapobiegania konfliktom adresów IP, jeśli źródłowe maszyny wirtualne i repliki korzystają z tych samych sieci. W tym przejściu, zgodnie z przedstawioną powyżej logiką przepływu, wybierane są następujące opcje:

• Wykonaj tę czynność: Czynność tę należy wykonać zarówno w trybie testowym, jak i produkcyjnym.
• Zachowanie w oczekiwaniu: Poczekaj, aż akcja zostanie zakończona.
• Usuwanie usterek: Jeśli ta czynność zakończy się niepowodzeniem, zadanie należy zatrzymać i zawiesić.

Klikamy przycisk „Zapisz”, aby zapisać utworzoną akcję.

Działanie 2. W lewym panelu interfejsu „Akcje” klikamy „Czekaj”.

Teraz skonfigurujemy opcję działania „Zaczekaj”. Wybieramy czas oczekiwania (3 minuty są używane do celów tego przeglądu). Może minąć trochę czasu, zanim usługi zostaną uruchomione w replice VM, która została włączona po działaniu awaryjnym. Działanie „Zaczeka” jest w tym przypadku przydatne, ponieważ następujące działanie przełączania awaryjnego w przepływie pracy (przełączenie awaryjne na replikę FS-VM) wymagałoby uruchomienia repliki DC-VM i już działającej z usługami domenowymi Active Directory. Wybieramy opcję akcji, która jest dla pierwszej akcji, i klikamy „Zapisz”.

Nowa akcja zostanie dodana po poprzedniej akcji, na dole listy. Można zmienić kolejność, edytować lub usunąć istniejące działania. Wystarczy najechać myszką na akcję, aby wyświetlić te opcje.

Działanie 3. W lewym panelu interfejsu akcji klikamy przycisk „Sprawdź stan”. W tym miejscu produkt powinien sprawdzić, czy maszyna wirtualna, która uległa awarii w pierwszej akcji, jest uruchomiona.

Skonfigurujemy tę czynność w następujący sposób:

• Wybieramy typ stanu: Zasoby są uruchomione. (Inne opcje to zasoby, adres IP/nazwa hosta jest osiągalna. )
• Wybieramy typ zasobu: VMware VM. (Inne opcje to Hyper-V VM, instancja EC2).
• Wybieramy metodę identyfikacji: Nazwa (drugą opcją jest ID). W ten sposób identyfikujemy daną maszynę wirtualną. Możemy użyć dowolnej części łańcucha maszyny wirtualnej. Tutaj znamy dokładną nazwę, więc użyliśmy funkcji „Equals”.
• Definiujemy łańcuch wyszukiwania: DC-VM-replica.

Ta czynność sprawdza, czy VMware VM o nazwie DC-VM-replica jest uruchomiona. Klikamy przycisk „Zapisz”, aby kontynuować.

Działanie 4. Podobnie jak w przypadku Działania 1, klikamy opcję „Failover VMware VM”.

Ponownie wybieramy replikę maszyny wirtualnej. W tym przypadku wybrana została replika FS-VM. Klikamy przycisk „Dalej”, a następnie wybieramy te same opcje działania przełączania awaryjnego, jakie mamy w Działaniu 1, i klikamy przycisk „Zapisz”.

Działanie 5. Klikamy „Czekaj” i konfigurujemy tę akcję tak samo, jak w przypadku Działania 2. Określony czas ponownie wynosi 3 minuty na potrzeby tego artykułu.

Działanie 6. Klikamy „Sprawdź stan”, aby sprawdzić, czy działa replika VMware VM FS-VM. Przypominamy sobie Działanie 2 i wybieramy te same opcje – z wyjątkiem oczywiście nazwy maszyny wirtualnej.

Działanie 7. Klikamy przycisk „Uruchom maszyny wirtualne Vmware” w lewym panelu interfejsu „Czynności” kreatora nowego zadania Site Recovery.

Wybieramy DB-VM. Ta maszyna wirtualna może zostać uruchomiona, gdy mamy pewność, że działa replika FS-VM. W dolnej części strony wybieramy te same opcje akcji, które pokazane zostały w poprzednich akcjach. Następnie klikamy „Zapisz”.

Działanie 8. Odczekujemy 5 minut. Klikamy przycisk „Zaczekaj” i konfigurujemy tę czynność podobnie jak w przypadku Działania 2 (czas oczekiwania zmieniamy na 5 minut). Powinien to być wystarczający czas na uruchomienie usługi Oracle na DB-VM.

Działanie 9. W interfejsie „Akcje” klikamy „Uruchom skrypt”. Przypomnę, że z opisanego powyżej przepływu pracy wynika że skrypt ten ma na celu odzyskanie bazy danych Oracle na poziomie bazy danych ze zrzutu przechowywanego na replice FS-VM.

Definiujemy opcje skryptu. W tym przypadku:

• Rodzaj zadania: VMware , ‘VM
• VM docelowa: DB-VM
• Ścieżka skryptu: /home/oracle/restore. db. sh.
• Nazwa użytkownika: oracle
• Hasło: (hasło)

Ścieżka skryptu, nazwa użytkownika i hasło mogą się różnić. Nie zapomnijmy upewnić się, że plik skryptu jest wykonywalny i że użytkownik ma wystarczające uprawnienia do uruchomienia skryptu. W tym przykładzie opcje akcji są skonfigurowane tak, jak zwykle. Klikamy przycisk „Zapisz”, gdy będziemy gotowi do kontynuowania.

Teraz możemy zobaczyć konfigurację wszystkich akcji. Klikamy przycisk „Next” (Dalej), aby kontynuować konfigurację zadania Site Recovery za pomocą kreatora.

2. Mapowanie sieci

Jeśli maszyny wirtualne w miejscu produkcji i w miejscu DR są podłączone do różnych sieci, zaznaczamy pole wyboru „Włącz mapowanie sieci”. Klikamy przycisk „Utwórz nowe mapowanie”, w wyskakujących oknach wybieramy sieć źródłową, docelową i sieć używaną do testowania zadań przywracania lokalizacji. Klikamy przycisk „Zapisz”, aby zapisać regułę mapowania sieci, a następnie klikamy przycisk „Dalej”. (Alternatywnie można użyć istniejących reguł mapowania, jeśli zostały one skonfigurowane w innych zadaniach replikacji, przełączania awaryjnego lub przywracania lokalizacji).

3. Re-IP

Jeśli sieci używane do połączenia z maszyną wirtualną w witrynie źródłowej i docelowej mają różne adresy, należy włączyć funkcję Re-IP, zaznaczając pole wyboru „Włącz Re-IP”. Teraz, gdy funkcja Re-IP jest włączona, tworzymy nową regułę Re-IP, klikając przycisk „Utwórz nową regułę”. Definiujemy ustawienia źródła i celu, a następnie klikamy przycisk „Zapisz”.

Klikamy „Wybierz maszyny wirtualne” i zaznaczamy pola obok maszyn wirtualnych, w których należy użyć Re-IP. Należy podać poświadczenia dla użytkownika z wystarczającymi uprawnieniami do zmiany ustawień sieci w systemie operacyjnym gościa maszyny wirtualnej.

4. Harmonogram testów

Harmonogram jest włączany tylko w celu wykonywania zadań odzyskiwania lokalizacji w trybie testowym. Umożliwia to sprawdzenie, czy zadanie odzyskiwania lokalizacji może zostać pomyślnie uruchomione w odpowiednich ramach czasowych. Po skonfigurowaniu planowania według potrzeb klikamy przycisk „Dalej”. Szczegółowy przewodnik po testowaniu zadań związanych z odzyskiwaniem lokalizacji zawiera się w kolejnym artykule z tej serii.

5. Opcje pracy

Wpisujemy nazwę zadania i cel czasu przywracania (RTO). Klikamy „Zakończ”, gdy konfiguracja została zakończona.

Wniosek

Teraz już wiemy, jak tworzyć i konfigurować zadania odzyskiwania lokalizacji w oparciu o logiczny przepływ pracy za pomocą narzędzia NAKIVO Backup & Replication. Przeczytaj kolejne posty na blogu, aby dowiedzieć się więcej na temat testowania zadań Site Recovery, a także działań związanych z przełączaniem awaryjnym i powrotem po awarii używanych do odzyskiwania lokalizacji.

[simple-author-box]