Jeśli chodzi o utrzymanie infrastruktury informatycznej organizacji przez 24 godziny na dobę, 7 dni w tygodniu, nadal istnieją pewne niejasności między trzema głównymi terminami używanymi w tej dziedzinie. Te podstawowe pojęcia to: wysoka dostępność (HA – high availability), tolerancja uszkodzeń (FT – fault tolerance) i odzyskiwanie po awarii (DR – disaster recovery). Terminy te są często używane zamiennie, ponieważ na pozór wszystkie mają na celu osiągnięcie ciągłości systemu informatycznego. Ważne jest jednak, aby pamiętać, że każde z tych terminów ma swoje własne specyficzne definicje, metodologie i role.
W tym artykule w praktyce określimy znaczenie wysokiej dostępności, tolerancji uszkodzeń i odzyskiwania po awarii. Sprawdzimy, jak te terminy się pokrywają, a także dlaczego warto je wdrożyć.
Wysoka dostępność jest cechą systemu, który ma na celu zapewnienie uzgodnionego poziomu wydajności operacyjnej, zwykle nieprzerwanego działania, przez okres dłuższy niż normalny.
HA to koncepcja, która przejawia się wyłącznie dzięki technologii. Celem projektu HA jest dostarczenie 99,999% czasu pracy bez przestojów. Niemniej jednak ważne jest, aby podkreślić, że HA nie zapewnia 100% czasu działania, a czas przestoju (do 5,26 minuty/rok) jest akceptowalny.
Cel „pięciu dziewiątek” osiąga się przez wyeliminowanie pojedynczego punktu awarii w systemie. W tym celu można wdrożyć komponenty redundancji i przełączania awaryjnego, które są skonfigurowane do obsługi obciążeń bez interwencji człowieka w przypadku awarii komponentu podstawowego.
W wirtualizacji można zaprojektować wysoką dostępność za pomocą technologii klastrowych. Na przykład, gdy jeden z hostów lub maszyn wirtualnych (VM) w klastrze ulegnie awarii, inna maszyna wirtualna przejmuje i utrzymuje właściwą wydajność systemu.
Przemyślana architektura HA jest ważna dla każdej firmy, która dąży do zminimalizowania przestojów. Według statystyk, w 2017 r. koszt godzinnego przestoju wynosił od 301 do 400 tys. USD dla dużej liczby (24%) przedsiębiorstw na całym świecie. Oznacza to, że nawet dopuszczalna ilość przestojów – 5,26 minut – kosztuje biznes do 35 tysięcy USD.
Oprócz znacznych strat finansowych, przestoje mogą mieć inne poważne konsekwencje, takie jak utrata wydajności, niemożność terminowego dostarczania usług, utrata reputacji firmy i tak dalej. Wysoce dostępne systemy pomagają uniknąć takich scenariuszy poprzez automatyczne rozwiązywanie awarii i na czas.
Posiadanie komponentów redundantnych jest podstawowym warunkiem zapewnienia wysokiej dostępności, jednak posiadanie tych komponentów nie wystarcza, aby system mógł być uważany za wysoce dostępny. System wysoce dostępny to taki, który zawiera zarówno nadmiarowe komponenty i mechanizmy wykrywania awarii, jak i przekierowanie obciążenia. Mogą to być elementy równoważące obciążenie lub hypervisor.
Tolerancja uszkodzeń jest właściwością, która umożliwia systemowi prawidłowe działanie w przypadku awarii niektórych (jednego lub więcej błędów wewnątrz) jego komponentów.
Mówiąc prościej, tolerancja uszkodzeń, to bardziej rygorystyczna wersja wysokiej dostępności. HA skupia się na zapewnieniu minimalnych przestojów, a FT idzie dalej, zapewniając zero przestojów. Jednak w modelu tolerancji uszkodzeń zdolność systemu do zapewnienia wysokiej wydajności w przypadku awarii nie jest priorytetem. W przeciwieństwie, oczekuje się, że system może utrzymać wydajność operacyjną, ale na obniżonym poziomie.
Podobnie jak w przypadku wysokiej dostępności, tolerancja uszkodzeń działa również na zasadzie nadmiarowości. Taka nadmiarowość może zostać osiągnięta poprzez jednoczesne uruchomienie jednej aplikacji na dwóch serwerach, co umożliwia jednemu serwerowi natychmiastowe przejęcie drugiego, jeśli mu się nie powiedzie.
W wirtualizacji nadmiarowość jest osiągana poprzez utrzymywanie i uruchamianie identycznych kopii danej maszyny wirtualnej na osobnym hoście. Wszelkie zmiany lub dane wejściowe, które mają miejsce na podstawowej maszynie wirtualnej, są duplikowane na wtórnej maszynie wirtualnej. W ten sposób, w przypadku uszkodzenia maszyny wirtualnej, tolerancja na awarie jest zapewniona poprzez natychmiastowy transfer obciążeń z jednej maszyny wirtualnej do jej kopii.
Tolerancja uszkodzeń jest niezbędna do wdrożenia, jeśli Nasz system IT nie toleruje żadnych przestojów. Jeśli istnieją krytyczne aplikacje, które wspierają operacje biznesowe, a nawet najmniejszy czas przestoju może przełożyć się na nieodwracalne straty, powinniśmy rozważyć skonfigurowanie swoich komponentów IT z myślą o FT.
System tolerujący uszkodzenia, to system, który obejmuje dwa ściśle połączone elementy, które odzwierciedlają się nawzajem, zapewniając nadmiarowość. W ten sposób, jeśli podstawowy komponent zostanie wyłączony, drugi jest zawsze gotowy do natychmiastowego przejęcia.
Odzyskiwanie awaryjne obejmuje zestaw zasad, narzędzi i procedur umożliwiających odzyskiwanie lub kontynuację infrastruktury i systemów infrastruktury o podstawowym znaczeniu w następstwie katastrofy naturalnej lub wywołanej przez człowieka.
Zwykle DR wymaga posiadania dodatkowej lokalizacji, w której można przywrócić krytyczne dane i obciążenia (całkowicie lub częściowo) w celu wznowienia wystarczającej działalności biznesowej po wystąpieniu zakłócającego zdarzenia. Aby przenieść obciążenia do zdalnej lokalizacji, konieczne jest włączenie odpowiedniego rozwiązania do odtwarzania po awarii. Takie rozwiązanie może w porę zająć się operacją przełączania awaryjnego przy niewielkim lub zerowym wkładzie ze strony użytkownika, co pozwala osiągnąć wyznaczone cele czasu przywracania.
Zwykle DR wymaga posiadania dodatkowej lokalizacji, w której można przywrócić krytyczne dane i obciążenia (całkowicie lub częściowo) w celu wznowienia wystarczającej działalności biznesowej po wystąpieniu zakłócającego zdarzenia. Aby przenieść obciążenia do zdalnej lokalizacji, konieczne jest włączenie odpowiedniego rozwiązania do odtwarzania po awarii. Takie rozwiązanie może w porę zająć się operacją przełączania awaryjnego przy niewielkim lub zerowym wkładzie ze strony użytkownika, co pozwala osiągnąć wyznaczone cele czasu przywracania.
W przeciwieństwie do HA i FT, odzyskiwanie po awarii jest znacznie szerszą i bardziej złożoną koncepcją, która odnosi się do strategii z obszernym zestawem komponentów, w tym: ocena ryzyka, planowanie, analiza zależności, zdalna konfiguracja lokalizacji, szkolenie personelu, testowanie, konfiguracja automatyzacji i tak dalej. Odzyskiwanie po awarii wykracza poza wysoką dostępność i tolerancję uszkodzeń, ale może i powinno uwzględniać te czynniki w jego projekcie technologicznym.
Termin katastrofa odnosi się nie tylko do klęski żywiołowej, ale także do wszelkich zakłóceń, które prowadzą do znaczących przestojów, takich jak ataki cybernetyczne, przerwy w zasilaniu, błędy ludzkie, awarie oprogramowania i inne incydenty. Oznacza to, że takie wydarzenia mogą odbywać się w dowolnym miejscu i czasie, co sprawia, że organizacje wszystkich typów i rozmiarów są potencjalnymi ofiarami. Podczas gdy w większości przypadków katastrofy są niemożliwe do przewidzenia lub uniknięcia, organizacje mogą i powinny podejmować działania w celu wzmocnienia gotowości do odzyskiwania po awarii, a także regularnie optymalizować swoje strategie DR.
NAKIVO Backup & Replication to szybkie, niezawodne i przystępne cenowo rozwiązanie, które łączy w sobie wysoką ochronę danych, a także funkcję odzyskiwania po awarii w jednym pakiecie oprogramowania. Funkcja Site Recovery została zaprojektowana z myślą o prostocie i automatyzacji operacji odzyskiwania po awarii.
Jeśli mamy skonfigurowaną witrynę zdalną, zgodnie z najlepszymi praktykami DR, możemy całkowicie polegać na NAKIVO Backup & Replication jako narzędziu do odzyskiwania po awarii. Funkcja przywracania lokalizacji jest łatwa w obsłudze i konfiguracji, ale umożliwia tworzenie złożonych przepływów pracy odzyskiwania.
Można połączyć do 200 działań w jednym przepływie pracy (zadaniu), aby dopasować się do różnych scenariuszy katastrofy i służyć do różnych celów, w tym: monitorowania, migracji centrów danych, awaryjnego przełączania awaryjnego, planowanego przełączania awaryjnego, powrotu po awarii itd. W razie katastrofy utworzone przepływy pracy można natychmiast wdrożyć, za pomocą jednego kliknięcia, co pozwala firmom osiągnąć jak najkrótszy czas na odzyskanie danych.
Dzięki funkcji Site Recovery możemy przeprowadzać automatyczne, niezakłócone testy DR. W ten sposób możemy upewnić się, że przepływy pracy odzyskiwania lokalizacji są poprawne i odzwierciedlają wszystkie ostatnie zmiany, które miały miejsce w naszej infrastrukturze IT, w celu wykluczenia ewentualnych słabości przed rzeczywistymi trafieniami po katastrofie.
Statystyki pokazują, że większość informatyków uważa nowoczesne rozwiązania DR za nieosiągalne luksusy, a nie niezbędny element w ich strategii ochrony i odzyskiwania danych. NAKIVO dokonało niezawodnego odzyskiwania po awarii, dostępnego dla wielu firm, oferując NAKIVO Backup & Replication z Site Recovery za ułamek kosztów w porównaniu do konkurentów.
Podczas gdy wysoka dostępność i tolerancja na uszkodzenia są wyłącznie technologiczne, odzyskiwanie po awarii obejmuje znacznie więcej niż tylko elementy oprogramowania/sprzętu. HA i FT koncentrują się na rozwiązywaniu pojedynczych awarii w systemie IT. DR przeciwnie, zajmuje się problemami o znacznie większym zasięgu, a także konsekwencjami takich awarii. Włączenie wysokiej dostępności lub tolerancji na uszkodzenia nie może zapewnić ochrony przed katastrofami, ale obie z nich mogą skutecznie uzupełnić strategie odzyskiwania po awarii.
NAKIVO Backup & Replication z Site Recovery to rozwiązanie „pod klucz”, które zapewnia zintegrowaną ochronę przed utratą danych. Włączając rozwiązanie do swojego środowiska, możemy zapewnić szybkie odzyskiwanie danych w wielu witrynach niezależnie od okoliczności.
[simple-author-box]