SIECIOWY SYSTEM ARCHIWIZACJI I BACKUPU DANYCH
Program do backupu - Ferro Backup System
       
Identyfikator artykułu : FS-FBS-20110221-I02
Ostatnia weryfikacja : 21 luty 2011
Wersja : 2.0


Najlepszy komputer dla serwera archiwizacji danych

Co jest najważniejsze przy wyborze komputera dla serwera backupu? Procesor, dysk, a może system operacyjny? Jakimi parametrami powinien się charakteryzować komputer przeznaczony na serwer backupu?

Często przychodzą do nas pytania od osób i firm zainteresowanych Ferro Backup System(tm) lub od tych, którzy juz go używają i chcą usprawnić jego prace i poprawić wydajność archiwizacji. Pytania są następujące: jaka jest najlepsza konfiguracja sprzętowa i systemowa serwera archiwizacji, jaki wybrać procesor, dysk twardy, system operacyjny i format plików? Oczywiście, to jakie podzespoły należy wybrać i jak skonfigurować system operacyjny, zależy od wielkości sieci (liczby archiwizowanych komputerów) i możliwości finansowych przedsiębiorstwa. Postaramy się jednak opisać najlepszą konfigurację wymieniając na początku rzeczy, które mają największe znaczenie na optymalną pracę systemu backupu, stopniowo przechodząc do rzeczy mniej istotnych, które pozwolą jednak na uzyskanie konfiguracji najlepszej z możliwych. Taki sposób przedstawienia pozwoli wskazać kierunek i chronologie postępowania, którymi powinno się kierować podczas modernizacji bazy systemowej i sprzętowej.



1. System operacyjny

System operacyjny, na którym zostanie zainstalowany i uruchomiony serwer archiwizacji, ma zasadnicze znaczenie dla bezpieczeństwa przechowywanych danych, wydajność realizacji zadań archiwizacji oraz możliwości optymalnego wykorzystania platformy sprzętowej.

Są cztery zasadnicze sprawy, na które należy zwrócić uwagę przy wyborze systemu operacyjnego:
  • stabilność i szybkość podczas pracy wielowątkowej
  • możliwość obsługi systemów wielordzeniowych lub wieloprocesorowych
  • wydajność operacji I/O
  • obsługa dużych partycji i macierzy dyskowych


Praca wielowątkowa

Ferro Backup Server jest aplikacją wielowątkową. Zaraz po uruchomieniu aktywne są cztery wątki. Każde połączenie TCP/IP obsługiwane jest w nowym, odrębnym wątku. Tak więc, im więcej mamy komputerów w sieci, tym więcej jest wątków uruchomionych w ramach procesu FBSServer.exe na serwerze archiwizacji. Każde połączenie sieciowe serwer-stacja robocza, obsługiwane w ramach osobnego wątku, służy do przekazywania danych do stacji roboczej (sterowanie) oraz do odbioru danych (archiwizacja). Dodatkowo, Ferro Backup System - Server uruchamia wątki pomocnicze, które są odpowiedzialne za weryfikację archiwów, usuwanie zbędnych plików, wysyłanie alertów do administratora, itp. Przykładowo, podczas archiwizacji danych w sieci zawierającej 50 stacji roboczych, w ramach aplikacji Ferro Backup System - Server będzie aktywnych od 54 do 60 wątków.

Przydzielanie procesora kolejnym wątkom to zadanie systemu operacyjnego. System operacyjny decyduje kiedy i na jak długo przydzielić procesor do określonego wątku. W systemach jednoprocesorowych w danej chwili wykonywany jest tylko jeden wątek a wykonywanie pozostałych wątków jest zawieszane. Windows XP - wykorzystanie czterech procesorów pozwala na równoczesne wykonywanie zadań archiwizacji Przełączanie pomiędzy wątkami jest jednak na tyle szybkie, iż użytkownik ma wrażenie współbieżnego działania wątków w ramach danej aplikacji. W systemach wieloprocesorowych zadania mogą być wykonywane współbieżnie.

Znaczenie systemu operacyjnego w szybkości i doborze czasów oraz zasadach przyznawania czasu procesora do danego wątku jest nie do przecenienia w aplikacjach wielowątkowych takich jak Ferro Backup System - Server. Decydując się na wybór systemu operacyjnego należy wybrać system charakteryzujący się dobrą obsługą zadań wielowątkowych oraz możliwością wykorzystania wielu procesorów. Systemy z rodziny Windows - nie licząc wersji 16-bitowych - możemy w zasadzie podzielić na dwa rodzaje: pierwszy - Windows 95/98/Me; drugi - Windows NT/2000/XP/2003/Vista/2008/Windows 7.

Chociaż systemy z obu grup zawierają obsługę wielozadaniowości z wywłaszczeniem to implementacja planisty (ang. scheduler), odpowiedzialnego za optymalny podział czasu CPU, w obu przypadkach jest odmienna. Rozwiązania zastosowane w systemach z drugiej grupy są znacznie wydajniejsze, bardziej stabilne - m.in. z powodu wyższej odporności na zakleszczanie (ang. deadlock) - są po prostu lepsze.

Obsługa systemów wieloprocesorowych i wielordzeniowych

Systemy oparte na jądrze NT mają jeszcze jedną bardzo ważną z naszego punktu widzenia cechę - pozwalają na obsługę systemów wieloprocesorowych. Chodzi tu zarówno o obsługę platform z kilkoma procesorami jak i procesorów wielordzeniowych lub z rdzeniami wirtualnymi (technologia HT). System z serii NT rozdzieli wszystkie wątki FBS Server'a pomiędzy dostępne jednostki obliczeniowe co znacznie podniesie wydajność realizacji zadań archiwizacji. Im więcej procesorów lub rdzeni procesora w serwerze archiwizacji, tym większą szybkość backupu można osiągnąć.

Wydajność dyskowych i sieciowych operacji wejścia-wyjścia

Kolejnym aspektem przemawiającym za wyborem systemu z rodziny Windows NT jest wysoka wydajność dyskowych operacji I/O. Podczas wykonywania archiwizacji FBS Server równocześnie, na wielu wątkach odbiera ze stacji roboczych napływające z sieci dane i, po weryfikacji, wykonuje operacje zapisu na dysku serwera. Operacje zapisu są wykonywane setki, a często i tysiące razy w ciągu sekundy. Pomimo, że wszystkie tego typu operacje są, w celu zwiększenia wydajności, buforowane przez specjalny moduł FBS Server to jednak widać sporą różnicę w szybkości zapisu. Windows NT jest, jak wynika z obserwacji, dużo wydajniejszy podczas krótkich, równoległych operacji wejścia-wyjścia niż systemy z rodziny Windows 9x/Me.

W systemach Windows Vista i Windows Server 2008 została wprowadzona nowa generacja stosu TCP/IP. Jak zapewnia firma Microsoft, nowa implementacja stosu TCP/IP dramatycznie zwiększa wydajność operacji sieciowych. Z tego względu lepiej zastosować w serwerze backupu system Windows Vista, Windows Server 2008 lub Windows 7 niż wcześniejsze edycje.

Na zakończenie omawiania OS trzeba jeszcze zwrócić uwagę na ograniczenia wynikające z możliwości obsługi dużych dysków twardych oraz zespołów dyskowych przez różne systemy operacyjne. ....



2. System plików

W przypadku serwera archiwizacji dużą rolę odgrywa również format systemu plików. Ze względu na to, że koszt jego wdrożenia jest zwykle niewielki powinniśmy się nim zająć zaraz po wyborze odpowiedniej wersji systemu operacyjnego.

Początkowo systemy z rodziny Windows korzystały z formatu FAT. Wraz z pojawieniem się Windows'a NT Microsoft wprowadził nowy system plików zwany NTFS. Kolejne generacje Windows'ów oparte na jądrze NT (2000, XP, 2003, Vista, 2008, 7) mogą wykorzystywać zarówno system FAT, jak i NTFS jednak ten drugi jest zdecydowanie bardziej zalecany. W przypadku systemów Windows 95, Windows 98, Windows Me podstawowym systemem plików jest FAT.

Maksymalny rozmiar partycji

Z punktu widzenia systemu archiwizacji danych format FAT rożni się od formatu NTFS pod kilkoma względami.
Pierwsza rzeczą, która wpływa na niekorzyść systemu FAT są ograniczenia wielkości partycji i wielkości pojedynczego pliku. System FAT pozwala na założenie partycji o maksymalnej rozmiarze 32 GB. W przypadku dużej sieci LAN i konieczności przechowywania danych z wielu komputerów taki rozmiar partycji może się szybko okazać niewystarczający. System NTFS nie ma takiego ograniczenia. Można zatem założyć partycję służącą do przechowywania archiwów, która wykorzysta całą dostępną przestrzeń oferowaną przez dysk twardy. Maksymalny rozmiar partycji NTFS może wynosić, przy rozmiarze klastra wynoszącym 64 KB, aż 128 TB (terabajtów).

Maksymalny rozmiar pliku

Drugim poważnym ograniczeniem FAT'u jest maksymalny rozmiar pojedynczego pliku. W przypadku archiwów zawierających wszystkie pliki z danego komputera (cały dysk lub kilka dysków) 4 GB, które daje nam do dyspozycji format FAT może nie być wystarczające. W systemie NTFS maksymalny rozmiar pliku jest ograniczony tylko wielkością partycji, na której jest on zapisany.

Ograniczenie NTFS FAT32 FAT16
Rozmiar pliku 2^64 - 1 bajtów 2^32 - 1 bajtów 2^32 - 1 bajtów
Minimalny rozmiar klastra 512 bajtów 512 bajtów 512 bajtów
Maksymalny rozmiar klastra 64 KB 64 KB 64 KB
Minimalny rozmiar woluminu 1 MB 2 GB 2,091,520 bajtów
Maksymalny rozmiar woluminu 2^32 jednostek alokacji 4,177,198 klastrów 4 GB
Windows 9x/Me:2 GB
Plików na wolumin 2^32 - 1 2^28 2^16
Plików lub podkatalogów na katalog Bez ograniczeń 2^16 - 2 2^16 - 2


Awaryjność systemu plików

Trzecim aspektem, również wypadającym na korzyść formatu NTFS, zwłaszcza w wersji 5.0, jest niska awaryjność. Struktura plików i katalogów przechowywana w tym formacie jest dużo bardziej odporna na wszelkiego rodzaju awarie niż ma to miejsce w przypadku systemu FAT. Główną zasługą tego faktu jest to, że operacje I/O są wykonywane w trybie transakcyjnym. Jeżeli, np. awaria zasilania spowoduje przerwanie operacji zapisu, cała transakcja jest anulowana i nie ma znaczenia na pozostałe dane. Inna właściwość NTFS polega na tym, że system ten używa danych nadmiarowych do ochrony struktury danych. To właśnie uszkodzenie struktury danych jest najczęstszą przyczyną utraty danych w systemie FAT. Nie bez znaczenia jest również fakt, że NTFS wspiera konfiguracje dyskowe zapewniające większe bezpieczeństwo danych - mirroring i RAID5.

Jeżeli już zdecydowaliśmy się na wybór systemu operacyjnego obsługującego format plików NTFS to stosowanie partycji w takim właśnie formacie wydaje się najrozsądniejszym rozwiązaniem.



3. Procesory

Jak już to zostało napisane przy omawianiu systemów operacyjnych, FBS jest aplikacją wielowątkową. Im więcej procesorów do dyspozycji, w tym procesorów wirtulanych, tym archiwizacja zostanie przeprowadzona szybciej i sprawniej, bez niepotrzebnych przestojów i widocznego czasem "zamrażania" systemu. Intel® Xeon® Procesor

Przykładowo, w trakcie archiwizacji sieci zawierającej 200 komputerów, w ramach FBS Server jest uruchomionych ponad dwieście wątków. Wątki te służą głównie do obsługi połączeń TCP/IP oraz zapisu danych na dysku. Nie są to więc zadania, które mogłyby w znacznym stopniu obciążyć procesor wiec nie jest wymagana szczególnie duża moc obliczeniowa. Jednak im więcej procesorów mamy do dyspozycji tym czas oczekiwania na wykonanie poszczególnych wątków będzie mniejszy i tym samym wzrośnie znacząco szybkość archiwizacji.



Z ekonomicznego punktu widzenia bardzo dobrym rozwiązaniem może być zastosowanie platformy jednoprocesorowej obsługującej procesory wielordzeniowe. Dla bardziej wymagających środowisk można stosować płyty wieloprocesorowe. Godna polecenia jest Intelowska platforma dwuprocesorowa bazująca na jednostkach obliczeniowych Xeon. Podobną propozycję ma do zaoferowania firma AMD.



4. Dyski twarde

Dyski twarde stają się coraz pojemniejsze przy jednoczesnym spadku cen. W niedalekiej przyszłości stosowany dotychczas w dyskach twardych zapis równoległy zostanie zastąpiony przez zapis prostopadły. Seagate Barracuda ST3120827AS - 120GB 7200rpm SATA Hard Drive - 8.5ms, 8mb Cache, NCQ Zmiana technologii zapisu zaowocuje prawdopodobnie dalszym spadkiem cen i da możliwość przechowywania większej ilości danych. W systemach archiwizacji każda wolna przestrzeń dyskowa sie przyda..

Dysk twardy przeznaczony do składowania archiwów musi mieć odpowiednią pojemność, oferować dostateczną szybkość zapisu przy jak najmniejszym obciążeniu CPU.

Rozmiar dysku twardego

Wymagania dotyczące pojemności dysku twardego, na którym zmierzamy zapisywać archiwa, musimy wstępnie oszacować na podstawie liczby archiwizowanych komputerów, a dokładniej na podstawie liczby wszystkich dysków przeznaczonych do archiwizacji i ich rozmiarów.

Przed przystąpieniem do oszacowywania wymaganej przestrzeni dyskowej powinniśmy się zastanowić co chcemy archiwizować i, co ważniejsze, czego archiwizować nie powinniśmy. Więcej informacji na temat zakresów archiwizacji można przeczytać w biuletynie FS-FBS-20051119-I01.

Po zsumowaniu objętości danych znajdujących się na wszystkich dyskach mamy przybliżoną informację na temat tego jak dużo miejsca zajmą archiwa zapisane na dysku serwera archiwizacji. Oczywiście jest to na razie rozmiar tylko jednego (pełnego) backupu wszystkich komputerów. Przy kalkulacjach tego typu nie należy raczej uwzględniać zakładanego stopnia kompresji danych ponieważ może on być bardzo różny w zależności od rodzaju archiwizowanych danych. Do początkowych wyliczeń należy dodać sumę rozmiarów kopii przyrostowych. Rozmiar kopii przyrostowej z pojedynczego komputera może, w przybliżeniu, wahać się od 0 bajtów - brak nowych danych, do rozmiaru pełnego archiwum - wszystkie dane uległy zmianie. Oczywiście na dyskach komputerów oprócz zmian mogą być dodawane nowe pliki dlatego przy wszelkich kalkulacjach związanych z obliczaniem wymaganej przestrzeni dyskowej należy zachować pewien margines. Jeśli kopie przyrostowe będą wykonywane codziennie, to do rozmiaru archiwum pełnego należy doliczyć rozmiar dziennej kopii przyrostowej pomnożonej przez sześć. Wstępne kalkulacje możemy potwierdzić wykonując test archiwizacji kilku stacji i serwerów znajdujących się w naszej sieci i na tej podstawie doprecyzować wcześniejsze obliczenia.

Szybkość operacji zapisu i przepustowość sieci

Drugim ważnym parametrem, jakim powinien charakteryzować się dysk twardy wykorzystywany do przechowywania archiwów, jest szybkość wykonywania operacji zapisu. Szczególną uwagę należy tu zwrócić na parametr RWS (ang. Random Write Speed) przedstawiany często w testach wydajnościowych dysków. Jak już było to wspominane, w systemie archiwizacji wiele wątków jednocześnie stara się zapisać napływające ze stacji roboczych dane na dysku. Każdy wątek otwiera osobny plik i do niego zapisuje archiwa. Pliki te mogą być alokowane przez system operacyjny w różnych miejscach na dysku, stąd konieczność stosowania dysków o wysokiej wydajności zapisu opisywanej parametrem RWS. W tym miejscu należałoby wspomnieć o technologii NCQ (Native Command Queuing) wprowadzonej w dyskach z interfejsem SATA (Serial ATA). Technologia NCQ umożliwia zapis danych w innej kolejności niż zażądał tego system operacyjny. Operacja zapisu jest optymalizowana pod kątem fizycznego rozmieszczenia danych na dysku w ten sposób, aby zapewnić większą prędkość zapisu.

Jest jeszcze jeden parametr, który pozwoli nam podjąć właściwą decyzję przy wyborze dysku. Chodzi mianowicie o przepustowość sieci LAN. Jeżeli nasza sieć jest zbudowana w technologii 10 Mb lub 100 Mb to szybkość dysku nie będzie miała aż tak dużego znaczenia jak w przypadku sieci gigabitowych. W sieci 100 MBit, szybkość odbioru danych przez serwer archiwizacji będzie wynosiła maksymalnie ok. 10 MB. Transfer tego rzędu może być obsługiwany nawet przez nie najnowsze już dyski twarde. Sieć oparta na standardzie 1 Gb ma dużo większe wymagania. Przesył danych do serwera poprzez jeden interfejs sieciowy tego typu może się odbywać z szybkością nawet do 100 MB/s, a przy takim transferze "wąskim gardłem" będzie już dysk twardy.

Rodzaje interfejsów

Na rynku dostępne są dyski z rożnymi interfejsami. Dyski z interfejsem SCSI i FC charakteryzują się dużą szybkością jednak, ze względu na wysokie koszty, są stosowane jedynie przez firmy dysponujące sporymi budżetami. Innym rodzajem są dyski z interfejsem ATA. Jeżeli posiadamy taki dysk to możemy go wykorzystać do przechowywania archiwów. Jeśli jednak nosimy się z zamiarem zakupu nowego dysku, powinniśmy poszukać takiego, który ma najlepszy wskaźnik RWS i zaimplementowaną obsługę technologii NCQ. Mowa tu oczywiście o dyskach S-ATA, a zwłaszcza o dyskach S-ATA II i SATA 3, o teoretycznej przepustowości 300 MB/s i 750 MB/s.

Obciążenie procesora w trakcie operacji dyskowych

Trzecia rzeczą, na którą należy zwrócić uwagę jest obciążenie CPU przez dysk twardy w trakcji operacji zapisu. Jeśli CPU jest znacznie obciążane w trakcie operacji zapisu, to cała archiwizacja będzie wykonywana wolniej. Jeśli w trakcie równoczesnej archiwizacji z wielu komputerów obciążenie procesora jest zbliżone do maksimum, należy zastanowić się nad wymiana dysku lub zmianą procesora na wydajniejszy. W tym miejscu należy też zwrócić uwagę, że duże obciążenie CPU może być wynikiem przełączenia trybu obsługi dysku twardego z DMA (ang. Direct Memory Access - bezpośredni dostęp do pamięci) na tryb PIO (ang. Programmed Input Output - programowane wejście/wyjście). Przełączenie takie może nastąpić po wykryciu usterek związanych z dyskiem twardym, ale często jego przyczyna jest mechanizm obsługi dysków IDE wbudowany w system Windows 2000, Windows XP i Windows 2003. Szczegółowe informacje na ten temat znajdują się w artykule: "Po wystąpieniu wielu błędów przekroczenia limitu czasu i CRC dyski IDE ATA oraz ATAPI zostają przełączone do trybu PIO".

Awaryjność dysków twardych

Jeśli chodzi o bezpieczeństwo danych to, przy wyborze dysku twardego, powinno się także zwrócić uwagę na wartość współczynnika MTTF (Mean Time To Failure), którym producenci dysków twardych oznaczają średni czas (w milionach godzin) bezawaryjnej pracy. Im większa wartość tego współczynnika tym dłuższa żywotność dysku.





5. Dyski sieciowe (NAS)

Ze względu na wydajność, stabilność oraz mniejsze obciążenie sieci, lepiej jest archiwizować dane na dyski lokalne serwera backupu (wewnętrzne dyski i macierze dyskowe oraz zewnętrzne dyski i pamięci masowe podłączane do serwera backupu przy pomocy złącza SCSI, eSATA, USB). Dyski sieciowe (NAS) można wykorzystać do replikacji archiwów.

Odseparowanie sieci

Jeżeli mimo wszystko zdecydujemy się na stosowanie dysków sieciowych, należy pamiętać o kilku rzeczach. Dysk sieciowy powinien charakteryzować się jak najwyższą szybkością zapisu i odczytu. Połączenie serwera backupu z dyskiem NAS powinno być zrealizowane przy wykorzystaniu sieci gigabitowej. Nejlepszym rozwiązaniem jest wydzielenie tego połączenia z pozostałej części sieci LAN, aby duży ruch sieciowy generowany przez zapis danych na dysku sieciowym nie spowalniał innych operacji sieciowych. Odseparowanie sieci można zrealizować poprzez zamontowanie w serwerze backupu dwóch kart sieciowych: jedną należy podłączyć do firmowej sieci LAN, a drugą bezpośrednio do serwera NAS.

iSCSI, CIFS czy FTP?

Serwer backupu może zapisywać i odczytywać dane z dysku NAS korzystając z różnych protokołów sieciowych. Ze względu na największą wydajności i stabilność połączenia najlepiej skorzystać z połączenia iSCSI. Jeżeli serwer NAS nie obsługuje tego protokołu (wszystkie dobre dyski sieciowe go obsługują), można skorzystać z połączenia SMB/CIFS i podmapować udział serwera NAS bezpośrednio w programie FBS Server. Trzeci z protokołów sieciowych, które najczęściej są stosowane w dyskach NAS - protokół FTP - należy wykorzystywać w ostateczności. Protokół FTP jest wydajny tylko przy przesyłaniu dużych plików w sposób sekwencyjny. Serwer backupu musi mieć zagwarantowany szybki dostęp do odczytu i zapisu fragmentów archiwów w sposób losowy. Program FTPUSE potrafi emulować losowy dostęp do plików zgromadzonych na serwerze FTP, ale jest to rozwiązanie bardzo mało wydajne.

Więcej informacj na temat archiwizacji na dyski sieciowe zostało przedstawionych w artykule: Backup na dysk sieciowy



Serwer archiwizacji danych - wybór najlepszej bazy sprzętowej i systemowej
Wszelkie prawa zastrzeżone. © 2000-2022 FERRO Software