Poprzedni wpis zakończyliśmy obietnicą szerszej opowieści na temat deduplikacji i jej rodzajów. Nie przedłużając zmierzamy do meritum i na początek opowiemy czym jest deduplikacja w miejscu docelowym. W trakcie deduplikacji w miejscu docelowym, kopiujesz swoje dane do określonego miejsca na serwerze. Procesor przechowywania identyfikuje duplikaty danych oraz zachowuje tylko jedną kopię, kasując wszystkie pozostałe kopie. Jeśli potrzebujesz konkretnych danych znajdziesz je tylko jednym miejscu i w jednej kopii. Deduplikacja w miejscu docelowym może być wykonywana zarówno w trybie online jak również w  trybie offline. W przypadku deduplikacji  nowe dane są odbierane przez procesor podczas przechowywania, a "odcisk" danych jest w porównywany z istniejącymi danymi w czasie rzeczywistym. Jeśli te same dane  są już skopiowane to są pomijane. W trybie offline, dane są najpierw kopiowane do miejsca docelowego, skanowane w trybie offline, a następnie usuwa się zduplikowane dane i zachowuje tylko jedną kopię.
Wyobraźcie sobie, że trzymacie w szafie trzy identyczne koszule, a…nosicie tylko jedną z nich. Przecież zaoszczędzone miejsce można wykorzystać w o wiele bardziej racjonalny sposób!
Rozważmy jednak sytuację, w której na urządzeniach pracujących w waszej organizacji znajduje się wiele kopii pliku, a każdy nieco różni się od pozostałych (na przykład pliki, na których prowadzone są w tej chwili prace ). Używając deduplikacji w miejscu docelowym, każde urządzenie skopiuje swoją wersję pliku na warstwie sieciowej do pamięci zapasowej. Niezależnie od tego czy deduplikacja odbywa się w trybie online czy offline, procesor składowania w magazynie kopii zapasowych będzie skanować te pliki, by znaleźć unikalne treści i usunąć wszystkie duplikaty zachowując jedną kopię danych. Jednak może to stworzyć poważne trudności w związku z faktem, że każda wersja pliku musi być przesłana i rozpoznana przez sieć. To proces wysoce nieefektywny pod względem przepustowości, ale efekt końcowy gwarantuje, że pliki będą prawidłowo posortowane i zabezpieczone. A co jeśli moglibyśmy ustalić czy dane zostały już zapisane przed kopiowaniem, a nie wysyłać ich w ciemno? Taka metoda nazywa się metodą deduplikacji u źródła.

Czym jest lokalna deduplikacja u źródła?

W przypadku lokalnej deduplikacji u źródła, dane są najpierw skanowane lokalnie, następnie zachodzi proces identyfikacji unikalnych danych. Przeskanowane dane są następnie kopiowane. W tej metodzie dużą  zaletę stanowi wysyłanie unikatowych danych przez sieć.  Skanowanie i porównywanie tych informacji może bardzo mocno obciążyć CPU i pamięć urządzenia mobilnego. W przypadku bardzo dużych zbiorów danych metoda ta może być bardzo niewydajna dla urządzenia końcowego. Ponadto deduplikacja możliwa jest tylko w obrębie jednego urządzenia na raz. Jest to zatem metoda fantastyczna dla jednego urządzenia na przykład laptopa. Jednak w przypadku wielkich organizacji, których działania opierają się na przesyłaniu dużej ilości danych między sporą liczbą urządzeń metoda taka jest kompletnie nieefektowna.

Czym jest globalna deduplikacja u źródła?

I tu przychodzi nam z pomocą globalna deduplikacja u źródła. Stosując tę metodę, tak zwany „odcisk" danych jest analizowany w źródle, by następnie zostać przesyłanym do miejsca docelowego, gdzie porównany jest z istniejącymi danymi. Jeśli wszystko pasuje, niezależnie od  źródła, tylko odnośniki do danych zostaną skopiowane. Przez słowo "globalny”, mamy oczywiście na myśli czynności prowadzone na kontach wszystkich użytkowników i na wszystkich urządzeniach. Wraz ze wzrostem liczby użytkowników ilość zduplikowanych danych zaczyna narastać. Przy dołączeniu kolejnych użytkowników, tylko część całości ich kopii zapasowych danych będą musiała zostać przesłana. Zdecydowanie zmniejsza to zużycie pasma i zwiększa prędkość pracy. Druva podaje przykład, który zdecydowanie potwierdza, że globalna deduplikacja ma same plusy! Duża globalna firma konsultingowa w ciągu kwartału dzięki globalnej deduplikacji u źródła zaoszczędziła aż połowę transferu! Wszyscy użytkownicy mieli prawie 300 TB danych  zapasowych, mniej niż 150 TB tych danych zostało ostatecznie przeniesionych do chmury zapasowej. Stało się to możliwe dzięki deduplikacji skierowanej nie tylko do poszczególnych użytkowników, ale zastosowanej globalnie w całej organizacji. Globalna deduplikacja u źródła sprawia, że każdy użytkownik ma realny wpływ na oszczędzanie czasu i transferu stając się automatycznie trybem w wielkiej maszynie wykonującej backup danych. Po co tracić czas i miejsce na kopiowanie pliku, który już został skopiowany i od dawna bezpiecznie znajduje się na serwerze? W wielu firmach decyzja często sprowadza się do wybierania rozwiązania, które jest tańsze. Jednak wielkie organizacje powinny myśleć nie tylko o chwilowej oszczędności pieniędzy, ale też o inwestycji w czas i wygodę użytkowników czyli pracowników.  Udowodniono, że dzięki profesjonalnej deduplikacji zaoszczędzić można ogromną ilość, nawet 15 TB miejsca, w ciągu jednego roku! Bez korzystania z globalnej deduplikacji u źródła niektóre dane byłyby przesyłane na serwer dwu, a nawet trzykrotnie!  Samo zastosowanie metody deduplikacji to już wielki krok w życiu firmy. Jednak zdecydowanie się na najbardziej profesjonalną i kompleksową metodę deduplikacji globalnej sprawia, że siła i sprawność naszej firmy rośnie wraz z dołączeniem do firmy kolejnego pracownika. A przecież każdy profesjonalny biznesmen wie, że w zespole siła!