Windows Server Data Deduplication

Allgemein

19. Sept.

Microsoft hat Windows Server 2012 mit Data Deduplication ein interessantes neues Feature zur effizienteren Nutzung von vorhandenem Festplattenspeicher spendiert.In diesem Artikel erkläre ich was der Dienst macht, welchen Nutzen er hat und worauf Sie achten sollten.

Data Deduplication zerlegt Dateien in kleinere Stücke, komprimiert diese und vergleicht, ob ein solches Stück bereits gespeichert wurde. Ist dies der Fall, wird es kein zweites mal gespeichert, sondern lediglich ein Verweis angelegt. Hier eine Beispielgrafik:

Damit sind Platzeinsparungen von 30% bis zu 95% möglich, je nach Art der Dateien. Genauere Informationen erhalten Sie in [1] unter Step 2.

Was sind die Voraussetzungen?

Es wird ein Windows Server 2012 mit installierter Data Deduplication Rolle benötigt und ein NTFS-Laufwerk (derzeit sind keine anderen Dateisysteme unterstützt, auch nicht das neue ReFS). Die Systemanforderungen sind relativ gering. Minimum sind ein physischer CPU Kern sowie 4GB RAM. Man sollte beachten, dass sich dies auf ein zu verwaltendes Laufwerk bezieht. Für jedes weitere Laufwerk wird ein weiterer Kern, sowie mindestens 350MB RAM benötigt.

Die Installation

Im Servermanager finden Sie die Funktion unter „Add Roles and Features“ bei „File and Storage Service“ -> „File and iSCSI Services“ -> „Data Deduplication“. Nach der Installation haben Sie Zugriff auf das Evaluationstool „ddpeval.exe“ mit dem sich potentielle Platzeinsparungen auf Laufwerken errechnen lassen.

Wie wende ich die Rolle auf Laufwerke an und wo ist sie sinnvoll?

Im Servermanager gehen Sie auf „File and Storage Services“ -> „Volumes“ und durch einen Rechtsklick auf das gewünschte Laufwerk wählen Sie „Configure Data Deduplication“. Ein neues Fenster erscheint und Sie können das Laufwerk zur Deduplikation freischalten. Planen Sie jedoch im Voraus, welches Laufwerk Sie freischalten und was dort gespeichert werden soll! Gute Ziele sind Laufwerke, auf denen Daten abgelegt sind, die selten verändert werden, wie z.B. ISO-Files. Nicht unterstützt werden Exchange und SQL Server, sowie System- oder Bootvolumes und derzeit Cluster Shared Volumes (CSVs) und remotely-mapped Laufwerke.

Eine gute Dokumentation hierzu finden unter [1].

Welche Leistung benötigt Data Deduplication?

Die Standard-Richtlinien zur Arbeit der Data Deduplication geben folgendes Verhalten vor: Der Dienst läuft im Hintergrund ab. Für jedes hinzugefügte Laufwerk wird einmal pro Stunde ein Job erstellt der ca. 25% des Arbeitsspeichers verwendet. Wenn die Speicherauslastung auf dem System zu hoch ist, pausiert der Dienst und nimmt seine Arbeit erst nach der Leistungsspitze wieder auf. In den Deduplicationseinstellungen für das Laufwerk kann zusätzlich ein Plan für weitere (auch höherperformante) Durchläufe angelegt werden. Desweiteren lässt sich die Data Deduplication auch manuell über die Powershell starten.

Das Laufwerk selbst, auf dem der Dienst angewendet wird, leidet beim Schreiben unter keinerlei Leistungseinbußen. Beim Kopieren einer großen Datei sind zwar kleine Performanceeinbußen spürbar, handelt es sich aber um mehrere Dateien, ist ein Leistungsgewinn spürbar.

Wenn Sie tiefer in die Materie einsteigen möchten, empfehle ich Ihnen das folgende TechNet Video [2].

[1]: http://technet.microsoft.com/en-us/library/hh831700.aspx
[2]: http://technet.microsoft.com/en-us/video/windows-server-2012-data-deduplication.aspx