LinkedInTwitterFacebook

La déduplication : questions & réponses

Vous trouverez ci-dessous un ensemble de questions / réponses afin de répondre aux demandes récurrentes sur le sujet.

La déduplication ? Qu'est ce que c'est ?

La déduplication est une fonction qui va vous éviter de stocker des blocs de données (chunks) redondants dans vos pools de stockages. Vous réduirez donc vos besoins en espace disque, en temps de sauvegarde et vous économiserez donc de l'argent.

DEDUP_SDS
Ex : vous envoyez un email à vos 10 collaborateurs avec en pièce jointe un présentation Powerpoint de 5Mo. Cette présentation sera potentiellement sauvegardée 10 fois. Avec la déduplication elle ne le sera qu'une seule fois !

TSM propose d'autres moyens afin d'optimiser le stockage de vos données comme la compression client ou l'incrément en mode bloc (subfile backup).

Pourquoi utiliser la déduplication ?

La déduplication peut être très pertinente dans certains cas comme par exemple si vous souhaitez :

  • réduire vos besoins en espace disque
  • réduire les temps de sauvegarde de vos postes clients
  • mettre en place la réplication de vos postes vers un serveur cible (lisez notre article consacré au sujet)

Combien ça coute ?

Aucune licence TSM supplémentaire n'est nécessaire  !
Il faut cependant considérer que les pré-requis matériel sont plus importants avec la déduplication (quantité de mémoire, disques durs performants).

Existe t'il plusieurs méthodes de déduplication ?

Il existe deux types de déduplication bien différents :

  • la déduplication client : Les postes clients assurent le processus de déduplication. Particulièrement utile si vous disposez d'une faible bande passante et/ou si vous ne souhaitez pas augmenter la charge de votre serveur TSM. Vous obtiendrez par ailleurs de meilleurs résultats en la combinant à la compression client.
  • la déduplication serveur :
    Les données dupliquées sont identifiées une fois les données sauvegardées sur TSM. Le ou les processus d'identification doivent être lancés régulierement sur le serveur et auront pour conséquence une consommation accrue de CPU ainsi que des ressources de la base de données TSM. A utiliser si vos postes clients ne sont pas suffisamment robustes et si vous souhaitez être en mesure de créer rapidement des supports avec vos données non dédupliquées afin des les externaliser sur un site distant par exemple.

Quelles sont les limites de la déduplication ?

Si vous utilisez la déduplication, vous ne pourrez plus utilisez certaines des autres fonctionnalités proposées par TSM :

  • Compression cliente (ne doit pas être utilisé avec la déduplication serveur)

Dans le cas de la déduplication client :

  • HSM Unix
  • La sauvegarde incrémentale en mode bloc (subfile backup)
  • La taille minimum des fichiers élligibles est de 2Ko
  • Le cryptage des données à la source par le client TSM
  • Il n'est pas possible d'utiliser la fonction d'écriture simultanée (en Y) sur les storage pools TSM
  • Lan Free Backup

Ma déduplication est-t-elle performante ?

Vous savoir si votre déduplication est réellement pertinente il suffit de consulter le paramètre "Duplicate data not stored" de vos pools de stockage (q stgpool nom_du_pool f=d)
Vous verrez alors la quantité et le pourcentage d'espace économisé.

D'après IBM les taux de déduplication moyens observés oscillent entre 50% et 93% et dépendent bien évidemment du type de données sauvegardées. Un taux moyen de 66% semblent être une valeur raisonnable.

Efficacité de la déduplication en fonction du type de données

tableau_taux_dedup

 

Pourquoi ne pas utiliser une solution matérielle tierce dédiée à la déduplication ?

Les solutions matérielles de déduplication présentent l'avantage de pouvoir traiter rapidement des grosses volumétries de données mais leur cout reste assez élevé.
Elles sont donc à privilégier si vous disposez par exemple de plusieurs serveurs TSM pour lesquels vous souhaitez mettre en place la déduplication ou si vous êtes amenés régulièrement à sauvegarder de gros fichiers (de plusieurs centaines de Go)

La plupart des fabricants du marchés proposent leur propres solutions. (IBM, EMC, HP, NetApp, ...)

Des questions ?

Vous avez des questions concernant cet article ? Laissez-nous un commentaire ou contactez-nous directement via notre formulaire de contact.

Nous vous répondrons dans les plus brefs délais.