vol.10 注目を集める重複排除機能とは?

2013/03/20

SNSやソーシャルメディアをはじめとした様々なサービスが広がったことで、扱っているデータ量は爆発的に増え続けています。データ保護の観点からバックアップを行う際にも、より多くの時間とストレージ容量が必要になっているケースも少なくありません。そこで注目されている技術が、バックアップツールが備えている「重複排除技術」です。

この機能は、読んで字のごとく“重複しているデータを取り除く”ことが可能な技術で、バックアップしたいデータの中身を分析し、同じデータがあればそれを取り除いてくれる機能です。この技術を使えば、重複したデータを排除することでストレージ容量の無駄を省き、バックアップにかかる時間を削減することができるようになります。

この重複排除技術には、ファイル単位で重複を判断するものと、より細かなブロック単位で判断するものがあります。ファイル単位の場合、1文字だけでも情報が変更されていれば重複したデータとはなりませんが、ブロック単位であればより詳細に重複が排除できるため、重複排除率は高くなります。なお、ブロック単位の重複排除には、ブロックの長さが固定された固定長での方式と、状況によって柔軟に変更可能な可変長の方式に分かれます。最近では、重複排除率の高い可変長方式の製品が多く見られます。

また、重複排除の方式は大きく分けて2つの方法があります。ディスクに書き込む前に重複排除を行う「インライン方式」と、ディスクに書き込んだ後に重複排除を行う「ポストプロセス方式」です。ポストプロセス方式の場合、すべてのデータをいったんストレージに書き込む必要があるため、大量のストレージ容量が必要になるだけでなく、ディスクに書き込む際のI/Oに負荷がかかり、バックアップウィンドウが増大する傾向にあります。そのため、メモリ上で重複排除を行い、重複排除後のデータをディスクに書き込むインライン方式のほうが現在では主流となっています。

他にも、ストレージ側で重複排除を行う方式と、保護対象のサーバ側で重複排除を行い、重複排除後のデータをストレージに送る方式があります。遠隔地のデータをバックアップする場合、後者の方式であればWANに大量のデータを流すことなくバックアップウィンドウが短縮可能です。

ただし、音声や映像、画像、暗号化されたデータなどでは、あまり重複排除の効果が出ないケースが多いようです。だからこそ、導入前には実環境でテストを行い、どの程度重複排除の効果があるのかはしっかりと確認しておきたいところです。