Backup, بکاپ

Data Deduplication چیست؟ چطور اطلاعات را فشرده می کند؟

اصطلاح data deduplication  که بعضا با عنوان فشرده سازی هوشمند اطلاعات و یا حذف اطلاعات همسان از داده ها شناخته می شود ، به فرآیندی گفته می شود که در طی آن اطلاعات تکراری حذف می شوند و حجم اشغال شده آنها از سیستم ذخیره سازی آزاد می گردد.

با Data Deduplication می توانید اطمینان حاصل کنید که فقط یک نسخه از هر نوع اطلاعاتی در سیستم ذخیره سازی نگهداری می شود با اینکه ممکن است شما چندین کپی از اطلاعات را در مکان های مختلف ذخیره کرده باشید.

برای درک بهتر این موضوع به مثالی ساده رجوع می کنیم ، در یک سرور ایمیل ممکن یک ایمیل با پیوستی 1 مگابایتی به صد نفر ارسال شود ، در شرایط عادی منطقا باید این ایمیل حداقل 100 مگابایت فضای سرور ایمیل را اشغال کند، اما در صورتیکه از تکنولوژی Deduplication در سیستم ذخیره سازی استفاده کرده باشیم تنها یک نسخه از پیوست 1 مگابایتی در دیسک ذخیره خواهد شد و باقی نسخه ها به همان یک نسخه ارجاع داده می شوند.

مشخصا سیستم هایی که عملیات Deduplication را انجام می دهند بسیار پیشرفته تر از این و در سطح bit و Block اطلاعات را بررسی و حذف می کنند ، همچنین تمامی آنها مکانیزم های فوق پیشرفته ای برای مدیریت نگهداری نسخه های اطلاعات و زمان حذف آنها دارند.

Deduplication معمولا در  نرم افزار های بکاپ پیشرفته ، سیستم های آرشیو و بعضا در سیستم های ذخیره سازی اولیه (VM SAN) استفاده می شوند.
فشرده سازی با Deduplication در مبدا ، مقصد و سیستم ذخیره سازی
فشرده سازی اطلاعات یا دیتا دیداپلیکیشن می تواند در  سه سطح معمولا انجام شود .


  • فشرده سازی در مبدا Source Deduplication

  • فشرده سازی در مقصد Destination Deduplication

  • فشرده سازی در سیستم ذخیره سازی Storage Deduplication 


فشرده سازی در مبدا Source Deduplication


در این شیوه اطلاعات در مبدا و قبل از ذخیره سازی فشرده می شوند و فرایند دیداپلیکیشن بر روی آنها انجام می شود.

به عنوان مثال وقتی فایلی به حجم 4 گیگابایت را از طریق شبکه بر روی سروری ذخیره می کنید ، در حالت عادی 4 گیگابایت اطلاعات باید از طریق کابل به سوییچ و دوباره به سرور مقصد منتقل شود ، اما در حالتی که از source deduplication استفاده کنید ، دیتا همسان ابتدا حذف می شود و فقط بیت های منحصر به فرد از طریق شبکه به سرور مقصد منتقل می شوند.

در حالت اول ترافیک جابجایی شبکه 4 گیگابایت خواهد بود و در حالت فشرده سازی در مقصد جابجایی 0.5 گیگابایت خواهد بود. با استفاده از این شیوه میتوانید  ترافیک شبکه  و  زمان جابجایی اطلاعات را کاهش دهید و عین حال از مزایای اشغال حجم کمتر دیسک استفاده کنید.

فشرده سازی در مقصد Target deduplication


در این شیوه اطلاعات از مبدا بدون هیچ پردازشی ارسال می شوند و فرایند دیداپلیکیشن و فشرده سازی اطلاعات در سمت مقصد ( سرور) بر روی آنها انجام می شود.

دیداپلیکیشن در مقصد معمولا زمانی استفاده می شود که مبدا امکان Data Deduplication را ندارد. ( به علت عدم پشتیبانی از تکنولوژی فشرده سازی یا مشغول بودن بیش از حد سرور)

فشرده سازی در سیستم ذخیره سازی Storage Deduplication


در Storage Deduplication اطلاعات از مبدا بدون پردازش به مقصد می رسند و  از آنجا نیز معمولا بدون انجام پردازش بر روی سیستم ذخیره سازی(SAN / NAS) کپی می شوند، سپس توسط سیستم ذخیره سازی فراینده حذف دیتا همگون انجام می شود.

از مزایای این شیوه می توان به دستیابی به نرخ بیشتر فشرده سازی و حذف بار فرایند Deduplication از سرور ها اشاره نمود.اکثر سیستم های ذخیره سازی مدرن معمولا به صورت پیش فرض یا با لایسنس امکان انجام فرایند Deduplication را دارند ، اما Storage های مخصوص Backup مانند EMC DataDomain و  Netbackup Appliance معمولا امکانات بیشتر و بازده بهتری را در این زمینه ارائه می کنند.
جابجایی آسان اطلاعات

افزایش سرعت انتقال اطلاعات

کاهش هزینه

تکنیک های Deduplication داده

برای deduplicate نمودن اطلاعات دو تکنیک اصلی وجود دارد ، Inline Deduplication و Post-processing Deduplication  و سیستمی که وظیفه فشرده سازی اطلاعات شما را دارد قاعدتا با یکی یا ترکیبی از این شیوه ها اطلاعات شما را فشرده خواهد کرد.

دیداپلیکیشن لحظه ای (Inline Deduplication)


داده ها را  در لحظه ورود به چرخه سیستم بکاپ یا ذخیره سازی شما بررسی و فشرده سازی می کند و اطلاعاتی که بر روی دیسک ذخیره می شوند Deduplicate شده هستند.

دیداپلیکیشن بعد از ذخیره سازی (Post-processing deduplication)


داده ها بعد از ذخیره شدن بر روی دیسک و معمولا در بازه های زمانی مشخص بررسی و Deduplicate می شوند.
  • Text Hover
File Level De-duplication در مقابل Block Level De-duplcation
هر سیستم dedup با هر تکنیک یا شیوه ای باشد از یکی از دو حالت زیر برای بررسی داده ها استفاده میکند.


  • بررسی فایل ها (File level Deduplication)

  • بررسی بلاک های داده (Block Level Deduplication)


در  حالت file level deduplication سیستم فایل ها را با هم مقایسه می کند و سعی بر آن دارد تا فقط یک نسخه از فایل های همسان را نگهداری کند ، این شیوه خیلی بازده بالایی ندارد زیرا تنها فایل های 100% مشابه از سیستم حذف می شوند.

اما در حالت block level deduplication سیستم هر فایل را به چندین قسمت تقسیم(به صورت هوشمند) می کند و از هر قسمت خروجی HASH آن را تهیه می کند و آن HASH را با دیگر بخش های باقی اطلاعات موجود مقایسه ، همسان سازی و حذف میکند.

برای مقایسهfile level dedup   با block level dedup ، می توانیم یک فایل سرور را بررسی نماییم.

در یک فایل سرور  اگر 10 فایل داشته باشیم که  5 تا از آنها Word و کپی یک دیگر باشند و پنج فایل دیگر PDF ، Excel ، ZIP ، Power Point باشند و هر کدام از ده فایل 1 مگابایت حجم داشته باشند در دو حالت ذکر شده نتایج فشرده سازی به شرح زیر خواهد بود.

در حالت file level deduplication پنج فایل Word مشابه با حجم 5 مگابایت به بک نسخه تقلیل داده می شوند و4 مگابایت در فضا صرفه جویی می شود.

ما در حالت Block level deduplication پنج فایل مشابه Word با هم یکی می شوند و باز هم امکان اینکه بلاک هایی از باقی فایل ها با همدیگر یکی باشد بسیار زیاد است و  حدوداً می توان گفت که 6 مگابایت در فضا صرفه جویی می کنیم.

البته این مثال در مقیاس بسیار کوچک است و شما معمولا (بسته به الگوریتم و نوع اطلاعات) بین 3 تا 12 برابر با مکانیزم Block Level deduplication در فضای ذخیره سازی صرفه جویی می کنید.
تفاوت Compression با Deduplication

تفاوت های اساسی زیادی بین Deduplication  و Compression وجود دارد شاید از اصلی ترین آنها بتوان به صورت خلاصه به موارد زیر اشاره نمود.


  • Compression با استفاده از الگوریتم های خاص سعی بر کم کردن بیت های مورد نیاز برای ارائه یک فایل یا رشته فایل دارد.

  • Deduplication در حالت کلی به دنبال بلاک داده های همسان و حذف آنها در کل اطلاعات ( نه فقط یک یا چند فایل ) است.

  • همچنین Compression معمولا بخشی از فرایند Deduplication است.


شایان ذکر است معمولا Data De-duplication به کل و یا قسمت زیادی از سیستم ذخیره سازی توجه دارد و دیتا های موجود را به صورت Global بررسی می کند ، اما شیوه های Compression مانند ZIP و یا RAR عمل می کنند و تمرکز بر تعداد یا بخش محدودی از فایل ها در سیستم دارند.

 
کجا از Deduplication استفاده می شود؟

فشرده سازی به شیوه Deduplication معمولا در بهترین حالت برای سیستم های Backup و Archive اطلاعات استفاده می شود.

نرم افزار های مثل Backup Exec و Netbackup دارای پیشرفته ترین الگوریتم ها و سیستم های Dedupe نمودن اطلاعات هستند ، همچنین سیستم های ذخیره سازی مخصوص بکاپ مانند EMC DataDomain که امکان یکپارچه سازی با محصولات وریتاس را دارند دارای بازده بسیار خوبی برای Dedupe نمودن اطلاعات بکاپ هستند.

اما Deduplication فقط مختص سیستم های Backup نیست و معمولا امروزه فایل سرور ها (Windows Server 2012 R2+ )  و SAN Storage های محیط مجازی نیز از این تکنولوژی فشرده سازی برای کاهش هزینه ها استفاده می کنند.شاید از موارد دیگر پر کاربرد Deduplication می توان به Data Replication و سناریو های Disaster Recovery اشاره نمود.

شرکت Veritas با محصولات نرم افزاری و سخت افزار  پیشرو در زمینه Backup  ، Archive ، Disaster Recovery و SDS دارای یکی از پیشرفته ترین و مطمئن ترین مکانیزم های فشرده سازی اطلاعات است.

نویسنده


مهرداد حیدری