Дедупликация данных. Повышение безопасности и производительности

Время на прочтение: 2 мин

В условиях перманентного увеличения количества данных в геометрической прогрессии наиболее остро встают вопросы хранения и безопасности. Облачные вычисления стали основным двигателем трансформации бизнеса, помогая компаниям адаптироваться к ускоренной цифровизации экономики, особенно после появления Covid-19.

В области пропускной способности сети и хранения зашифрованных данных, интерес представляет технология дедупликации,1Дедупликация – это процесс удаления лишних копий информации с целью снижения расходов на хранение и оптимизации объема хранилища данных. которая широко используется в облачных хранилищах. Дублирование данных связано с компанией Dell/EMC, которая начала производство устройств дедупликации около 20 лет назад. Согласно прогнозам, мировой рынок дедупликации данных будет расти со среднегодовым темпом роста от 8,5% до 27,8%. А размер рынка достигнет к 2025 году 8,92 млрд долл. и 353 млрд долл. к 2028 году.

Дедупликация наиболее эффективна, если несколько пользователей отправляют в хранилище одни и те же данные. Однако здесь возникают проблемы безопасности и права собственности. Существуют два вида дедупликации: на уровне файла и на уровне блока данных; и три типа: встроенная, то есть на стороне источника данных (минимизирует требования к хранилищу и подходит для небольших конфигураций хранилища, а также для сред репликации2Репликация – это процесс поддержания двух (или более) наборов данных в согласованном состоянии), постпроцессная (отделяет дедупликацию от любых процессов резервного копирования) и транзитная (не требует ожидания завершения резервного копирования).

Основные тенденции развития в области дедупликации данных определяются пятью направлениями:

переход на полностью программную дедупликацию. В частности, на облачные архитектуры;

выбор типа дедупликации в зависимости от задач;

глобальность дедупликации заключается теперь не только в передаче данных между двумя блоками и сравнении одного с другим. Сегодня она обеспечивает высокопроизводительное резервное копирование, восстановление, оптимизацию емкости и снижения затрат;

дедупликация на основе подфайлов или блоков повышает эффективность, поскольку данные разбиваются на подблоки и им присваивается идентификационный ключ. Если идентифицированы два идентичных хэш-ключа, блоки идентичны. Как только определено, что блок данных уже существует в репозитории дедупликации, этот блок заменяется указателем, связывающим новый подблок с существующим блоком в репозитории.

Последние исследования сосредоточены на разработке подходов к дедупликации данных с динамичным подходом к владению данными. Однако большинство предложенных методов отражаются на производительности при сильном динамическом изменении владения данными.

В частности, китайские ученые предложили новый метод дедупликации на основе источника данных в рамках гибридной облачной архитектуры. То есть, общедоступное облако управляет хранилищем, а частное выступает владельцем данных для дедупликации и динамического управления собственностью. Это позволяет блокировать утечку данных со стороны пользователей, которые раньше владели данными и со стороны облачного серверного хранилища. Кроме этого, этот подход протестирован на предмет целостности данных против атак коллизии и ложного3Коллизионная атака в криптографии — поиск двух различных входных блоков криптографической хеш-функции, производящих одинаковые значения хеш-функции, то есть коллизию хеш-функции. срабатывания.

Ученые из Индии предлагают модель многоуровневого хранилища. Данные в рамках методологии разделяются на три части. Первые две части хранятся в локальной систему и «туманных» узлах4Туманные» узлы ‑ это устройства, составляющие инфраструктуру туманных вычислений, которые позволяют хранить данные между облаком и физическим устройством. для защиты данных. Другая часть сохраняется в облаке. Предлагаемая архитектура MLS обеспечивает более низкие вычислительные затраты и более высокую скорость. Это также позволяет использование безопасных протоколов обмена, повышающих общую безопасность.

В журнале Симметрия (MDPI) опубликована статья по архитектуре дедупликации прямой децентрализованной симметрии в облачном сценарии, которая позволяет повысить эффективность дедупликации за счет двухуровневой организации перенаправления данных и использования индекса последовательности.

  • 1
    Дедупликация – это процесс удаления лишних копий информации с целью снижения расходов на хранение и оптимизации объема хранилища данных.
  • 2
    Репликация – это процесс поддержания двух (или более) наборов данных в согласованном состоянии
  • 3
    Коллизионная атака в криптографии — поиск двух различных входных блоков криптографической хеш-функции, производящих одинаковые значения хеш-функции, то есть коллизию хеш-функции.
  • 4
    Туманные» узлы ‑ это устройства, составляющие инфраструктуру туманных вычислений, которые позволяют хранить данные между облаком и физическим устройством.