Rambler's Top100
Статьи
Илья БОРНЯКОВ   19 сентября 2025

Компрессия и дедупликация данных: интеллектуальные технологии управления корпоративными системами хранения

Системы оптимизации данных способны обеспечить существенную экономию ресурсов хранения, снизить капитальные и операционные затраты на ИТ-инфраструктуру. Однако важно правильно выбрать методы компрессии и дедупликации и определить сценарии, в которых их применять не следует.

Темпы роста объема данных опережают развитие инфраструктуры для их эффективного хранения. Хотя российский сегмент решений для управления данными и их обработки и хранения, по оценкам Центра стратегических разработок, демонстрирует положительную динамику — с 56 млрд руб. в 2022 г. до прогнозируемых к 2027 г. 170 млрд руб., — этого недостаточно для покрытия растущих потребностей. К тому же, согласно исследованиям CNews Analytics, в неструктурированных данных количество дублей может доходить до 90%. Вследствие этого остро встает проблема неэффективного использования хранилищ, и корпоративные СХД с встроенными технологиями компрессии и дедупликации становятся ключевым решением для российских организаций.

Компрессия и дедупликация: базовые понятия и алгоритмы

В начале развития технологий оптимизации данных компрессия решала задачу экономии места на дискетах и ускорения передачи информации по медленным каналам связи. Дедупликация появилась значительно позже как ответ на рост объемов корпоративных данных с целью устранения избыточности в системах резервного копирования. Сегодня эти механизмы — неотъемлемая часть системы хранения данных, которая работает прозрачно для приложений и адаптируется под конкретные бизнес-задачи.

Компрессия

Работает как «умный архиватор»: при компрессии данные (файлы, блоки, потоки) анализируются и переупаковываются в компактный формат с сохранением 100% информации. Алгоритм выявляет повторяющиеся элементы в структуре и заменяет их более сжатыми формами. Обработка происходит в реальном времени на уровне блоков (4–128 кбайт). Подбор метода зависит от структуры, скорости и требуемой степени сжатия (табл. 1).
  • Gzip обеспечивает максимальное сжатие данных. Алгоритм создает высокую нагрузку на процессор при записи (особенно на уровнях 6–9), но низкую при чтении. Оптимален для архивных данных, где важна максимальная экономия места, а скорость обработки не критична. Подходит для хранения исторических логов приложений и резервных копий СУБД, к которым обращаются реже одного раза в неделю.
  • LZ4 вызывает минимальную задержку при обработке данных. Нагрузка на процессор в 3–5 раз ниже, чем у Gzip, и практически не влияет на производительность даже на слабых процессорах. Единственный алгоритм с мгновенной распаковкой. Рекомендован по умолчанию для 90% рабочих нагрузок. Идеален для транзакционных баз данных (PostgreSQL OLTP), кэшей Redis и виртуальных машин с высокой дисковой активностью.
  • LZJB разработан для простых структурированных данных с естественной избыточностью. Нагрузка на процессор очень низкая (сопоставимая с LZ4), но степень сжатия на 15–20% меньше. Разработан для файловой системы ZFS и эффективен на данных размером менее 1 Мбайт. Подходит для систем сбора телеметрии, конфигурационных файлов и JSON-документов.
  • ZLE (Zero Length Elimination) предназначен для специализированных данных с длинными последовательностями нулевых байтов. Практически нулевая нагрузка на процессор — алгоритм не выполняет вычислений, а просто заменяет нулевые блоки метаданными. Не является полноценным компрессором и бесполезен для текста или медиафайлов. Эффективен для разреженных файлов виртуальных дисков, дампов памяти и RAW-образов сенсоров.
  • Zstd — универсальное решение для смешанных нагрузок, обеспечивающее баланс между скоростью LZ4 и степенью сжатия Gzip. Нагрузка зависит от уровня (1–19): zstd-1 работает как LZ4, zstd-19 — как Gzip-9, но на 30% быстрее. Подходит для виртуальных машин Kubernetes, DevOps-артефактов и файловых хранилищ NFS.
Таблица 1. Сравнение алгоритмов компрессии для быстрого выбора

 Алгоритм Приоритет Экономия места Скорость Идеальные данные
 Gzip Максимальное сжатие ★★★★☆ ★☆☆☆☆  Архивы, логи, бэкапы
 LZ4 Минимальная задержка ★★☆☆☆ ★★★★★ OLTP БД, кэши, «горячие» данные
 LZJB Простота ★★☆☆☆ ★★★★☆ Тексты, структурированные данные
 ZLE Нулевые блоки ★☆☆☆☆ (спец.) ★★★★★ Виртуальные диски, дампы
 Zstd  Баланс ★★★★☆  ★★★★☆ Универсальные рабочие нагрузки

Дедупликация

Действует глобально: система вычисляет «цифровые отпечатки» (уникальные идентификаторы, хеши) для каждого блока данных и хранит только одну копию идентичных блоков для всех пользователей, проектов или виртуальных машин. Вместо дублирования информации создаются ссылки на единственную физическую копию данных. Дедупликация работает со всеми данными в системе и автоматически выбирает подходящий алгоритм. При выборе учитываются тип данных, нагрузка на систему и уровень защиты (табл. 2).
  • Verify обеспечивает максимальную скорость обработки при низкой нагрузке на процессор. Алгоритм быстрый, но не слишком надежный, поскольку не использует криптостойкие хеши. Подходит для тестовых сред или работы с данными, где вероятность коллизий хешей минимальна.
  • Sha256 оптимален по балансу скорости и надежности для большинства рабочих нагрузок. Средняя нагрузка на процессор при хорошей производительности и умеренных вычислительных затратах. Идеален для корпоративных сред с частым резервным копированием или множеством копий однотипных данных, включая системы VDI.
  • Sha512 обеспечивает максимальную защиту данных для критически важной информации с высокими требованиями к целостности. Высокая нагрузка на процессор, но минимальный риск коллизий. Подходит для медицинских записей, финансовых транзакций и зашифрованных архивов, где даже малейшая ошибка недопустима.
  • Skein предоставляет криптостойкость нового поколения для специализированных задач. Очень высокая нагрузка на процессор, но максимальная защита от атак на хеши. Применяется в оборонных или научных проектах с особыми требованиями к безопасности, включая системы, отвечающие требованиям ГОСТ и ФСТЭК.
Коллизия — это крайне редкая ситуация, когда разные данные случайно получают одинаковый хеш. Вероятность этого сравнима с шансом:
  • найти одну конкретную песчинку на всех пляжах Земли (sha256);
  • выиграть джекпот в лотерее 10 раз подряд (sha512);
  • для skein коллизия теоретически возможна, но требует вычислительных ресурсов, недоступных человечеству.
Таблица 2. Сравнение алгоритмов дедупликации: оптимальный выбор

 Алгоритм Уровень целостности данных* Производительность Оптимальные сценарии использования Ключевое преимущество
 Verify ★☆☆☆☆ ★★★★★ Тестовые среды, временные данные  Максимальная скорость обработки
 Sha256 ★★★★☆ ★★★★☆ Виртуальные инфраструктуры, файловые хранилища Идеальный баланс скорости и защиты
 Sha512 ★★★★★ ★★☆☆☆  Регулируемые отрасли (финансы, медицина) Future-proof защита данных
 Skein ★★★★★ ★☆☆☆☆ Системы с особыми требованиями (ГОСТ, ФСТЭК)  Криптостойкость нового поколения
*Уровень целостности данных показывает гарантию того, что каждый уникальный фрагмент данных сохраняется без изменений и ошибок при работе системы дедупликации

Важно: для большинства сценариев (VDI, резервные копии, СУБД) оптимален sha256. Skein стоит выбирать только при наличии соответствующих нормативных требований.

Сценарии совместного применения компрессии и дедупликации

Компрессию и дедупликацию можно применять вместе, так как они работают на разных уровнях. Обычно система сначала убирает одинаковые блоки (дедупликация), а потом сжимает уникальные данные (компрессия). Такой подход экономит еще больше места на дисках. Вот оптимальные комбинации для разных сценариев.

Виртуальные среды (ESXi, KVM, Hyper-V)

Виртуальные инфраструктуры характеризуются высокой избыточностью данных — одинаковые операционные системы, библиотеки и шаблоны виртуальных машин создают множество дублирующихся блоков. Оптимальная комбинация: дедупликация (sha256) + сжатие (zstd). Экономия места обычно составляет 85–90%.

Алгоритм sha256 обеспечивает оптимальный баланс целостности и производительности для структурированных данных виртуальных машин. Zstd по сравнению с lz4 увеличивает задержку лишь на 5–7%, но дает на 25–30% лучшее сжатие за счет эффективной обработки остаточных данных после дедупликации.

Контейнерные инфраструктуры (Kubernetes, OpenShift)

Контейнерные среды отличаются высокой степенью дублирования слоев образов — базовые образы операционных систем и популярных приложений используются множеством контейнеров. Оптимальная комбинация: дедупликация (sha256) + сжатие (lz4). Экономия на хранимых данных составляет 70–80%.

Глобальная дедупликация эффективно устраняет дубликаты слоев контейнеров. Алгоритм lz4 минимизирует задержки при запуске контейнеров, что критично для динамических сред.

Мультимедийные хранилища

Мультимедийные данные представляют собой уникальный контент с дублированием метаданных — видео и изображения обычно уникальны, но их описательная информация часто повторяется. Оптимальная комбинация: дедупликация (sha256) без сжатия. Экономия места за счет дедупликации составляет 15–30%.

Основные медиафайлы (видео, изображения) уже оптимизированы кодеком и плохо поддаются дополнительному сжатию. Дедупликация применяется только к метаданным EXIF/IPTC и превью.

Транзакционные СУБД (OLTP)

Транзакционные базы данных характеризуются уникальными данными и высокой чувствительностью к задержкам — каждая миллисекунда влияет на производительность системы. Оптимальная комбинация: сжатие (lz4) без дедупликации. Экономия составляет 20–35%.

Дедупликация неэффективна для уникальных транзакционных данных, но вносит задержки. Алгоритм lz4 обеспечивает минимальную задержку записи (менее 100 мкс) при заметном уменьшении объема операций ввода-вывода.

Аналитические хранилища (OLAP)

Аналитические системы отличаются высокой избыточностью в исторических данных — регулярные отчеты и срезы данных содержат множество повторяющихся блоков информации. Оптимальная комбинация: дедупликация (sha256) + сжатие (zstd). Итоговая экономия составляет 75–85%.

Дедупликация устраняет дубли в повторяющихся срезах данных. Алгоритм zstd (уровень 6) обеспечивает высокую степень сжатия колоночных данных при сохранении скорости доступа.

Зачем эти технологии нужны бизнесу?

Оценки российского рынка, сделанные аналитиками CNews, свидетельствуют о существенной экономии ресурсов при внедрении технологий оптимизации данных:
  • дедупликация снижает потребности в дисковой емкости в среднем от 10 до 30 раз, а в случаях работы с большим количеством неструктурированных данных — до 95%;
  • эффективные алгоритмы компрессии сокращают объем информации на 50%;
  • задействование тонких томов повышает эффективность использования емкости на 30–50%.
Внедрение компрессии и дедупликации снижает как капитальные, так и операционные расходы. CAPEX уменьшается, потому что компаниям не нужно покупать дополнительное оборудование для хранения. При коэффициенте дедупликации 10:1 предприятие может отложить закупку нового оборудования на несколько лет и потратить этот бюджет на другие ИТ-проекты. OPEX уменьшается, поскольку снижаются затраты на электричество, охлаждение и обслуживание физического оборудования.

Экосистема хранения без встроенных функций компрессии и дедупликации проигрывает по нескольким причинам:
  • неоптимизированные системы требуют избыточных инвестиций в оборудование для хранения идентичных данных;
  • отсутствие этих технологий приводит к увеличению времени резервного копирования и восстановления из-за обработки больших объемов данных;
  • организации, не внедрившие технологии оптимизации данных, сталкиваются с ограничениями пропускной способности сети при репликации данных между площадками.
Технологии компрессии и дедупликации особенно эффективны для некоторых типов бизнеса. Так, компании, которые активно используют виртуальные машины, получают максимальную выгоду от дедупликации, поскольку виртуальные среды содержат множество одинаковых операционных систем и приложений.

Организации с активным документооборотом значительно экономят на компрессии офисных файлов и архивов благодаря высокой степени сжатия текстовых данных.

Предприятия с требованиями к долгосрочному хранению данных — банки, медицинские учреждения, государственные организации — получают двойную выгоду: экономию пространства и снижение затрат на соответствие требованиям регуляторов к срокам хранения информации.

Подводные камни компрессии и дедупликации

Внедрение технологий компрессии и дедупликации требует тщательного планирования. Неправильная настройка может снизить производительность системы, а плохой выбор алгоритмов «съест» все плюсы от оптимизации хранения. Вместе с тем для ряда сценариев отключение дедупликации и компрессии оправдано с технической и экономической точек зрения.
  • Критически важные транзакционные системы. Для высоконагруженных OLTP-систем, таких как Oracle Database или PostgreSQL в режиме интенсивных транзакций, каждая миллисекунда задержки напрямую влияет на производительность бизнес-процессов. В этих случаях дополнительные вычислительные операции для дедупликации и компрессии могут создать неприемлемые задержки.
  • Предварительно обработанные данные. Данные, которые уже прошли сжатие (архивы ZIP, 7z) или шифрование, практически не поддаются дальнейшей оптимизации. Попытки применить к ним дедупликацию или компрессию не дают экономии места, но впустую расходуют процессорные ресурсы.
  • Временные рабочие наборы. Для данных с коротким жизненным циклом — кэшей приложений, временных файлов, промежуточных результатов вычислений — экономия дискового пространства не критична. В таких сценариях приоритет отдается скорости обработки.
  • Ограниченные вычислительные ресурсы. На периферийных (edge-) устройствах или системах с ограниченной производительностью процессоров дополнительная нагрузка от алгоритмов оптимизации может привести к общей деградации работы системы.
Равно как и облачные хранилища, виртуализацию СХД и технологии дедупликации нельзя рассматривать как панацею, хотя эти решения и позволяют повысить отдачу от инвестиций в ИТ.

* * *

Стремительный рост объемов корпоративных данных — серьезный вызов для российских организаций. Однако современные механизмы компрессии и дедупликации при правильном подходе к их внедрению позволяют эффективно справляться с этой проблемой. Ключ к успеху лежит в понимании специфики различных типов данных и рабочих нагрузок. Выбор подходящих алгоритмов, настройка параметров под конкретные задачи и грамотное сочетание технологий позволяют достичь впечатляющих результатов — от 50% экономии места при компрессии до 95% сокращения объемов при дедупликации неструктурированных данных. Важно, что российский рынок предлагает готовые решения, которые уже включают эти технологии.

Илья Борняков, генеральный директор ITPOD, корпорация ITG
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!