Илья БОРНЯКОВ	19 сентября 2025

19 сентября 2025

Компрессия и дедупликация данных: интеллектуальные технологии управления корпоративными системами хранения

Системы оптимизации данных способны обеспечить существенную экономию ресурсов хранения, снизить капитальные и операционные затраты на ИТ-инфраструктуру. Однако важно правильно выбрать методы компрессии и дедупликации и определить сценарии, в которых их применять не следует.

Темпы роста объема данных опережают развитие инфраструктуры для их эффективного хранения. Хотя российский сегмент решений для управления данными и их обработки и хранения, по оценкам Центра стратегических разработок, демонстрирует положительную динамику — с 56 млрд руб. в 2022 г. до прогнозируемых к 2027 г. 170 млрд руб., — этого недостаточно для покрытия растущих потребностей. К тому же, согласно исследованиям CNews Analytics, в неструктурированных данных количество дублей может доходить до 90%. Вследствие этого остро встает проблема неэффективного использования хранилищ, и корпоративные СХД с встроенными технологиями компрессии и дедупликации становятся ключевым решением для российских организаций.

Компрессия и дедупликация: базовые понятия и алгоритмы

В начале развития технологий оптимизации данных компрессия решала задачу экономии места на дискетах и ускорения передачи информации по медленным каналам связи. Дедупликация появилась значительно позже как ответ на рост объемов корпоративных данных с целью устранения избыточности в системах резервного копирования. Сегодня эти механизмы — неотъемлемая часть системы хранения данных, которая работает прозрачно для приложений и адаптируется под конкретные бизнес-задачи.

Компрессия

Работает как «умный архиватор»: при компрессии данные (файлы, блоки, потоки) анализируются и переупаковываются в компактный формат с сохранением 100% информации. Алгоритм выявляет повторяющиеся элементы в структуре и заменяет их более сжатыми формами. Обработка происходит в реальном времени на уровне блоков (4–128 кбайт). Подбор метода зависит от структуры, скорости и требуемой степени сжатия (табл. 1).

Gzip обеспечивает максимальное сжатие данных. Алгоритм создает высокую нагрузку на процессор при записи (особенно на уровнях 6–9), но низкую при чтении. Оптимален для архивных данных, где важна максимальная экономия места, а скорость обработки не критична. Подходит для хранения исторических логов приложений и резервных копий СУБД, к которым обращаются реже одного раза в неделю.
LZ4 вызывает минимальную задержку при обработке данных. Нагрузка на процессор в 3–5 раз ниже, чем у Gzip, и практически не влияет на производительность даже на слабых процессорах. Единственный алгоритм с мгновенной распаковкой. Рекомендован по умолчанию для 90% рабочих нагрузок. Идеален для транзакционных баз данных (PostgreSQL OLTP), кэшей Redis и виртуальных машин с высокой дисковой активностью.
LZJB разработан для простых структурированных данных с естественной избыточностью. Нагрузка на процессор очень низкая (сопоставимая с LZ4), но степень сжатия на 15–20% меньше. Разработан для файловой системы ZFS и эффективен на данных размером менее 1 Мбайт. Подходит для систем сбора телеметрии, конфигурационных файлов и JSON-документов.
ZLE (Zero Length Elimination) предназначен для специализированных данных с длинными последовательностями нулевых байтов. Практически нулевая нагрузка на процессор — алгоритм не выполняет вычислений, а просто заменяет нулевые блоки метаданными. Не является полноценным компрессором и бесполезен для текста или медиафайлов. Эффективен для разреженных файлов виртуальных дисков, дампов памяти и RAW-образов сенсоров.
Zstd — универсальное решение для смешанных нагрузок, обеспечивающее баланс между скоростью LZ4 и степенью сжатия Gzip. Нагрузка зависит от уровня (1–19): zstd-1 работает как LZ4, zstd-19 — как Gzip-9, но на 30% быстрее. Подходит для виртуальных машин Kubernetes, DevOps-артефактов и файловых хранилищ NFS.

Таблица 1. Сравнение алгоритмов компрессии для быстрого выбора

Алгоритм	Приоритет	Экономия места	Скорость	Идеальные данные
Gzip	Максимальное сжатие	★★★★☆	★☆☆☆☆	Архивы, логи, бэкапы
LZ4	Минимальная задержка	★★☆☆☆	★★★★★	OLTP БД, кэши, «горячие» данные
LZJB	Простота	★★☆☆☆	★★★★☆	Тексты, структурированные данные
ZLE	Нулевые блоки	★☆☆☆☆ (спец.)	★★★★★	Виртуальные диски, дампы
Zstd	Баланс	★★★★☆	★★★★☆	Универсальные рабочие нагрузки

Дедупликация

Действует глобально: система вычисляет «цифровые отпечатки» (уникальные идентификаторы, хеши) для каждого блока данных и хранит только одну копию идентичных блоков для всех пользователей, проектов или виртуальных машин. Вместо дублирования информации создаются ссылки на единственную физическую копию данных. Дедупликация работает со всеми данными в системе и автоматически выбирает подходящий алгоритм. При выборе учитываются тип данных, нагрузка на систему и уровень защиты (табл. 2).

Verify обеспечивает максимальную скорость обработки при низкой нагрузке на процессор. Алгоритм быстрый, но не слишком надежный, поскольку не использует криптостойкие хеши. Подходит для тестовых сред или работы с данными, где вероятность коллизий хешей минимальна.
Sha256 оптимален по балансу скорости и надежности для большинства рабочих нагрузок. Средняя нагрузка на процессор при хорошей производительности и умеренных вычислительных затратах. Идеален для корпоративных сред с частым резервным копированием или множеством копий однотипных данных, включая системы VDI.
Sha512 обеспечивает максимальную защиту данных для критически важной информации с высокими требованиями к целостности. Высокая нагрузка на процессор, но минимальный риск коллизий. Подходит для медицинских записей, финансовых транзакций и зашифрованных архивов, где даже малейшая ошибка недопустима.
Skein предоставляет криптостойкость нового поколения для специализированных задач. Очень высокая нагрузка на процессор, но максимальная защита от атак на хеши. Применяется в оборонных или научных проектах с особыми требованиями к безопасности, включая системы, отвечающие требованиям ГОСТ и ФСТЭК.

Коллизия — это крайне редкая ситуация, когда разные данные случайно получают одинаковый хеш. Вероятность этого сравнима с шансом:

найти одну конкретную песчинку на всех пляжах Земли (sha256);
выиграть джекпот в лотерее 10 раз подряд (sha512);
для skein коллизия теоретически возможна, но требует вычислительных ресурсов, недоступных человечеству.

Таблица 2. Сравнение алгоритмов дедупликации: оптимальный выбор

Алгоритм	Уровень целостности данных*	Производительность	Оптимальные сценарии использования	Ключевое преимущество
Verify	★☆☆☆☆	★★★★★	Тестовые среды, временные данные	Максимальная скорость обработки
Sha256	★★★★☆	★★★★☆	Виртуальные инфраструктуры, файловые хранилища	Идеальный баланс скорости и защиты
Sha512	★★★★★	★★☆☆☆	Регулируемые отрасли (финансы, медицина)	Future-proof защита данных
Skein	★★★★★	★☆☆☆☆	Системы с особыми требованиями (ГОСТ, ФСТЭК)	Криптостойкость нового поколения

*Уровень целостности данных показывает гарантию того, что каждый уникальный фрагмент данных сохраняется без изменений и ошибок при работе системы дедупликации

Важно: для большинства сценариев (VDI, резервные копии, СУБД) оптимален sha256. Skein стоит выбирать только при наличии соответствующих нормативных требований.

Сценарии совместного применения компрессии и дедупликации

Компрессию и дедупликацию можно применять вместе, так как они работают на разных уровнях. Обычно система сначала убирает одинаковые блоки (дедупликация), а потом сжимает уникальные данные (компрессия). Такой подход экономит еще больше места на дисках. Вот оптимальные комбинации для разных сценариев.

Виртуальные среды (ESXi, KVM, Hyper-V)

Виртуальные инфраструктуры характеризуются высокой избыточностью данных — одинаковые операционные системы, библиотеки и шаблоны виртуальных машин создают множество дублирующихся блоков. Оптимальная комбинация: дедупликация (sha256) + сжатие (zstd). Экономия места обычно составляет 85–90%.

Алгоритм sha256 обеспечивает оптимальный баланс целостности и производительности для структурированных данных виртуальных машин. Zstd по сравнению с lz4 увеличивает задержку лишь на 5–7%, но дает на 25–30% лучшее сжатие за счет эффективной обработки остаточных данных после дедупликации.

Контейнерные инфраструктуры (Kubernetes, OpenShift)

Контейнерные среды отличаются высокой степенью дублирования слоев образов — базовые образы операционных систем и популярных приложений используются множеством контейнеров. Оптимальная комбинация: дедупликация (sha256) + сжатие (lz4). Экономия на хранимых данных составляет 70–80%.

Глобальная дедупликация эффективно устраняет дубликаты слоев контейнеров. Алгоритм lz4 минимизирует задержки при запуске контейнеров, что критично для динамических сред.

Мультимедийные хранилища

Мультимедийные данные представляют собой уникальный контент с дублированием метаданных — видео и изображения обычно уникальны, но их описательная информация часто повторяется. Оптимальная комбинация: дедупликация (sha256) без сжатия. Экономия места за счет дедупликации составляет 15–30%.

Основные медиафайлы (видео, изображения) уже оптимизированы кодеком и плохо поддаются дополнительному сжатию. Дедупликация применяется только к метаданным EXIF/IPTC и превью.

Транзакционные СУБД (OLTP)

Транзакционные базы данных характеризуются уникальными данными и высокой чувствительностью к задержкам — каждая миллисекунда влияет на производительность системы. Оптимальная комбинация: сжатие (lz4) без дедупликации. Экономия составляет 20–35%.

Дедупликация неэффективна для уникальных транзакционных данных, но вносит задержки. Алгоритм lz4 обеспечивает минимальную задержку записи (менее 100 мкс) при заметном уменьшении объема операций ввода-вывода.

Аналитические хранилища (OLAP)

Аналитические системы отличаются высокой избыточностью в исторических данных — регулярные отчеты и срезы данных содержат множество повторяющихся блоков информации. Оптимальная комбинация: дедупликация (sha256) + сжатие (zstd). Итоговая экономия составляет 75–85%.

Дедупликация устраняет дубли в повторяющихся срезах данных. Алгоритм zstd (уровень 6) обеспечивает высокую степень сжатия колоночных данных при сохранении скорости доступа.

Зачем эти технологии нужны бизнесу?

Оценки российского рынка, сделанные аналитиками CNews, свидетельствуют о существенной экономии ресурсов при внедрении технологий оптимизации данных:

дедупликация снижает потребности в дисковой емкости в среднем от 10 до 30 раз, а в случаях работы с большим количеством неструктурированных данных — до 95%;
эффективные алгоритмы компрессии сокращают объем информации на 50%;
задействование тонких томов повышает эффективность использования емкости на 30–50%.

Внедрение компрессии и дедупликации снижает как капитальные, так и операционные расходы. CAPEX уменьшается, потому что компаниям не нужно покупать дополнительное оборудование для хранения. При коэффициенте дедупликации 10:1 предприятие может отложить закупку нового оборудования на несколько лет и потратить этот бюджет на другие ИТ-проекты. OPEX уменьшается, поскольку снижаются затраты на электричество, охлаждение и обслуживание физического оборудования.

Экосистема хранения без встроенных функций компрессии и дедупликации проигрывает по нескольким причинам:

неоптимизированные системы требуют избыточных инвестиций в оборудование для хранения идентичных данных;
отсутствие этих технологий приводит к увеличению времени резервного копирования и восстановления из-за обработки больших объемов данных;
организации, не внедрившие технологии оптимизации данных, сталкиваются с ограничениями пропускной способности сети при репликации данных между площадками.

Технологии компрессии и дедупликации особенно эффективны для некоторых типов бизнеса. Так, компании, которые активно используют виртуальные машины, получают максимальную выгоду от дедупликации, поскольку виртуальные среды содержат множество одинаковых операционных систем и приложений.

Организации с активным документооборотом значительно экономят на компрессии офисных файлов и архивов благодаря высокой степени сжатия текстовых данных.

Предприятия с требованиями к долгосрочному хранению данных — банки, медицинские учреждения, государственные организации — получают двойную выгоду: экономию пространства и снижение затрат на соответствие требованиям регуляторов к срокам хранения информации.

Подводные камни компрессии и дедупликации

Внедрение технологий компрессии и дедупликации требует тщательного планирования. Неправильная настройка может снизить производительность системы, а плохой выбор алгоритмов «съест» все плюсы от оптимизации хранения. Вместе с тем для ряда сценариев отключение дедупликации и компрессии оправдано с технической и экономической точек зрения.

Критически важные транзакционные системы. Для высоконагруженных OLTP-систем, таких как Oracle Database или PostgreSQL в режиме интенсивных транзакций, каждая миллисекунда задержки напрямую влияет на производительность бизнес-процессов. В этих случаях дополнительные вычислительные операции для дедупликации и компрессии могут создать неприемлемые задержки.
Предварительно обработанные данные. Данные, которые уже прошли сжатие (архивы ZIP, 7z) или шифрование, практически не поддаются дальнейшей оптимизации. Попытки применить к ним дедупликацию или компрессию не дают экономии места, но впустую расходуют процессорные ресурсы.
Временные рабочие наборы. Для данных с коротким жизненным циклом — кэшей приложений, временных файлов, промежуточных результатов вычислений — экономия дискового пространства не критична. В таких сценариях приоритет отдается скорости обработки.
Ограниченные вычислительные ресурсы. На периферийных (edge-) устройствах или системах с ограниченной производительностью процессоров дополнительная нагрузка от алгоритмов оптимизации может привести к общей деградации работы системы.

Равно как и облачные хранилища, виртуализацию СХД и технологии дедупликации нельзя рассматривать как панацею, хотя эти решения и позволяют повысить отдачу от инвестиций в ИТ.

* * *

Стремительный рост объемов корпоративных данных — серьезный вызов для российских организаций. Однако современные механизмы компрессии и дедупликации при правильном подходе к их внедрению позволяют эффективно справляться с этой проблемой. Ключ к успеху лежит в понимании специфики различных типов данных и рабочих нагрузок. Выбор подходящих алгоритмов, настройка параметров под конкретные задачи и грамотное сочетание технологий позволяют достичь впечатляющих результатов — от 50% экономии места при компрессии до 95% сокращения объемов при дедупликации неструктурированных данных. Важно, что российский рынок предлагает готовые решения, которые уже включают эти технологии.

Илья Борняков, генеральный директор ITPOD, корпорация ITG

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!

Телеком	ТВ и медиа	Облака	ПО	Кадры
ИТ	Информационная безопасность	IP-сервисы	Аналитика	Регулирование
Интернет	ЦОД	Оборудование	Аутсорсинг	M&A
ИТ в образовании	ИТ в медицине	Big Data	E-commerce	Спутниковая связь
Блокчейн

Компрессия и дедупликация данных: интеллектуальные технологии управления корпоративными системами хранения

Читайте также: