Rambler's Top100
 
Статьи
Павел КАРНАУХ  17 апреля 2018

Как не утонуть в озере данных

При внедрении озер данных организации часто совершают пять ошибок, которые могут негативно сказаться на применении этой технологии для решения бизнес-задач.

 Хранение больших данных всегда было сложной задачей для компаний. Но, как оказалось, гораздо труднее предоставить легкий доступ к информации и обеспечить удобное управление. Озеро данных — горячо обсуждаемое решение, которое помогает решить эту проблему. Оно подходит организациям, стремящимся оптимизировать хранение и анализ больших объемов данных. Однако иногда процесс внедрения озер данных проходит не совсем гладко.

Технологии больших данных (Big Data) и озер данных (Data Lakes), такие как Hadoop, HDFS, Hive и HBase, быстро стали популярными благодаря возможности хранить необработанные данные приложений в любых формах. Кроме того, такие решения часто требуют меньше затрат, чем корпоративные базы данных. Но главная идея этих технологий в том, что с их помощью организации могут легко искать необходимую информацию независимо от формата исходных данных, — это позволяет повысить эффективность анализа данных при выполнении ежедневных операций.

Озера данных также дают превосходную возможность монетизировать данные, которой не хватает многим компаниям. Однако часто расширение решения происходит без учета этой долгосрочной цели, что влечет за собой серьезные ошибки, которые в итоге не дают превратить озеро данных в масштабируемую и гибкую платформу для монетизации.

Использование озер данных: упущенные возможности

При внедрении озер данных организации часто совершают пять ошибок, которые могут негативно сказаться на применении этой технологии для решения будущих бизнес-задач.

Слишком много Hadoop. Если дистрибутивы или кластеры Hadoop выросли по всей компании, как грибы после дождя, то, скорее всего, увеличится и количество дублированных данных. Многие предприятия развертывают Hadoop постепенно, от отдела к отделу. Из-за этого образуется разрозненная информация, которая тормозит анализ больших данных, ведь сотрудники не могут провести комплексный анализ с использованием всех данных. То есть фактически, внедрив новую технологию, вы все равно возвращаетесь к проблеме разрастания систем хранения и витрин данных, которую озеро должно было решить.
  1. Слишком много правил. В некоторых компаниях слишком серьезно подходят к управлению озером данных, устанавливая чересчур много ограничений для доступа, просмотра и работы с данными. В итоге никто не может получить доступ к озеру, и данные становятся бесполезными.
  2. Слишком мало правил. Другие организации, наоборот, недостаточно хорошо управляют озерами данных: у них слишком мало операторов, инструментов и политик для управления доступом. Если озеро плохо организовано и плохо управляется, то в нем могут быстро накопиться огромные объемы неконтролируемых данных низкого качества. Данные могут «загрязниться» или «исказиться», из-за чего они станут ненадежными, а озеро данных — бесполезным.
  3. Отсутствие гибкой архитектуры. Самая распространенная ошибка — построение озера данных без гибкой архитектуры. Из-за высокой стоимости хранения информации организации обычно наращивают среду больших данных постепенно и структурированно: они добавляют по одному серверу, часто начиная с базовых и позже устанавливая высокопроизводительные. Так в компаниях стараются обеспечить растущие потребности бизнеса. Со временем рост систем хранения данных начинает опережать рост потребностей в обработке, и обслуживание такой большой физической среды становится обременительным и проблематичным.
  4. Домашний проект. ИТ-отделы часто строят озера своими силами, считая, что все сотрудники компании будут использовать эту среду. При этом специалисты пытаются расширить озеро и на примере анализа ИТ-данных стремятся доказать, что ту же операцию они могут выполнять в рамках всего предприятия. Но, откровенно говоря, использование озера данных для ИТ-нужд имеет малую ценность с точки зрения бизнеса и не способно в полной мере продемонстрировать руководству надежность и преимущества технологии.
Будущее озера данных: совместная платформа для создания дополнительной стоимости

Самое большое препятствие для монетизации данных с использованием озер — сложность внедрения.



Еще не разработаны методики, дающие возможность оценить потенциальную стоимость информации и вложить средства в технологии хранения и анализа данных. Не имея представления о перспективах, компании будет трудно увидеть полную картину и вложить достаточно ресурсов в развитие новой технологии.

Недавно компания Dell EMC провела совместно с Университетом Сан-Франциско исследование, в рамках которого была разработана методика, основанная на экономических принципах (умноженное воздействие, дефицит), а также на методах анализа и обработки данных. Одна из целей исследования — определить роль озера данных, управления данными, качества данных и других технологий управления информацией, которые помогают повышать контроль и защиту данных, а также улучшать информационные и аналитические активы организации. Также в ходе исследования мы искали способы определения экономической ценности данных, чтобы помочь компаниям принимать более правильные решения об инвестициях в драгоценные информационные и аналитические ресурсы.

Организации, которые не упустят возможности и смогут успешно преодолеть все трудности, ждет будущее озер данных, открытое для тех, кто полностью понимает уникальные особенности анализа данных и видит возможности цифровых активов. Эти активы никогда не иссякают, и их можно использовать бесконечное число раз с практически нулевой себестоимостью. Такие организации будут рассматривать озеро данных как совместную платформу для создания дополнительной стоимости, которая дает возможность не только повысить эффективность работы с данными, но и монетизировать их.

Как и со всеми новыми технологиями, для полного раскрытия потенциала озера данных и достижения поставленной цели необходимо время. Но те, кто начнет сейчас, правильно определив стратегию развития, смогут создать огромное конкурентное преимущество на многие годы.

Павел Карнаух, руководитель подразделения системных инженеров в России, Казахстане и Центральной Азии, Dell EMC
Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!