Documentation
🏛️ Data Warehouse / Data Lake / LakeHouse
DataLake

Data Lake

Озеро данных (Data Lake) – это хранилище большого объема неструктурированных данных, собранных или генерированных одной компанией. В таком подходе в озеро данных поступают все данные, которые собирает компания, без предварительной очистки и подготовки.

Примеры данных:

  • Видеозаписи с беспилотников и камер наружного наблюдения.
  • Транспортная телеметрия.
  • Фотографии.
  • Логи пользовательского поведения.
  • Метрики сайтов.
  • Показатели нагрузки информационных систем и пр.

Эти данные пока непригодны для типового использования в ежедневной аналитике в рамках BI-систем, но могут быть использованы для быстрой отработки новых бизнес-гипотез с помощью ML-алгоритмов.

Основные особенности использования подхода:

  • Хранятся все данные, включая «бесполезные», которые могут пригодиться в будущем или не понадобиться никогда.
  • Структурированные, полуструктурированные и неструктурированные разнородные данные различных форматов: от мультимедийных файлов до текстовых и бинарных из разных источников.
  • Высокая гибкость, позволяющая добавлять новые типы и структуры данных в процессе эксплуатации.
  • Из-за отсутствия четкой структуры необходима дополнительная обработка данных для их практического использования.
  • Озеро данных дешевле DWH с точки зрения проектирования.

Преимущества озера данных:

  • Масштабируемость: распределенная файловая система позволяет подключать новые машины или узлы без изменения структуры хранилища.
  • Экономичность: Data Lake можно построить на базе свободного ПО Apache Hadoop, без дорогих лицензий и серверов.
  • Универсальность: большие объемы разнородных данных могут использоваться для различных исследовательских задач (например, прогнозирование спроса или выявление пользовательских предпочтений).
  • Быстрота запуска: накопленные объемы Data Lake позволяют быстро проверять новые модели, не тратя время на сбор информации из различных источников.

Болото данных

У подхода Data Lake есть обратная сторона - болото данных, когда данные собираются, хранятся и не используются.

Причины этого:

  1. Низкое качество данных из-за отсутствия контроля при загрузке и дешевого хранения информации.
  2. Сложность определения ценности данных: философия Big Data предполагает важность любой информации, но если бизнесу нужны данные, эта информация логично загружается сразу в DWH или витрину BI-системы.