Documentation
🏛️ Data Warehouse / Data Lake / LakeHouse
DataLake

Data Lake

Data Lake (Озеро данных) — это хранилище, куда складывают все данные компании в исходном виде: без строгой структуры, без витрин и без заранее заданной схемы.

Грубо говоря: «сначала всё собираем, а разберёмся потом».


Что обычно хранится в Data Lake

  • Логи пользовательского поведения
  • Метрики сайтов и приложений
  • Сырые события из сервисов
  • Фото, видео, аудио
  • Телеметрия устройств и датчиков
  • Данные из API и внешних источников

Такие данные часто не подходят для BI «из коробки», но идеально подходят для ML, исследований и быстрого теста гипотез.


Ключевая идея

Схема применяется на чтении, а не на записи.

Это значит:

  • данные можно загрузить быстро,
  • структура может появиться позже,
  • аналитики и ML-инженеры сами формируют нужные срезы.

Основные особенности

  • Хранятся все данные, даже «бесполезные»
  • Структурированные, полуструктурированные и неструктурированные форматы
  • Гибкость: можно добавлять новые источники без пересборки модели
  • Для практического использования почти всегда нужна доп. обработка
  • Дешевле в проектировании, чем классический DWH

Преимущества Data Lake

  • Масштабируемость: легко наращивать объемы хранения
  • Экономичность: можно использовать open-source и дешёвые хранилища
  • Универсальность: данные подходят и для аналитики, и для ML
  • Быстрый старт: не нужно сразу строить сложную модель

Болото данных (Data Swamp)

Если в озере нет правил, оно превращается в болото. Это происходит, когда:

  1. данные грузятся без контроля качества;
  2. никто не знает, что внутри и где это лежит;
  3. нет описаний, владельцев и метаданных;
  4. данные никто не использует, но продолжают хранить.

Как не превратить озеро в болото

  • описывать источники и данные (метаданные)
  • вводить правила именования и структуры каталогов
  • хранить историю загрузок и качество данных
  • давать доступ только к понятным наборам

Когда Data Lake уместен

Data Lake хорош, если:

  • много источников и форматов
  • нужны ML/DS эксперименты
  • важно хранить сырьё целиком
  • бизнес часто меняется

Если же задача — стабильные отчёты и понятные витрины, то без DWH не обойтись.


Что может быть Data Lake

Data Lake — это скорее подход, чем конкретный продукт.
Им может быть любое хранилище, которое позволяет складывать большие объёмы сырого разнородного дата-сета.

Обычно Data Lake строят на:

  • объектных хранилищах (S3-совместимые, облачные или on-prem)
  • распределённых файловых системах
  • иногда — на дешёвых блочных хранилищах с поверхностной структурой каталогов

Какие хранилища подходят под Data Lake

Самые типовые варианты:

  • Amazon S3 / S3-compatible (MinIO, Ceph, Yandex Object Storage и т.д.)
  • Google Cloud Storage
  • Azure Data Lake Storage
  • HDFS (в Hadoop-экосистеме)

Важно не название, а свойства:

  • хранит большие объёмы;
  • дешёвое масштабирование;
  • не требует жёсткой схемы на запись;
  • позволяет хранить любые форматы данных.