Documentation
📚 Вопросы с собеседований
DWH вопросы

Вопросы по хранилищам данных

ETL / Data Pipeline (Q/A)

  1. Как был устроен ETL-процесс?
  • Данные забирались из источников.
  • Через API загружались в S3.
  • Далее загружались в ClickHouse.
  • Архитектура включала сырой слой, слой приведения типов/преобразований (ODS), витринный слой.
  1. Что делать, если данные приходят с задержкой?
  • Дождаться поступления.
  • Проанализировать причину задержки.
  • Проверить источники и pipeline.
  1. Работали ли с CDC?
  • Прямого продакшен-опыта не было, но концепция известна.
  • Использование WAL (например, PostgreSQL).
  • Kafka может читать изменения напрямую из лога.
  • Подход применяется в streaming-архитектурах.
  1. Какие методы используете для дедупликации данных?
  • В ClickHouse использовался ReplacingMergeTree.

Базовые вопросы

  1. Что такое денормализованная таблица?
  2. Для чего нужна нормализация таблиц?
  3. Какие подходы построения хранилищ данных бывают?
  4. Что такое OLTP и OLAP? Чем они отличаются? Приведи соответствущие примеры баз данных.
  5. Объясни подход Кимбалла?
  6. Объясни подход Инмона?
  7. Объясни подход Data Vault 2.0? Чем отличается 1 и 2 версия DV?
  8. Объясни подход Anchor Modeling?
  9. Что такое SCD и какие типы бывают?
  10. На какие слои делится ХД? И для чего они нужны?
  11. Что представляет из себя ER-модели, какие связи могут быть?
  12. Как заменяется связь "многие-ко-многим"?
  13. Что такое Data Lake? и чем оно отличается от DWH?
  14. Чем в хранилище ODS слой отличается от DDS слоя?
  15. Что такое потоковая обработка данных и пакетная обработка данных?
  16. Что такое и чем отличаются Концептуальная, Логическая и Физическая модели?