Вопросы по хранилищам данных
ETL / Data Pipeline (Q/A)
- Как был устроен ETL-процесс?
- Данные забирались из источников.
- Через API загружались в S3.
- Далее загружались в ClickHouse.
- Архитектура включала сырой слой, слой приведения типов/преобразований (ODS), витринный слой.
- Что делать, если данные приходят с задержкой?
- Дождаться поступления.
- Проанализировать причину задержки.
- Проверить источники и pipeline.
- Работали ли с CDC?
- Прямого продакшен-опыта не было, но концепция известна.
- Использование WAL (например, PostgreSQL).
- Kafka может читать изменения напрямую из лога.
- Подход применяется в streaming-архитектурах.
- Какие методы используете для дедупликации данных?
- В ClickHouse использовался
ReplacingMergeTree.
Базовые вопросы
- Что такое денормализованная таблица?
- Для чего нужна нормализация таблиц?
- Какие подходы построения хранилищ данных бывают?
- Что такое OLTP и OLAP? Чем они отличаются? Приведи соответствущие примеры баз данных.
- Объясни подход Кимбалла?
- Объясни подход Инмона?
- Объясни подход Data Vault 2.0? Чем отличается 1 и 2 версия DV?
- Объясни подход Anchor Modeling?
- Что такое SCD и какие типы бывают?
- На какие слои делится ХД? И для чего они нужны?
- Что представляет из себя ER-модели, какие связи могут быть?
- Как заменяется связь "многие-ко-многим"?
- Что такое Data Lake? и чем оно отличается от DWH?
- Чем в хранилище ODS слой отличается от DDS слоя?
- Что такое потоковая обработка данных и пакетная обработка данных?
- Что такое и чем отличаются Концептуальная, Логическая и Физическая модели?