Вопросы по ClickHouse
Из реальных собеседований (Q/A)
- Какие методы используете для дедупликации данных?
- Использовался
ReplacingMergeTree.
- Что делать, если витрина строится слишком долго?
- Проверить, не появились ли новые тяжелые
JOIN. - Проанализировать план выполнения.
- Проверить сортировки, ключи и выбранный движок таблицы.
- Что делать, если данные в витрине не сходятся?
- Найти источник расхождения.
- Проверить последние изменения в пайплайне.
- Проверить корректность движка и ключей сортировки.
- Разбирали ли инциденты в ClickHouse?
- Да.
- Примеры: потеря данных, повторная загрузка из S3, сверка расхождений в витринах.
Базовые вопросы
- Принцип работы ClickHouse?
- Какие основные движки ClickHouse ты знаешь?
- Что такое гранулярность?
- В чем различие primary key и order by при создании таблицы?
- Где хранится индекс?
- Что такое кардинальность и как она аффектит ключ распределения?
- Что такое партиции и как они совмещены с primary key?
- Как сделать таблицу распределённой в кластере?
- Принцип работы MergeTree движков, и как хранятся данные?
- Какие проблемы есть у движка ReplacingMergeTree?
- Как в Clickhouse устроена операция UPDATE?
- Какие индексы используются в ClickHouse?
- Как работают JOIN в ClickHouse?
- Как в ClickHouse распределяются таблицы между шардами?
- Какая машина является координатором в распределённом ClickHouse?
- Какими свойствами САР-теоремы обладает ClickHouse?
- Почему в ClickHouse нет JOIN по неравенству?
- В каком случае ClickHouse выберет физический вид MergeJOIN?
- Как PSQL сортирует данные при MergeJOIN , и почему так нельзя сделать в ClickHouse?