Documentation
📚 Вопросы с собеседований
ClickHouse вопросы

Вопросы по ClickHouse

Из реальных собеседований (Q/A)

  1. Какие методы используете для дедупликации данных?
  • Использовался ReplacingMergeTree.
  1. Что делать, если витрина строится слишком долго?
  • Проверить, не появились ли новые тяжелые JOIN.
  • Проанализировать план выполнения.
  • Проверить сортировки, ключи и выбранный движок таблицы.
  1. Что делать, если данные в витрине не сходятся?
  • Найти источник расхождения.
  • Проверить последние изменения в пайплайне.
  • Проверить корректность движка и ключей сортировки.
  1. Разбирали ли инциденты в ClickHouse?
  • Да.
  • Примеры: потеря данных, повторная загрузка из S3, сверка расхождений в витринах.

Базовые вопросы

  1. Принцип работы ClickHouse?
  2. Какие основные движки ClickHouse ты знаешь?
  3. Что такое гранулярность?
  4. В чем различие primary key и order by при создании таблицы?
  5. Где хранится индекс?
  6. Что такое кардинальность и как она аффектит ключ распределения?
  7. Что такое партиции и как они совмещены с primary key?
  8. Как сделать таблицу распределённой в кластере?
  9. Принцип работы MergeTree движков, и как хранятся данные?
  10. Какие проблемы есть у движка ReplacingMergeTree?
  11. Как в Clickhouse устроена операция UPDATE?
  12. Какие индексы используются в ClickHouse?
  13. Как работают JOIN в ClickHouse?
  14. Как в ClickHouse распределяются таблицы между шардами?
  15. Какая машина является координатором в распределённом ClickHouse?
  16. Какими свойствами САР-теоремы обладает ClickHouse?
  17. Почему в ClickHouse нет JOIN по неравенству?
  18. В каком случае ClickHouse выберет физический вид MergeJOIN?
  19. Как PSQL сортирует данные при MergeJOIN , и почему так нельзя сделать в ClickHouse?