Pet Project

Содержание страницы

Pet Project

Проекты

Проект №0 - Sandbox DB

Песочница для Дата Инженера ➜ Sandbox DB (opens in a new tab)

Проект №1 - HalltapeETLPipeline

Важно! Этот проект был таким не сразу. Первые его версии содержали только Airflow, Clickhouse и Pandas под капотом. Поэтому не думайте, что я сразу был суперменом. Все добавлялось и допиливалось уже позже. Но база была та же.

Любой пет проект ты можешь собрать, как с нуля, так и взять готовый шаблон по типу моего. В проекте ниже есть минимальный набор необходимых инструментов. Твоя задача – настроить ETL процесс. Данные можно, как сгенерировать свои, так и скачать по API или с любого другого ресурса. Ограничение только твоя фантазия. Этот проект больше, как шаблон. То, как выстроить весь процесс работы с данными – твоя задача.

Вот, что там уже есть:

Генерация синтетических данных
Построение простой витрины данных на Spark
Мониторинг качества данных
dbt модель для витрины данных в Clickhouse
dbt модель для качества данных в Clickhouse

Для сборки проекта тебе понадобятся знания Git, Docker

Собери его у себя ➜ Pet Project HalltapeETLPipeline (opens in a new tab)

Проект №2 - spacex-api-analize

По всем вопросам по данному проекту можно обращаться к Шустикову Владимиру в телеграмм канале – Инженерообязанный (opens in a new tab)

Задачами проекта является настройка ETL-процесса по загрузке данных из API в базу данных, настройка сетей и логической репликации данных, автоматизация создания аналитических запросов поверх сырых данных и визуальное представление результатов на дашборде.

Здесь вы можете получить следующие знания:

Выгрузка данных из API на AirFlow
Работа с ООП
Настройка сетей, а именно IP-адресации
Логическая репликация в PostgreSQL
Работа с внешними источниками в Clickhouse на основе движка PostgreSQL
Построение моделей, тестов и макросов в DBT

Для сборки проекта тебе понадобятся знания Git, Docker

Собери его у себя ➜ Обработка данных SpaceX AP (opens in a new tab)

Проект №3 - Create mart in PySpark

Задачей данного проекта была сгенерировать сырые данные и на их основе построить несколько витрин данных. Более подробно с заданием проекта можно ознакомиться здесь (opens in a new tab).

В этом проекты вы можете получить следующие знания:

программирования на Python
работа с Google Disk через код
написание кода на PySpark

Собери его у себя

Проект состоит из двух блокнотов:

Для сборки проекта тебе понадобятся стабильный интернет и Google аккаунт. Вся инструкция по запуску описана в блокнотах.

Проект №4 - От почтового сервера до Greenplum

По всем вопросам по данному проекту можно обращаться к Кузьмину Дмитрию (opens in a new tab) в телеграмм канале – Дмитрий Кузьмин. Инженерия данных (opens in a new tab)

ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum (opens in a new tab)

Открытые API для проектов

Launch Library 2 (opens in a new tab) - Запуски ракет, космические события и космические полеты с экипажем.
SpaceX API (opens in a new tab) - Информация о компании SpaceX.
Wikimedia (opens in a new tab) - Дампы данных о посмотрах страниц в Википедии в текстовом виде.

Что такое Kafka SQL вопросы