Страна: Россия

+500% приглашений

Откликайтесь
на вакансии с ИИ

SeniorГибридКонтракт

Data Engineer - Middle+ / Senior

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Интересный проект с современным стеком технологий и серьезными масштабами данных. Однако гибридный формат с обязательным присутствием в офисе на улице Вавилова и поквартальная оплата могут подойти не всем кандидатам.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Высокая сложность обусловлена работой с огромными объемами данных (миллиарды строк) и специфическим требованием к использованию Java для Spark. Также требуется глубокая экспертиза в нескольких СУБД (Greenplum, ClickHouse) и инструментах оркестрации.

Анализ зарплаты

Медиана350 000 ₽

Рынок280 000 ₽ – 450 000 ₽

Ставка 2000 руб./час с НДС при полной занятости (160 часов) составляет около 320 000 руб. в месяц. Это соответствует среднерыночным показателям для уровня Senior Data Engineer в Москве, но находится на нижней границе для экспертов с глубоким знанием Java и Big Data стека.

Меня заинтересовала вакансия Data Engineer для финансового департамента, так как я обладаю глубоким опытом работы с Big Data стеком, включая Greenplum, ClickHouse и Hadoop. У меня есть успешный опыт проектирования ETL-пайплайнов и оптимизации SQL-запросов для высоконагруженных систем, что критично для обработки миллиардов строк, упомянутых в описании.

Особенно привлекает возможность работы с Apache Spark на Java-стеке. Я готов применять свои знания распределенных систем для разработки витрин данных и обеспечения SLA-контроля. Мой опыт взаимодействия с BI-командами и DevOps поможет эффективно выстроить процесс доставки данных в Superset.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь уже сейчас

Присоединяйтесь к масштабному Big Data проекту в финансовом секторе и работайте с миллиардами строк данных!

Описание вакансии

Data Engineer - Middle+ / Senior

Описание проекта: Подготовка и визуализация данных для финансового департамента

Продолжительность: Год+

Локация: Москва

Формат работы: гибрид в Москве на Вавилова - договорной формат, на старте 3 дня и более может быть в офисе, далее опционально

Ставка: 2000 с НДС, оплата поквартально

Требования:

● Опыт работы с Apache Spark (Java) от 1 года.

● Опыт работы с СУБД (Greenplum, ClickHouse, PostgreSQL) от 2 лет

● Опыт работы с Hadoop (HDFS, Hive)

● Опыт проектирования и разработки потоков данных, алгоритмов загрузки и обработки данных

● Опыт оптимизации ETL-пайплайнов и SQL кода

● Продвинутые знания SQL.

● Понимание принципов работы распределенных систем.

● Готовность осваивать Java для использования Spark

Основные задачи:

● Разработка ETL на Apache Spark (Java стек)

● Разработка ETL-пайплайнов (Apache Spark, HDFS (parquets), Hive, Greenplum, ClickHouse);

● Разработка витрин данных в Greenplum и ClickHouse

● Оркестрация ETL-процессов.

● Оптимизация ETL-процессов (батчинг, ретраи, SLA-контроль).

● Взаимодействие с BI-разработчиками и DevOps для своевременной доставки данных в Superset.

Стек технологий:

HDFS, Greenplum, Clickhouse, Apache Spark, Apache Airflow, Python, Qlik Sense, Apache Superset, PL/Pg SQL, OpenShift, Bitbucket, Jira & Confluence, Docker, Kubernetes, Kibana, Grafana

Описание потоков данных:

HDFS > Spark > Hive > Greenplum > Clickhouse > Superset

ВАЖНО, это BIG DATA, речь идет о миллиардах строк

❗️Важно

При отправке кандидата приложите информацию:

ФИО

Дата рождения

Локация

Грейд

Рейт (ставка/час)

Возможная дата старта на новый проект

Планы на отпуск в ближайшие 6 мес

Штатный/партнерский/рынок

Скрининг по заявленным требованиям к вакансии (проставить +-)

Откликнуться на запрос: ОткликнутьсяПо вопросам партнерского сотрудничества: Откликнуться

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Apache Spark
Java
Greenplum
ClickHouse
PostgreSQL
Hadoop
HDFS
Hive
ETL
SQL
Apache Airflow
Python
Qlik Sense
Apache Superset
PL/pgSQL
OpenShift
Docker
Kubernetes
Kibana
Grafana

Возможные вопросы на собеседовании

Вакансия предполагает работу с миллиардами строк, важно понимать навыки оптимизации.

Какие методы оптимизации Spark-приложений вы использовали для борьбы с проблемой Data Skew при обработке больших объемов данных?

В стеке указаны обе СУБД, важно понимать критерии выбора между ними.

В каких случаях для построения витрин данных вы выберете ClickHouse, а в каких — Greenplum? Опишите ключевые различия в их архитектуре.

Проект использует Java-стек для Spark.

В чем заключаются основные преимущества и сложности использования Java API для Apache Spark по сравнению с PySpark в контексте производительности и типизации?

Работа с HDFS и Parquet является частью основных задач.

Как структура и размер Parquet-файлов в HDFS влияют на производительность последующего чтения данных через Spark или Hive?

Упоминается SLA-контроль и ретраи.

Как вы организуете мониторинг и обработку ошибок в Airflow, чтобы гарантировать соблюдение SLA при доставке данных в финансовые отчеты?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Страна: Россия

Откликайтесь
на вакансии с ИИ

Data Engineer - Middle+ / Senior

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Какие методы оптимизации Spark-приложений вы использовали для борьбы с проблемой Data Skew при обработке больших объемов данных?

В каких случаях для построения витрин данных вы выберете ClickHouse, а в каких — Greenplum? Опишите ключевые различия в их архитектуре.

В чем заключаются основные преимущества и сложности использования Java API для Apache Spark по сравнению с PySpark в контексте производительности и типизации?

Как структура и размер Parquet-файлов в HDFS влияют на производительность последующего чтения данных через Spark или Hive?

Как вы организуете мониторинг и обработку ошибок в Airflow, чтобы гарантировать соблюдение SLA при доставке данных в финансовые отчеты?

Похожие вакансии

Data инженер Middle+ Senior

AI/ML Engineer

Senior Data Engineer

Data Scientist (Senior)

Data инженер (Senior)

Data Engineer

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Data Engineer - Middle+ / Senior

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Какие методы оптимизации Spark-приложений вы использовали для борьбы с проблемой Data Skew при обработке больших объемов данных?

В каких случаях для построения витрин данных вы выберете ClickHouse, а в каких — Greenplum? Опишите ключевые различия в их архитектуре.

В чем заключаются основные преимущества и сложности использования Java API для Apache Spark по сравнению с PySpark в контексте производительности и типизации?

Как структура и размер Parquet-файлов в HDFS влияют на производительность последующего чтения данных через Spark или Hive?

Как вы организуете мониторинг и обработку ошибок в Airflow, чтобы гарантировать соблюдение SLA при доставке данных в финансовые отчеты?

Похожие вакансии

Data инженер Middle+ Senior

AI/ML Engineer

Senior Data Engineer

Data Scientist (Senior)

Data инженер (Senior)

Data Engineer

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ