- Страна
- Россия
Откликайтесь
на вакансии с ИИ

Data Engineer - Middle+ / Senior
Интересный проект с современным стеком технологий и серьезными масштабами данных. Однако гибридный формат с обязательным присутствием в офисе на улице Вавилова и поквартальная оплата могут подойти не всем кандидатам.
Сложность вакансии
Высокая сложность обусловлена работой с огромными объемами данных (миллиарды строк) и специфическим требованием к использованию Java для Spark. Также требуется глубокая экспертиза в нескольких СУБД (Greenplum, ClickHouse) и инструментах оркестрации.
Анализ зарплаты
Ставка 2000 руб./час с НДС при полной занятости (160 часов) составляет около 320 000 руб. в месяц. Это соответствует среднерыночным показателям для уровня Senior Data Engineer в Москве, но находится на нижней границе для экспертов с глубоким знанием Java и Big Data стека.
Сопроводительное письмо
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь уже сейчас
Присоединяйтесь к масштабному Big Data проекту в финансовом секторе и работайте с миллиардами строк данных!
Описание вакансии
Data Engineer - Middle+ / Senior
Описание проекта: Подготовка и визуализация данных для финансового департамента
Продолжительность: Год+
Локация: Москва
Формат работы: гибрид в Москве на Вавилова - договорной формат, на старте 3 дня и более может быть в офисе, далее опционально
Ставка: 2000 с НДС, оплата поквартально
Требования:
● Опыт работы с Apache Spark (Java) от 1 года.
● Опыт работы с СУБД (Greenplum, ClickHouse, PostgreSQL) от 2 лет
● Опыт работы с Hadoop (HDFS, Hive)
● Опыт проектирования и разработки потоков данных, алгоритмов загрузки и обработки данных
● Опыт оптимизации ETL-пайплайнов и SQL кода
● Продвинутые знания SQL.
● Понимание принципов работы распределенных систем.
● Готовность осваивать Java для использования Spark
Основные задачи:
● Разработка ETL на Apache Spark (Java стек)
● Разработка ETL-пайплайнов (Apache Spark, HDFS (parquets), Hive, Greenplum, ClickHouse);
● Разработка витрин данных в Greenplum и ClickHouse
● Оркестрация ETL-процессов.
● Оптимизация ETL-процессов (батчинг, ретраи, SLA-контроль).
● Взаимодействие с BI-разработчиками и DevOps для своевременной доставки данных в Superset.
Стек технологий:
HDFS, Greenplum, Clickhouse, Apache Spark, Apache Airflow, Python, Qlik Sense, Apache Superset, PL/Pg SQL, OpenShift, Bitbucket, Jira & Confluence, Docker, Kubernetes, Kibana, Grafana
Описание потоков данных:
HDFS > Spark > Hive > Greenplum > Clickhouse > Superset
ВАЖНО, это BIG DATA, речь идет о миллиардах строк
❗️Важно
При отправке кандидата приложите информацию:
ФИО
Дата рождения
Локация
Грейд
Рейт (ставка/час)
Возможная дата старта на новый проект
Планы на отпуск в ближайшие 6 мес
Штатный/партнерский/рынок
Скрининг по заявленным требованиям к вакансии (проставить +-)
Откликнуться на запрос: ОткликнутьсяПо вопросам партнерского сотрудничества: Откликнуться
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Apache Spark
- Java
- Greenplum
- ClickHouse
- PostgreSQL
- Hadoop
- HDFS
- Hive
- ETL
- SQL
- Apache Airflow
- Python
- Qlik Sense
- Apache Superset
- PL/pgSQL
- OpenShift
- Docker
- Kubernetes
- Kibana
- Grafana
Возможные вопросы на собеседовании
Вакансия предполагает работу с миллиардами строк, важно понимать навыки оптимизации.
Какие методы оптимизации Spark-приложений вы использовали для борьбы с проблемой Data Skew при обработке больших объемов данных?
В стеке указаны обе СУБД, важно понимать критерии выбора между ними.
В каких случаях для построения витрин данных вы выберете ClickHouse, а в каких — Greenplum? Опишите ключевые различия в их архитектуре.
Проект использует Java-стек для Spark.
В чем заключаются основные преимущества и сложности использования Java API для Apache Spark по сравнению с PySpark в контексте производительности и типизации?
Работа с HDFS и Parquet является частью основных задач.
Как структура и размер Parquet-файлов в HDFS влияют на производительность последующего чтения данных через Spark или Hive?
Упоминается SLA-контроль и ретраи.
Как вы организуете мониторинг и обработку ошибок в Airflow, чтобы гарантировать соблюдение SLA при доставке данных в финансовые отчеты?
Похожие вакансии
Data инженер Middle+ Senior
AI/ML Engineer
Senior Data Engineer
Data Scientist (Senior)
Data инженер (Senior)
Data Engineer
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- Россия