- Страна
- Россия
Откликайтесь
на вакансии с ИИ

Data Engineer
Интересный стек технологий (Spark 3, Iceberg, Trino) и работа с реальным Big Data. Четко прописанные требования и понятные задачи по развитию платформы прогнозирования спроса делают вакансию привлекательной для опытных инженеров.
Сложность вакансии
Роль требует глубокой экспертизы в архитектуре Spark и Airflow, а также опыта работы с огромными объемами данных (100+ млн строк). Высокие требования к навыкам оптимизации и пониманию внутренних процессов РСУБД делают позицию сложной для кандидатов без серьезного бэкграунда в Big Data.
Анализ зарплаты
Зарплата не указана, но для уровня Senior Data Engineer на рынках РФ и РБ медиана составляет около 350,000 - 450,000 рублей. Учитывая требования к глубокому знанию Spark и Airflow, позиция должна оплачиваться по верхней границе рынка.
Сопроводительное письмо
Меня заинтересовала вакансия Senior Data Engineer в Eclipse Digital, так как мой опыт работы с PySpark и Apache Airflow идеально соответствует вашим задачам по обработке 200+ млн строк ежедневно. Я обладаю глубоким пониманием архитектуры Spark, включая оптимизацию shuffle и борьбу с data skew, а также имею опыт работы с форматами Iceberg и Parquet в высоконагруженных системах.
В своей практике я не раз решал задачи по динамической генерации DAGов в Airflow и оптимизации сложных SQL-запросов для DWH. Уверен, что мои навыки в построении надежных пайплайнов данных помогут вашей Data Science-команде получать качественные фичи для моделей прогнозирования спроса в кратчайшие сроки.
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Eclipse Digital уже сейчас
Присоединяйтесь к Eclipse Digital и создавайте масштабируемые системы обработки данных для прогнозирования спроса!
Описание вакансии
ID 2325
Data Engineer
Senior
🌍 Локация: РФ, РБ
💼Сотрудничество : по ИП РФ, СМЗ РБ
Eclipse Digital - наниматель
Требования:
- PySpark & большие данные
PySpark (Spark 2 и 3) — уверенное владение. Глубокое понимание архитектуры Spark: executors, драйвер, shuffle, стадии выполнения, Catalyst optimizer, управление памятью. Навыки оптимизации: broadcast join, bucketing, partitioning, борьба с data skew, настройка параллелизма. Spark SQL — сложные аналитические запросы. Опыт работы с объёмами 100+ млн строк ежедневно.
- Хранилища и форматы
HDFS / S3. Trino. Форматы: ORC / Parquet / Iceberg.
- Оркестрация
Apache Airflow — понимание архитектуры: scheduler, executor (Celery/Kubernetes), worker, метабаза. Написание DAGов, сенсоры, retries, SLA, backfill. Умение решать нестандартные задачи: кастомные операторы и хуки, динамическая генерация DAGов, управление зависимостями между пайплайнами, отладка и диагностика проблем в продакшене.
- Python
Python 3 уверенно. Pandas, NumPy — уверенное владение. pytest.
- SQL и РСУБД
Понимание работы РСУБД под капотом: планировщик запросов, индексы, статистика, блокировки. Навыки глубокой оптимизации запросов. Оконные функции, CTE, сложные аналитические конструкции.
- Инфраструктура
Kubernetes, YARN — на общем уровне.
Будет плюсом
Greenplum, ClickHouse.
Что предстоит
• Разрабатывать и оптимизировать Spark-пайплайны для обработки данных в масштабе (200+ млн строк ежедневно)
• Настраивать хранение и доступность данных в DWH
• Автоматизировать интеграцию данных: продажи, акции, цены, остатки, погода, календари
• Работать в связке с Data Science-командой, обеспечивая стабильный и качественный поток данных для моделей
• Участвовать в развитии платформы прогнозирования спроса, делая её более надёжной, масштабируемой и удобной
Откликнуться можно в telegram Откликнуться
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- PySpark
- Apache Spark
- Apache Airflow
- Python
- SQL
- HDFS
- Amazon S3
- Trino
- Apache Iceberg
- Apache Parquet
- Pandas
- NumPy
- PyTest
- Kubernetes
- Apache Hadoop YARN
- Greenplum
- ClickHouse
Возможные вопросы на собеседовании
Проверка понимания внутренних механизмов Spark для оптимизации производительности.
Расскажите, как вы боретесь с проблемой Data Skew в PySpark? Какие стратегии, помимо Salting, вы применяли на практике?
Оценка опыта работы с оркестрацией в сложных инфраструктурах.
Как вы организуете управление зависимостями между DAGами в Airflow, если данные в целевой таблице должны быть готовы до запуска нескольких потребителей?
Проверка навыков проектирования хранилищ данных.
В каких случаях вы выберете формат Iceberg вместо обычного Parquet, и какие преимущества это даст при работе с Trino?
Оценка навыков оптимизации SQL.
Как работает Catalyst Optimizer в Spark SQL и как можно повлиять на план выполнения запроса, если автоматическая оптимизация неэффективна?
Проверка умения работать в связке с DS-командой.
Опишите ваш подход к обеспечению качества данных (Data Quality) в пайплайнах, которые питают ML-модели.
Похожие вакансии
ML разработчик (Senior)
MLOps Engineer
Инженер Mlops (Senior)
Senior MLOps Engineer (Platform Development / LLMOps)
Senior Data Engineer
Data Scientist Senior (Part-time)
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- Россия