- Страна
- Россия
Откликайтесь
на вакансии с ИИ

Data Engineer (Python + Spark)
X5 Tech — один из лидеров ритейл-теха с огромными объемами данных и современным стеком. Проект по детекции аномалий имеет прямой бизнес-эффект, что гарантирует видимость результатов работы и профессиональный рост.
Сложность вакансии
Роль требует уверенного владения PySpark и понимания архитектуры Hadoop/Hive для обработки огромных массивов данных (200+ млн строк). Сложность заключается в необходимости обеспечения near-real-time обработки и тесной интеграции с ML-моделями.
Анализ зарплаты
В объявлении не указана зарплата, но для позиции Data Engineer уровня Middle/Senior в Москве в компаниях уровня X5 Tech вилка обычно составляет 250 000 – 400 000 рублей. Это соответствует рыночным ожиданиям для специалистов с глубоким знанием Spark и Hadoop.
Сопроводительное письмо
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в X5 Tech уже сейчас
Присоединяйтесь к команде X5 Tech и создавайте ML-решения, которые влияют на миллионы покупателей каждый день!
Описание вакансии
Data Engineer (Python + Spark)
Москва
Компания: X5 Tech
*🔹*Обязанности
В команде разработывается ML-система, детекирующая Out-of-stock ситуации и аномалии в продажах, которая в near-real-time выявляет потенциальные проблемы с наличием товара и отправляет предупреждения сотрудникам магазинов для оперативной проверки и выкладки.
*🔹 Задача*
Мы строим end-to-end пайплайны, которые собирают данные из разных источников (онлайн и оффлайн-продажи, ERP, внешние API), очищают, трансформируют и подготавливают их для моделей машинного обучения (бустинг и нейронные сети). От качества этих пайплайнов зависит точность прогноза и миллионы управленческих решений в закупках и логистике
• Разрабатывать и оптимизировать Spark-пайплайны для обработки данных в масштабе (200+ млн строк ежедневно)
• Настраивать хранение и доступность данных в DWH
• Автоматизировать интеграцию данных: продажи, акции, цены, остатки, погода, календари
• Работать в связке с Data Science-командой, обеспечивая стабильный и качественный поток данных для моделей
• Участвовать в развитии платформы прогнозирования спроса, делая её более надёжной, масштабируемой и удобной
*☑️*Требования
Наш стек
• PySpark{2,3} / Spark SQL
• Hadoop / Hive / Trino / S3 / clickhouse / postgres/ greenplum
• Airflow
• Python3
• Docker, YARN / k8s
• pytest
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Python
- Apache Spark
- PySpark
- SQL
- Hadoop
- Apache Hive
- Trino
- Amazon S3
- ClickHouse
- PostgreSQL
- Greenplum
- Apache Airflow
- Docker
- Apache Hadoop YARN
- Kubernetes
- PyTest
Возможные вопросы на собеседовании
Вакансия предполагает работу с 200+ млн строк ежедневно, важно понимать методы оптимизации.
Какие методы оптимизации Spark-джобов вы использовали для борьбы с проблемой Data Skew?
В стеке указан Airflow, который является стандартом для оркестрации в X5.
Как вы организуете обработку ошибок и механизм ретраев в сложных DAG в Airflow?
Работа ведется с различными хранилищами (Greenplum, ClickHouse, S3).
В каких случаях вы выберете ClickHouse вместо Greenplum для хранения результатов обработки?
Data Engineer работает в связке с DS-командой.
Как вы обеспечиваете воспроизводимость данных и версионирование признаков (feature store) для ML-моделей?
Упоминается работа с Docker и k8s.
Был ли у вас опыт развертывания Spark-приложений в Kubernetes и в чем основные отличия от YARN?
Похожие вакансии
Python разработчик (DWH/Data Engineering)
Data Scientist Middle+, Senior
Data Scientist
Data Engineer
Middle+ Data инженер
Backend / ML Infrastructure / MLOps инженер
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!