Страна: Россия

+500% приглашений

Откликайтесь
на вакансии с ИИ

ГибридПолная занятость

Data Engineer (Python + Spark)

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

X5 Tech — один из лидеров ритейл-теха с огромными объемами данных и современным стеком. Проект по детекции аномалий имеет прямой бизнес-эффект, что гарантирует видимость результатов работы и профессиональный рост.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Роль требует уверенного владения PySpark и понимания архитектуры Hadoop/Hive для обработки огромных массивов данных (200+ млн строк). Сложность заключается в необходимости обеспечения near-real-time обработки и тесной интеграции с ML-моделями.

Анализ зарплаты

Медиана320 000 ₽

Рынок220 000 ₽ – 450 000 ₽

В объявлении не указана зарплата, но для позиции Data Engineer уровня Middle/Senior в Москве в компаниях уровня X5 Tech вилка обычно составляет 250 000 – 400 000 рублей. Это соответствует рыночным ожиданиям для специалистов с глубоким знанием Spark и Hadoop.

Меня заинтересовала вакансия Data Engineer в X5 Tech, так как я обладаю глубоким опытом работы с PySpark и построением отказоустойчивых ETL-процессов. У меня есть опыт обработки больших объемов данных (миллионы строк ежедневно) и оптимизации Spark-пайплайнов, что напрямую коррелирует с задачами вашей команды по детекции Out-of-stock ситуаций.

Я уверенно владею стеком Hadoop, Airflow и Python, а также имею опыт интеграции данных из различных источников, включая ERP и внешние API. Работа в связке с Data Science командой для подготовки данных под ML-модели — это именно то направление, в котором я хочу развиваться дальше, принося пользу крупнейшему ритейлеру страны.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в X5 Tech уже сейчас

Присоединяйтесь к команде X5 Tech и создавайте ML-решения, которые влияют на миллионы покупателей каждый день!

Описание вакансии

Data Engineer (Python + Spark)

#гибрид

Москва

Компания: X5 Tech

*🔹*Обязанности

В команде разработывается ML-система, детекирующая Out-of-stock ситуации и аномалии в продажах, которая в near-real-time выявляет потенциальные проблемы с наличием товара и отправляет предупреждения сотрудникам магазинов для оперативной проверки и выкладки.

*🔹 Задача*

Мы строим end-to-end пайплайны, которые собирают данные из разных источников (онлайн и оффлайн-продажи, ERP, внешние API), очищают, трансформируют и подготавливают их для моделей машинного обучения (бустинг и нейронные сети). От качества этих пайплайнов зависит точность прогноза и миллионы управленческих решений в закупках и логистике

• Разрабатывать и оптимизировать Spark-пайплайны для обработки данных в масштабе (200+ млн строк ежедневно)

• Настраивать хранение и доступность данных в DWH

• Автоматизировать интеграцию данных: продажи, акции, цены, остатки, погода, календари

• Работать в связке с Data Science-командой, обеспечивая стабильный и качественный поток данных для моделей

• Участвовать в развитии платформы прогнозирования спроса, делая её более надёжной, масштабируемой и удобной

*☑️*Требования

Наш стек

• PySpark{2,3} / Spark SQL

• Hadoop / Hive / Trino / S3 / clickhouse / postgres/ greenplum

• Airflow

• Python3

• Docker, YARN / k8s

• pytest

Откликнуться

🔥Подписаться на наши каналы / @best_itjob / @it_rab

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Python
Apache Spark
PySpark
SQL
Hadoop
Apache Hive
Trino
Amazon S3
ClickHouse
PostgreSQL
Greenplum
Apache Airflow
Docker
Apache Hadoop YARN
Kubernetes
PyTest

Возможные вопросы на собеседовании

Вакансия предполагает работу с 200+ млн строк ежедневно, важно понимать методы оптимизации.

Какие методы оптимизации Spark-джобов вы использовали для борьбы с проблемой Data Skew?

В стеке указан Airflow, который является стандартом для оркестрации в X5.

Как вы организуете обработку ошибок и механизм ретраев в сложных DAG в Airflow?

Работа ведется с различными хранилищами (Greenplum, ClickHouse, S3).

В каких случаях вы выберете ClickHouse вместо Greenplum для хранения результатов обработки?

Data Engineer работает в связке с DS-командой.

Как вы обеспечиваете воспроизводимость данных и версионирование признаков (feature store) для ML-моделей?

Упоминается работа с Docker и k8s.

Был ли у вас опыт развертывания Spark-приложений в Kubernetes и в чем основные отличия от YARN?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Россия

Откликайтесь
на вакансии с ИИ

Data Engineer (Python + Spark)

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в X5 Tech уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Какие методы оптимизации Spark-джобов вы использовали для борьбы с проблемой Data Skew?

Как вы организуете обработку ошибок и механизм ретраев в сложных DAG в Airflow?

В каких случаях вы выберете ClickHouse вместо Greenplum для хранения результатов обработки?

Как вы обеспечиваете воспроизводимость данных и версионирование признаков (feature store) для ML-моделей?

Был ли у вас опыт развертывания Spark-приложений в Kubernetes и в чем основные отличия от YARN?

Похожие вакансии

Python разработчик (DWH/Data Engineering)

Data Scientist Middle+, Senior

Data Scientist

Data Engineer

Middle+ Data инженер

Backend / ML Infrastructure / MLOps инженер

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Data Engineer (Python + Spark)

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в X5 Tech уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Какие методы оптимизации Spark-джобов вы использовали для борьбы с проблемой Data Skew?

Как вы организуете обработку ошибок и механизм ретраев в сложных DAG в Airflow?

В каких случаях вы выберете ClickHouse вместо Greenplum для хранения результатов обработки?

Как вы обеспечиваете воспроизводимость данных и версионирование признаков (feature store) для ML-моделей?

Был ли у вас опыт развертывания Spark-приложений в Kubernetes и в чем основные отличия от YARN?

Похожие вакансии

Python разработчик (DWH/Data Engineering)

Data Scientist Middle+, Senior

Data Scientist

Data Engineer

Middle+ Data инженер

Backend / ML Infrastructure / MLOps инженер

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ