Страна: Россия

+500% приглашений

Откликайтесь
на вакансии с ИИ

SeniorУдалённоКонтракт

Data Engineer

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Интересный стек технологий (Spark 3, Iceberg, Trino) и работа с реальным Big Data. Четко прописанные требования и понятные задачи по развитию платформы прогнозирования спроса делают вакансию привлекательной для опытных инженеров.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Роль требует глубокой экспертизы в архитектуре Spark и Airflow, а также опыта работы с огромными объемами данных (100+ млн строк). Высокие требования к навыкам оптимизации и пониманию внутренних процессов РСУБД делают позицию сложной для кандидатов без серьезного бэкграунда в Big Data.

Анализ зарплаты

Медиана400 000 ₽

Рынок300 000 ₽ – 550 000 ₽

Зарплата не указана, но для уровня Senior Data Engineer на рынках РФ и РБ медиана составляет около 350,000 - 450,000 рублей. Учитывая требования к глубокому знанию Spark и Airflow, позиция должна оплачиваться по верхней границе рынка.

Меня заинтересовала вакансия Senior Data Engineer в Eclipse Digital, так как мой опыт работы с PySpark и Apache Airflow идеально соответствует вашим задачам по обработке 200+ млн строк ежедневно. Я обладаю глубоким пониманием архитектуры Spark, включая оптимизацию shuffle и борьбу с data skew, а также имею опыт работы с форматами Iceberg и Parquet в высоконагруженных системах.

В своей практике я не раз решал задачи по динамической генерации DAGов в Airflow и оптимизации сложных SQL-запросов для DWH. Уверен, что мои навыки в построении надежных пайплайнов данных помогут вашей Data Science-команде получать качественные фичи для моделей прогнозирования спроса в кратчайшие сроки.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Eclipse Digital уже сейчас

Присоединяйтесь к Eclipse Digital и создавайте масштабируемые системы обработки данных для прогнозирования спроса!

Описание вакансии

ID 2325

Data Engineer

Senior

🌍 Локация: РФ, РБ

💼Сотрудничество : по ИП РФ, СМЗ РБ

Eclipse Digital - наниматель

Требования:

PySpark & большие данные

PySpark (Spark 2 и 3) — уверенное владение. Глубокое понимание архитектуры Spark: executors, драйвер, shuffle, стадии выполнения, Catalyst optimizer, управление памятью. Навыки оптимизации: broadcast join, bucketing, partitioning, борьба с data skew, настройка параллелизма. Spark SQL — сложные аналитические запросы. Опыт работы с объёмами 100+ млн строк ежедневно.

Хранилища и форматы

HDFS / S3. Trino. Форматы: ORC / Parquet / Iceberg.

Оркестрация

Apache Airflow — понимание архитектуры: scheduler, executor (Celery/Kubernetes), worker, метабаза. Написание DAGов, сенсоры, retries, SLA, backfill. Умение решать нестандартные задачи: кастомные операторы и хуки, динамическая генерация DAGов, управление зависимостями между пайплайнами, отладка и диагностика проблем в продакшене.

Python

Python 3 уверенно. Pandas, NumPy — уверенное владение. pytest.

SQL и РСУБД

Понимание работы РСУБД под капотом: планировщик запросов, индексы, статистика, блокировки. Навыки глубокой оптимизации запросов. Оконные функции, CTE, сложные аналитические конструкции.

Инфраструктура

Kubernetes, YARN — на общем уровне.

Будет плюсом

Greenplum, ClickHouse.

Что предстоит

• Разрабатывать и оптимизировать Spark-пайплайны для обработки данных в масштабе (200+ млн строк ежедневно)

• Настраивать хранение и доступность данных в DWH

• Автоматизировать интеграцию данных: продажи, акции, цены, остатки, погода, календари

• Работать в связке с Data Science-командой, обеспечивая стабильный и качественный поток данных для моделей

• Участвовать в развитии платформы прогнозирования спроса, делая её более надёжной, масштабируемой и удобной

Откликнуться можно в telegram Откликнуться

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

PySpark
Apache Spark
Apache Airflow
Python
SQL
HDFS
Amazon S3
Trino
Apache Iceberg
Apache Parquet
Pandas
NumPy
PyTest
Kubernetes
Apache Hadoop YARN
Greenplum
ClickHouse

Возможные вопросы на собеседовании

Проверка понимания внутренних механизмов Spark для оптимизации производительности.

Расскажите, как вы боретесь с проблемой Data Skew в PySpark? Какие стратегии, помимо Salting, вы применяли на практике?

Оценка опыта работы с оркестрацией в сложных инфраструктурах.

Как вы организуете управление зависимостями между DAGами в Airflow, если данные в целевой таблице должны быть готовы до запуска нескольких потребителей?

Проверка навыков проектирования хранилищ данных.

В каких случаях вы выберете формат Iceberg вместо обычного Parquet, и какие преимущества это даст при работе с Trino?

Оценка навыков оптимизации SQL.

Как работает Catalyst Optimizer в Spark SQL и как можно повлиять на план выполнения запроса, если автоматическая оптимизация неэффективна?

Проверка умения работать в связке с DS-командой.

Опишите ваш подход к обеспечению качества данных (Data Quality) в пайплайнах, которые питают ML-модели.

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Страна: Россия

Откликайтесь
на вакансии с ИИ

Data Engineer

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Eclipse Digital уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите, как вы боретесь с проблемой Data Skew в PySpark? Какие стратегии, помимо Salting, вы применяли на практике?

Как вы организуете управление зависимостями между DAGами в Airflow, если данные в целевой таблице должны быть готовы до запуска нескольких потребителей?

В каких случаях вы выберете формат Iceberg вместо обычного Parquet, и какие преимущества это даст при работе с Trino?

Как работает Catalyst Optimizer в Spark SQL и как можно повлиять на план выполнения запроса, если автоматическая оптимизация неэффективна?

Опишите ваш подход к обеспечению качества данных (Data Quality) в пайплайнах, которые питают ML-модели.

Похожие вакансии

ML разработчик (Senior)

MLOps Engineer

Инженер Mlops (Senior)

Senior MLOps Engineer (Platform Development / LLMOps)

Senior Data Engineer

Data Scientist Senior (Part-time)

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Data Engineer

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Eclipse Digital уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите, как вы боретесь с проблемой Data Skew в PySpark? Какие стратегии, помимо Salting, вы применяли на практике?

Как вы организуете управление зависимостями между DAGами в Airflow, если данные в целевой таблице должны быть готовы до запуска нескольких потребителей?

В каких случаях вы выберете формат Iceberg вместо обычного Parquet, и какие преимущества это даст при работе с Trino?

Как работает Catalyst Optimizer в Spark SQL и как можно повлиять на план выполнения запроса, если автоматическая оптимизация неэффективна?

Опишите ваш подход к обеспечению качества данных (Data Quality) в пайплайнах, которые питают ML-модели.

Похожие вакансии

ML разработчик (Senior)

MLOps Engineer

Инженер Mlops (Senior)

Senior MLOps Engineer (Platform Development / LLMOps)

Senior Data Engineer

Data Scientist Senior (Part-time)

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ